百川大模型拿下国产第一,AI助手「百小应」上线,比Kimi强不少

news2024/9/20 19:27:59

最近几天,国内 AI 创业公司正在连续刷新大模型的能力上限。

5 月 22 日,百川智能发布最新一代基座大模型 Baichuan 4,同时推出了首款 AI 助手「百小应」。

相较 1 月份发布的 Baichuan 3,新一代模型在各项能力上均有大幅提升,其中通用能力提升超过 10%,数学和代码能力分别提升 14% 和 9%,在国内权威大模型评测机构 SuperCLUE 的评测中,Baichuan-4 大模型能力排名国内第一,超越了 SenseChat V5。

「在通往 AGI 的路上,我们需要超级模型 + 超级应用的双轮驱动。这是百川自去年成立时确立的基本理念,」百川智能创始人、CEO 王小川表示。「模型能力与超级应用都非常重要。这次的发布,是我们在这条道路上的进步。」

图片

本次更新的 Baichun 4 大模型首次带来了多模态能力。百川表示,新模型在各大评测基准上表现优异,领先 Gemini Pro、Claude3-sonnet 等多模态模型。

尽管带来了多模态能力,但接下来的技术发展规划中,自然语言仍然是重点。王小川表示,大模型的核心是语言智能,推理能力仍然需要突破,多模态没有智力,只是对世界的复现。

「今天的大模型自洽性都不够,模型思考缺乏严谨性。有足够好的逻辑是更加重要的事。我不认为模型的长文本是唯一的事情,现在 AI 公司在长文本上竞争,但长文本只是做大的必要条件,不是充分条件。我认为模型本身未来更要强调内在的自洽性和推理能力,这两件事并不是靠长窗口去解决的,」王小川表示。

在 Baichuan 4 强大能力的基础上,百川智能将搜索技术与大模型深度融合,推出懂搜索、会提问的 AI 助手「百小应」。

图片

百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户需求,为用户提供专业、丰富的知识和资源。此外还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求,给出更精准的答案。

百小应现在已经在 Web 端、iOS 和安卓应用商店同步上线,链接:https://ying.baichuan-ai.com/chat

此外,百川智能还宣布开放 Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API 四款 API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应 API,便捷高效地体验百川智能新一代模型的强大能力。

图片

新模型能力国内第一

多项能力超越国外主流模型

作为百川智能发布的最新一代基座大模型,Baichuan 4 在国内权威大模型评测机构 SuperCLUE 的评测中,模型能力国内第一,相较上一代大模型 Baichuan 3 提升显著。

图片

不仅如此,与国外主流大模型对比,Baichuan4 在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。

图片

Baichuan 4 能在较短的时间内取得突破,源于其在训练过程中引入了诸多业界领先的技术优化手段。例如,其在预训练阶段采用了基于 Model-based+Human-based 的协同数据筛选优化方法,以及对长文本建模位置编码科学的 Scaling Law,有效提升了模型对数据的利用。

在对齐阶段,新模型重点优化了模型 Reasoning、Planning、Instruct following 能力,通过 loss 驱动的数据选取与训练,多阶段爬坡,多模型参数融合等方式有效提升了模型的关键指标和稳定性。同时突破 RLHF 和 RLAIF 融合的 RLxF 强化学习对齐技术,大幅提升模型的指令遵循等能力。

此外,Baichuan 4 还具备行业领先的多模态能力,在 MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista 等评测基准上表现优异,大幅领先 Gemini Pro、Claude3-sonnet 等多模态模型。

图片

首款 AI 助手百小应

懂搜索、会提问

「百小应」是百川智能成立之后推出的首款 AI 应用。百川智能认为,不同于信息时代工具属性的产品,大模型创造的是新物种,让 AI 从工具变为伙伴。虽然受限于模型能力,当下的 AI 应用还无法完全做到如同人一样,能够使用工具、会思考、有情感等,但随着模型能力的持续提升,相关应用一定会逐步具备完整能力。

为了让用户能够拥有更优质的智能体验,百小应很好地融合了 Baichan 4 行业领先的通用能力与百川智能前沿的搜索技术,具备多步搜索、智能定向搜索等能力,将百小应打造成一款懂搜索、会提问的 AI 助手。

百川着重展示了百小应交互中的多轮搜索能力。针对用户提出的问题,百小应可以逐步解析,深入探究,解锁问题的核心答案。相比单轮搜索,在市场调研、产业分析等复杂场景下,多轮搜索能够有效地获取更专业、更有深度的信息。定向搜索则能让百小应精准定位问题领域,直接访问权威站点,快速、准确地找到相关信息。

在搜索结果呈现方面,百小应同样与其他在单次搜索后「简单总结网页信息」的应用不同,会将搜索结果作为观点、论据直接应用到问答结果中。与此同时,其结果的结构化也非常优秀,能够将搜索结果以表格等结构化形式呈现,优化信息布局,便于用户快速定位、解读所需信息,可以为行业分析、调研工作提供助力。此外,百小应还在搜索结果中增加了来源参考,用户只需点击引用角标即可快速校验搜索结果。

不仅如此,针对一部分用户无法明确表述出自身需求,或者问题过于笼统、抽象的情况,百小应还会通过反问的方式,多轮交互定位需求,构建个性化解决方案,给出更精准的答案。

除了强大的搜索和提问功能以外,用户还能在百小应中上传 PDF、word 文档,或者直接输入网页链接(URL),阅读并分析书籍、报告、学术论文等长篇内容,仅用一分钟便能读完上市公司财报。在 Baichuan 4 多模态能力的支持下,用户在提问的同时还可以同步上传图片,对图片内容进行解读,或者将图片作为补充材料,获取更精准的回答;并且,它还支持用户通过语音的方式进行交互。

百小应的名称源自「一呼百应」,icon 中的橙色区别于科技领域常用的冷色调,寓意有温度的人工智能,icon 中的形象由水滴和对话气泡组合而成,水滴象征百川入海的无尽智慧,对话气泡象征沟通交流。

图片

MaaS 1000 万免费

token、AaaS 免费试用

百川智能认为,企业客户需要的并不是大模型,而是生产力、生产效率的提升,拥有 MaaS+ AaaS(Agent as a service)双重能力,企业才能构建出智能化的最佳方案。

秉持这一理念,百川智能推出了全新的 MaaS+AaaS 服务。MaaS 版块由基座模型组成,分为旗舰版和专业版。旗舰版将全量开放 Baichuan 4 的各项能力,Baichuan 4 不仅拥有国内第一的中文能力,并且具备行业领先的金融知识和问答能力,在 SuperCLUE 的金融知识百科能力上 Baichuan 3 就已取得了 A + 的最高评级。

专业版包含 Baichuan3-Turbo 和 Baichuan3-Turbo-128K 两款模型,在价格方面相比旗舰版 Baichuan 4 更实惠,且均针对企业用的高频场景进行了针对性优化,综合测试相比 GPT3.5 整体效果提升 8.9%。百川智能表示,即日起,MaaS 的新用户可以获得 1000 万免费 token。

Assitants API 是百川智能在 Baichuan 4 基础上针对 Agent 构建推出的 API 接口,不仅支持 Code interpreter、RAG 内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的 API。评测结果显示其工具调用能力接近 Open AI Assistants API,本次发布的 Assitants API 现已正式开启公测,感兴趣的用户均可申请免费试用。

未来,百川智能将推出零代码 Agent 创建平台产品,让业务人员通过自然语言的方式,也能创建 Agent,更好地赋能企业智能化发展。

不过除此之外,百川似乎并不热衷于投身目前竞争激烈的大模型 API 价格战。

「中国商业环境里 to B 的市场规模比 to C 小 10 倍,to B 收的是人民币,花的是美金。到最后大厂都会卷这件事,只是没想到大家卷得这么狠,价格已经打到零了。这肯定是大厂射程范围内的,而我们肯定要做差异化,」王小川表示。

面向消费端的百小应,是百川智能投身超级应用的重要一步。

图片

百小应不仅没有上套,还直接点破了这个套路:拼多多成立于2015年9月,所以2010年没有用户数据。

百小应与文心一言、Kimi 智能助手相似,面向C端消费市场,主打卖点是“懂搜索,会提问”,这没有跑出目前很火的AI搜索应用的范畴。

根据介绍,百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索、提供嵌入式搜索结果等三重搜索能力。此外,还会在用户问题的基础上,通过一系列提问来帮助用户明确自身需求,给出更精准的答案。并且,它还支持用户通过语音进行交互。

基于百川基座大模型的能力,“会提问”也是百小应与其他简单语音助手的重要差异点。比如当用户问引擎盖打不开了怎么办,它会先询问车辆的品牌和型号,以及是哪一年的车,再给出精准的回答。王小川对此解释说,“大模型要理解人的意图,实现从’助手’向’伙伴’的转变。”

其实,单从名字上就能看出他对“百小应”的期待:一呼百应,从小问题见大能力。但王小川也承认,百小应和他要的形象还有一定的距离,实际效果没有达到他想要的“超级应用”状态。现阶段市场上,既没有超级模型,也没有超级应用。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1703184.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OrangePi AIpro评测 - 基础操作篇

0. 环境 ●OrangePi AIpro ●win10笔记本 ●路由器 准备下win10电脑、路由器,这些板卡通常是在网络正常的环境下才方便测试。 还要准备OrangePi AIpro的官方资料: http://www.orangepi.cn/html/hardWare/computerAndMicrocontrollers/service-and-suppo…

牛客NC164 最长上升子序列(二)【困难 贪心+二分 Java/Go/PHP/C++】

题目 题目链接: https://www.nowcoder.com/practice/4af96fa010c44638a7e112abf65f7237 思路 贪心二分 所谓贪心,就是往死里贪,所以对于最大上升子序列,结尾元素越小,越有利于后面接上其他的数,也就可能变…

麒麟系统firewalld限制指定的ip访问指定的端口

先开放所有端口 然后第三个限制会把第四个第五个拦住 so 这个是错误案例 accecpt 接受 reject 拒绝

为什么短剧突然爆火?背后究竟谁在为流量买单?

为什么短剧突然爆火?背后究竟谁在为流量买单? 文丨微三云营销总监胡佳东,点击上方“关注”,为你分享市场商业模式电商干货。 - 今年很多朋友交流的更多的商业热门话题就是“短剧”,目前我国拥有超10亿的短视频用户&a…

利用ESP32(Arduino IDE)向匿名上位机发送欧拉角

文章目录 一. 匿名上位机介绍二. 匿名协议说明1. 匿名协议官方说明文档2. 协议说明 三. 向匿名上位机发送数据(基于Arduino IDE的esp32)四. 运行效果 一. 匿名上位机介绍 匿名上位机官方介绍视频 匿名上位机官方下载 二. 匿名协议说明 1. 匿名协议官方说明文档 官方对于协…

2024年短视频评论区批量爬取采集软件

一、背景说明 前言 评论区引流,顾名思义,是通过在视频下方进行留言评论、回复评论,吸引用户的注意,从而和你的账号产生互动、交易。比如,在一个关于健身的视频下方,留言分享自己的健身经验或者提出问题。…

西门子S7-1200加入MRP 环网用法

MRP(介质冗余)功能概述 SIMATIC 设备采用标准的冗余机制为 MRP(介质冗余协议),符合 IEC62439-2 标准,典型重新组态时间为 200ms,每个环网最多支持 50个设备。​博途TIA/WINCC社区VX群 ​博途T…

springboot+vue+mybatis基于java web的公益网站的设计与实现+jsp+PPT+论文+讲解+售后

现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公益网站就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使…

docker搭建gitlab及默认密码修改及配置修改

推荐官方文档 https://docs.gitlab.com/17.0/ee/install/docker.html 我使用的是docker run的方式,官方文档后面有docker-compose、swarm、k8s的部署文档 版本说明 1:可以部署gitlab-ce社区版和gitlab-ee企业版,然后,鉴于是个人…

上海AI lab发布MathBench,GPT-4o的数学能力有多强?

大模型数学能力哪家强? 最近,上海AI lab构建了一个全面的多语言数学基准——MathBench。与现有的基准不同的是,MathBench涵盖从小学、初中、高中、大学不同难度,从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目&a…

基于51单片机的函数发生器设计

一.硬件方案 此函数信号发生器是基于单片机AT89C51设计而成的,能够产生频率范围在0Hz—535Hz的锯齿波、正弦波、三角波、矩形波四种波形,并且能够通过液晶屏1602显示各自的波形类型以及频率数值。电路主要由51单片机最小系统DA0832模数转换模块运放模块…

Star CCM+绘图显示设置

前言 如前文介绍,根据报告创建监视器与绘图后,在绘图中会出现报告绘图。此处可以自定义绘图的格式,如网格显示、字体大小、曲线的粗细等。同时也可以根据需要创建右坐标,分别监测不同类型的函数数值。为此方便后期输出仿真报告。…

nginx文件解析漏洞测试

环境条件:ubuntu14,已安装docker,docker pull ubuntu:14.04.5 一、Nginx配置 1、使用docker启动容器: docker run -itd --name ubuntu -p 8088:80 ubuntu:14.04.5 2、进入容器: docker exec -it ubuntu /bin/bash 3、然后使用以下语句安装相关环境…

超详细的前后端实战项目(Spring系列加上vue3)前后端篇(四)(一步步实现+源码)

兄弟们,继昨天的代码之后,继续完成最后的用户模块开发, 昨天已经完成了关于用户的信息编辑页面这些,今天再完善一下, 从后端这边开始吧,做一个拦截器,对用户做身份校验, 拦截器 这…

无线蓝牙耳机品牌推荐:倍思M2s Pro,让旅途更添乐趣

随着端午节的临近,许多人开始规划起出游计划。出游除了要做好行程安排,还需准备一些实用的物品来提升旅途的舒适度。特别是在高铁等长途旅行中,一款优质的降噪蓝牙耳机无疑是消磨时光、享受音乐的绝佳选择。那么,在众多的无线蓝牙耳机品牌中,有哪些值得推荐的呢?今天,我们就来…

javascript 防抖 节流

在前端开发中,性能优化是提升用户体验的关键环节。防抖(Debounce)和节流(Throttle)作为两种常见的优化技术,能够有效管理和控制频繁触发的事件,减少不必要的计算和资源消耗。无论是在处理用户输…

Samtec技术漫谈 | 电动自行车中的传感器和信号传输技术

【摘要/前言】 电动自行车,大家熟悉吗? 今天的话题似乎是可以唤起大家心底骑车的美好回忆,我们也曾骑车探索过大自然和社区,自行车也是我们曾经不可或缺的便捷交通工具。 怀旧思潮的影响,加持科技的进步&#xff0c…

spring boot3整合邮件服务实现邮件发送功能

⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 目录 内容概要 开通服务 依赖引入 配置属性 创建邮件发送工具类 测试 最近发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家…

一维数组基础(题目+答案)

第1题 反向输出 时限:1s 空间:256m 输入n个数,要求程序按输入时的逆序把这n个数打印出来,已知整数不超过100个。也就是说,按输入相反顺序打印这n个数。 输入格式 第一行:一个整数n,代表…