百川智能发布首个530亿参数闭源大模型,今年追上GPT-3.5

news2025/1/4 19:13:28

4月官宣创业,6月15日发布第一款7B开源模型,7月11日发布第二款13B、130亿参数开源模型。

平均保持2个月一个版本发布速度,8月8日,百川智能发布了创业以来的首个530亿参数闭源大模型——Baichuan-53B(以下简称“53B”)。

光锥智能获悉,53B支持中英双语,在知识性上表现优异,譬如能给孩子取名字和解读其背后的寓意,擅长知识问答、文本创作等领域,相对此前两款模型有了更好的表现。

目前53B已在官网开放内测申请,并将在下个月开放API。

按照计划,今年四季度,百川智能将发布千亿参数的大模型,预计将追上GPT-3.5的水平,其开源模型也将在今年内发布升级版本。

百川智能已经发布的开源大模型在各个榜单收获了不错的评分,并且能被企业真正用起来,据百川智能统计,已经有150家以上的公司申请使用他们的开源模型。

谈起这回发布闭源大模型的原因,王小川表示因为模型变大后,部署起来成本比较高,所以才更多走闭源让大家网上调用的方式。

王小川认为闭源可以提供更简单的接口,做调用后指令的精准度方面会更好,也能解决一些更复杂的问题。

“开源和闭源并不矛盾,不管是 7B 还是 13B,还是 53B,都是为ToB行业服务做准备。我们更关心的是2C怎么做,2B怎么做,而不是把问题停留在开源闭源里面。”王小川道。

此次发布的53B可谓是集大成之作,百川智能强调53B的三个技术优势分别为预训练数据、搜索增强和对齐能力,其中前两者与百川团队中丰富的搜索引擎经验有较强相关性。

预训练数据方面,王小川表示,此前团队做搜索引擎的经验,让百川智能能够又快又好地完成前期数据积累,这也是百川智能此前两款开源模型能够迅速推出的原因之一。

百川智能联合创始人、大语言模型技术负责人陈炜鹏表示:“团队背景做了很多年的搜索,所以整个中文互联网里哪里有好的数据,我们团队是最清楚的,同时怎么把这些数据收集回来,质量做好,识别出来,我们以前有也很强的积累和方法论。”

预训练数据是大语言模型信息和知识的来源,丰富多样、高质量、有层次的数据对模型的最终效果起到关键作用。其中,数据质量是预训练模型的关键。为此,百川智能已经建立了一套系统的数据质量体系,包括低质、优质、类别等,这一体系将确保其在整个预训练过程中维持高标准的数据质量,确保数据能为最终模型训练的目标服务。

百川智能表示,未来的目标是构建一个全面的世界知识体系,使其能够覆盖各个领域和学科的知识。通过整合各类信息源,确保在文化、科学、技术等方面有广泛的知识涵盖,打造一个不断学习、扩展和更新的知识库,确保所有信息的准确性和时效性,以满足不同用户的多样化需求。

王小川认为,过去20年搜索技术的积累是百川在大模型领域的优势。

在具体技术实现路径上,百川智能的搜索增强系统融合了多个模块,包括指令意图理解、智能搜索和结果增强等关键组件。这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,并结合大语言模型技术来优化模型结果生成的可靠性。通过这一系列协同作用,实现了更精确、更智能的模型结果回答,减少了模型的幻觉。


“搜索增强是非常重要的事情,通过它可以使得知识面更加扩大,幻觉问题、时效性的问题也能得到更好的弥补,因此以后搜索引擎会成为我们的亮点和特色,要把搜索的模型完美融合成一件事情。”王小川道。

除了预训练,大模型还需要通过对齐调整(Alignment Tuning)让模型同人类价值观对齐,从而生成“更令人满意”的回复内容。

为了提升安全性和帮助性效果,53B采用了多RM融合,这是一种全面的策略,它着眼于不同目标间的相互支持和平衡,确保在实现一个目标的同时,不会牺牲其他重要目标。这意味着,即使用户同时有多项复杂需求时,模型也不会忽略安全等最基本诉求。

王小川认为大模型的事业才刚刚到了爬坡阶段,对于模型而言,有三点很重要:一是大模型本身的能力,尤其指的是预训练的能力;二是搜索的能力;三是强化的能力,三者共同推动大模型的进步。

展望大模型发展的未来,王小川认为既能做500亿参数,也要有自身差异化,才是百川智能接下来要走的路。

“要做到中国最好的对标GPT模型,预训练模型的追求没法停下来,未来还会继续去做更大的模型。但这也同时意味着,百川智能对于搜索和强化技术也会有自己的高度。”王小川道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/851575.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

运维作业5

一.基于 CS 7 构建 LVS-DR 群集。 1.lvs安装ipvsadm [rootnode ~]# yum install -y ipvsadm 2.配置lvs虚拟ip(vip) [rootnode ~]# ifconfig ens32:200 192.168.72.200 netmask 255.255.255.0 up 客户端测试: 3.在两台rs上安装httpd 4.两台rs建…

SpringBoot3之Web编程

标签:Rest.拦截器.swagger.测试; 一、简介 基于web包的依赖,SpringBoot可以快速启动一个web容器,简化项目的开发; 在web开发中又涉及如下几个功能点: 拦截器:可以让接口被访问之前,将请求拦截…

Oracle 聚合拼接的常用方式

Oracle常用函数:Oracle Database SQL Language Reference, 12c Release 2 (12.2) 1 listagg LISTAGG Syntax Description of the illustration listagg.eps (listagg_overflow_clause::, order_by_clause::, query_partition_clause::) listagg_overflow_claus…

【C++基础(九)】C++内存管理--new一个对象出来

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:C从入门到精通⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学习C   🔝🔝 C内存管理 1. 前言2. new2.1 new的使用方法2.2 …

RestTemplate发送请求携带文件

在工作上遇到这样一个需求,就是调用我们公司的AI平台,将图片文件发送给他们,他们进行解析然后返回解析结果。 首先用python进行调用一次,发送捕获的接口是这样的: 那么用java代码该如何组装这个请求发送过去呢&#xf…

MIT6.006 课程笔记P1 - 思考如何进行 PeakFinding

文章目录 寻找峰值 peak暴力算法分而治之从1D到2D朴素算法Attemp#2 寻找峰值 peak 给出一个数组 a b c d e f g h i 并给予数字 index 1 2 3 4 5 6 7 8 9 那么如果某个数字是 peak ,那么他将 大于等于左边的数 且 大于等于右边的数 或者 a > b 这里的 a 也是峰值…

Pytest测试框架4

目录: pytest配置文件pytest插件pytest测试用例执行顺序自定义pytest-orderingpytest测试用例并行运行与分布式运行pytest内置插件hook体系pytest插件开发 1.pytest配置文件 pytest.ini 是什么? pytest.ini 是 pytest 的配置文件可以修改 pytest 的…

Sql server还原失败(数据库正在使用,无法获得对数据库的独占访问权)

一.Sql server还原失败(数据库正在使用,无法获得对数据库的独占访问权) 本次测试使用数据库实例SqlServer2008r2版 错误详细: 标题: Microsoft SQL Server Management Studio ------------------------------ 还原数据库“Mvc_HNHZ”时失败。 (Microsoft.SqlServer.…

Java笔记(三十一):MySQL(中)--查询DQL、单表查询、函数、多表查询、查询结果合并

六、查询DQL⭐⭐⭐⭐⭐(SELECT) 0、查询书写顺序&执行顺序 当selcet中有聚合函数时,看起来是 select 先执行,因为后面having可以用到selcet聚合函数后面的别名 但实际上还是select 后执行,如果不是聚合函数或者其…

C#,数值计算——基于模拟退火的极小化问题单纯形(下山)算法的计算方法与C#源程序

1 模拟退火 模拟退火算法其实是一个类似于仿生学的算法,模仿的就是物理退火的过程。 我们炼钢的时候,如果我们急速冷凝,这时候的状态是不稳定的,原子间杂乱无章的排序,能量很高。而如果我们让钢水慢慢冷凝&#xff0c…

PowerDesigner使用实践

PowerDesigner使用实践 一、前言 1.简介 PowerDesigner DataArchitect 是业界领先的数据建模工具。 它提供了一种模型驱动的方法来增强业务和 IT 的能力并使其保持一致。 PowerDesigner 使企业能够更轻松地可视化、分析和操作元数据,以实现有效的企业信息架构。 …

通向架构师的道路之weblogic的集群与配置

一、Weblogic的集群 还记得我们在第五天教程中讲到的关于Tomcat的集群吗? 两个tomcat做node即tomcat1, tomcat2,使用Apache HttpServer做请求派发。 现在看看WebLogic的集群吧,其实也差不多。 区别在于: Tomcat的集群的实现为两个物理上…

Kotin协程的基础

协程是什么? 就是同步方式去编写异步执行的代码。协程是依赖于线程,但是协程挂起的时候不需要阻塞线程。几乎没有任何代价。 协程的创建 一个线程可以创建多个协程。协程的创建是通过CoroutineScope创建,协程的启动方式有三种。 runBlockin…

湘大oj1088 N!:求阶乘 数据太大怎么处理 常规的递归求阶乘

一、链接 N&#xff01; 二、题目 Description 请求N&#xff01;&#xff08;N<10000&#xff09;&#xff0c;输出结果对10007取余 输入 每行一个整数n&#xff0c;遇到-1结束。 输出 每行一个整数&#xff0c;为对应n的运算结果。 Sample Input 1 2 -1 Sample Outp…

【数据结构与算法】左叶子之和

左叶子之和 递归三部曲 确定递归函数的参数和返回值 int sumOfLeftLeaves(TreeNode* root)确定终止条件 遍历遇到空节点 if (root NULL) return 0;单层的递归逻辑 遍历顺序&#xff1a;左右中&#xff08;后序遍历&#xff09; 选择后序遍历的原因&#xff1a;要通过递归函…

【Linux操作系统】深入了解系统编程gdb调试工具

在软件开发过程中&#xff0c;调试是一个非常重要的步骤。无论是在开发新的软件还是维护现有的代码&#xff0c;调试都是解决问题的关键。对于Linux开发者来说&#xff0c;GDB是一个非常有用的调试工具。在本文中&#xff0c;我们将探讨Linux中使用GDB进行调试的方法和技巧。 …

C# OpenCvSharp 读取rtsp流

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Extensions; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading; using Syste…

HTTPS安全通信

HTTPS,TLS/SSL Hyper Text Transfer Protocol over Secure Socket Layer,安全的超文本传输协议,网景公式设计了SSL(Secure Sockets Layer)协议用于对Http协议传输的数据进行加密,保证会话过程中的安全性。 使用TCP端口默认为443 TLS:(Transport Layer Security,传输层…

30、Flink SQL之SQL 客户端(通过kafka和filesystem的例子介绍了配置文件使用-表、视图等)

Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…

【移动机器人运动规划】03 —— 基于运动学、动力学约束的路径规划

文章目录 前言相关代码整理:相关文章&#xff1a; 介绍什么是kinodynamic&#xff1f;为什么需要kinodynamic&#xff1f;模型示例unicycle model&#xff08;独轮车模型&#xff09;differential model&#xff08;两轮差速模型&#xff09;Simplified car model (简化车辆模型…