全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线

news2024/11/26 15:00:49

大模型看书,从来没有这么快过。

国内大模型创业公司,正在技术前沿创造新的记录。

10 月 30 日,百川智能正式发布 Baichuan2-192K 长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了 192K token

这相当于让大模型一次处理约 35 万个汉字,长度达到了 GPT-4(32K token,约 2.5 万字)的 14 倍,Claude 2.0(100K token,约 8 万字) 的 4.4 倍。

换句话说,Baichuan2-192K 可以一次性读完一本《三体 2》,是全球处理上下文窗口长度最长的大模型。此外,它也在文本生成质量、上下文理解、问答能力等多个维度的评测中显著领先对手。

能够一次理解超长文本的大模型,究竟能做哪些事?百川智能进行了一番简单演示。

上传一整部《三体 2:黑暗森林》的 PDF 文件,百川大模型统计出来是 30 万字。接下来,如果你询问有关这本小说里的任何问题,大模型都可以给出简洁准确的答案。

图片

有时候我们寻求 AI 的帮助,并不是希望他们发挥想象力,而是要提取准确信息。有了 Baichuan2-192K,我们可以快速解读几十页,甚至几百页的合同文件,让 AI 快速给出简明摘要,四舍五入就是量子速读了:

图片

那么如果我突然接到新任务,有一堆文件要看呢?

直接打包一起上传就可以了,百川大模型可以轻松把五篇新闻整合成一篇。

图片

大模型能够理解的内容变长之后,应用的方向会越来越多。众所周知,长文本建模能力是很多场景能够应用落地的前提条件。这一次,百川做到了业内领先。

从几万字到几十万字,头部创业公司都在抢滩「长窗口」

如果你关注大模型在文本理解方向的应用,或许会注意到一个现象:一开始,大家用来测评模型能力的文本可能都是一些财报、技术报告,这些文本通常有十几页到几十页不等,字数通常也就几万字。但后来,测试文本逐渐演变为几个小时的会议记录,或者几十万字的长篇小说,竞争越来越激烈,难度也越来越大。

图片

与此同时,宣称能理解更长上下文的大模型公司也越来越受关注。比如前段时间,宣称能实现 100K token 上下文窗口的大模型 ——Claude 背后的公司 Anthropic 先后拿到了微软和谷歌数十亿美元的融资,将大模型军备竞赛推向了新的层面。

为什么这些公司都在挑战长文本?

首先从应用的角度来看,使用大模型来提高生产力的很多工作者都不免要处理很长的文本,比如律师、分析师、咨询师等,上下文窗口越大,这些人能用大模型做的事情就越广泛;其次,从技术的角度来看,窗口所能容纳的信息越多,模型在生成下一个字时可以参考的信息就越多,「幻觉」发生的可能性就越小,生成的信息就越准确,这是大模型技术落地的必要条件。所以,在想办法提升模型性能的同时,各家公司也在比拼谁能把上下文窗口做得更大,从而投放到更多的应用场景。

从前面展示的一些例子中可以看到,Baichuan2-192K 在文本生成质量和上下文理解方面表现都很出色。而且,在这些定性结果之外,我们还可以从一些定量评估数据中看到这一点。

Baichuan2-192K:文件越长,优势越明显

在文本生成质量评估中,一个很重要的指标叫「困惑度」:当我们将符合人类自然语言习惯的高质量文档作为测试集时,模型生成测试集中文本的概率越高,模型的困惑度就越小,模型也就越好。

用来测试百川大模型困惑度的测试集名叫 PG-19。这个数据集由 DeepMind 的研究人员制作,用来制作该数据集的资料来自古腾堡计划的图书,因此 PG-19 具有书本级的质量。

测试结果如下图所示。可以看到,在初始阶段(横轴左侧,上下文长度比较短的阶段),Baichuan2-192K 的困惑度便处于较低的水准。随着上下文长度的增加,它的优势变得愈发明显,甚至呈现出困惑度持续下降的状态。这说明,在长上下文的场景中,Baichuan2-192K 更能保持书本级的文本生成质量

图片

在上下文理解能力上,Baichuan2-192K 的表现也非常亮眼。

这项能力的评估采用了权威的长窗口文本理解评测基准 LongEval。LongEval 是由加州大学伯克利分校联合其他高校发布的针对长窗口模型评测的榜单,主要衡量模型对长窗口内容的记忆和理解能力,模型得分越高越好。

从下图的评估结果中可以看到,随着上下文长度的增加,Baichuan2-192K 一直能够保持稳定的高性能,在窗口长度超过 100K 之后也是如此。相比之下,Claude 2 在窗口长度超过 80K 后整体效果下降就已经非常严重。

图片

此外,模型还在 Dureader、NarrativeQA、TriviaQA、LSHT 等多个中英文长文本问答、摘要的评测集上经历了测试。结果显示,Baichuan2-192K 同样表现优异,在大部分长文本评测任务中都远超其他模型。

图片

简而言之,处理的内容越长,百川的大模型相对性能就越好

192K 超长上下文,百川是怎么做到的?

扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。

为了缓解这种压力,业内出现了一些折中的方法,比如把模型做小;让模型通过滑动窗口等方式主动抛弃前文,只保留对最新输入的注意力机制;通过对上下文的降采样或者 RAG(检索增强的生成),只保留对部分输入的注意力机制等等。

这些方式虽然能提升上下文窗口长度,但对模型的性能均有不同程度的损害。换言之,它们都是通过牺牲模型其他方面的性能来换取上下文窗口长度,比如模型无法基于全文信息回答复杂问题,难以跨多个文本综合考虑答案等。

而本次百川发布的 Baichaun2-192K 通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升

算法方面,百川智能提出了一种针对 RoPE 和 ALiBi 的动态位置编码的外推方案,该方案能够对不同分辨率的 ALiBi_mask 进行不同程度的 Attention-mask 动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。

工程方面,在自主开发的分布式训练框架基础上,百川智能整合了目前市场上所有先进的优化技术,包括张量并行、流水并行、序列并行、重计算以及 Offload 功能等,独创了一套全面的 4D 并行分布式方案。该方案能够根据具体的负载情况,自动寻找最适合的分布式策略,极大地降低了长窗口推理过程中的显存占用。

打大模型之战,速度要快

成立于今年 4 月的百川智能,几乎可以说是业内技术迭代最快的大模型创业公司。在成立仅半年的时间里,这家公司就已经发布了 Baichuan-7B/13B、Baichuan2-7B/13B 四款开源可免费商用的大模型,以及 Baichuan-53B、Baichuan2-53B 两款闭源大模型。

平均下来,每个月就发布一款新的大模型

Baichuan 系列大模型融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。这些大模型也因为其能力在业内备受青睐:Baichuan 系列开源模型在各大开源社区的累积下载量已突破六百万次;Baichuan 2 更是在各维度全面领先 Llama 2,引领了中国开源生态发展。

8 月 31 日,百川智能率先通过《生成式人工智能服务管理暂行办法》,是首批 8 家公司中唯一一家今年创立的大模型公司。9 月 25 日,百川智能开放 Baichuan API 接口,正式进军 To B 领域,开启商业化进程。

可以说,从技术研发到落地,百川的速度都足够快

刚刚发布的 Baichuan2-192K 已经正式开启内测,将以 API 调用的方式开放给核心合作伙伴。百川表示,其已经与财经类媒体及律师事务所等机构达成了合作,把 Baichuan2-192K 领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将以 API 调用和私有化部署的方式提供给企业用户。

以 API 的形式全面开放之后,Baichuan2-192K 能够与大量垂直场景深度结合,在人们的工作、生活、学习中发挥作用,助力行业用户大幅提升效率。Baichuan2-192K 能够一次性处理和分析数百页的材料,对于长篇文档关键信息提取与分析,长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有巨大的助力作用。

图片

图片

此前,百川智能创始人、CEO 王小川曾透露,今年下半年,百川将推出千亿级的大模型,明年预计会有 C 端的超级应用部署

面对与 OpenAI 的差距,王小川坦言,在理想方面我们和 OpenAI 确实存在差距,OpenAI 的目标是探索智能的天花板,他们甚至希望设计出将 1000 万颗 GPU 连在一块的技术。但是,在应用方面我们比美国走得更快,互联网时代积累下来的应用和生态的经验,能让我们走的更快也更远,所以百川做大模型的理念,叫做「理想上慢一步,落地上快三步」。

由此来看,Baichuan2-192K 正是这种理念的延展,全球最长的上下文窗口无疑也将加速百川智能大模型技术落地的进程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1162386.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机体系结构图,冯诺依曼模型(控制器,运算器,指令集,存储器,cache),os(为什么要有os+如何管理举例,系统调用,用户操作接口)

目录 引入 硬件 -- 冯诺依曼模型 背景 早期 -- 硬件化 冯诺依曼结构 存储程序控制原理 核心思想 结构 cpu -- (运算器和控制器) 介绍 控制器 运算器 指令集 存储器 介绍 内部存储器 读写操作 高速缓冲存储器Cache 内存分类 RAM ROM 外部存储器 软件 -- …

Windows ObjectType Hook 之 ParseProcedure

1、背景 Object Type Hook 是基于 Object Type的一种深入的 Hook,比起常用的 SSDT Hook 更为深入。 有关 Object Type 的分析见文章 《Windows驱动开发学习记录-ObjectType Hook之ObjectType结构相关分析》。 这里进行的 Hook 为 其中之一的 ParseProcedure。文章实…

【入门Flink】- 03Flink部署

集群角色 Flik提交作业和执行任务,需要几个关键组件: 客户端(Client):代码由客户端获取并做转换,之后提交给JobManger JobManager:就是Fink集群里的“管事人”,对作业进行中央调度管理;而它获…

2021上半年下午网络工程师试题

2021上半年下午网络工程师试题 试题一(共20分) 阅读以下说明,回答问题1至问题4,将解答填入答题纸对应的解答栏内。 【说明】 某企业网络拓扑图如图1-1所示。该网络可以实现的网络功能有: 1.汇聚层交换机A与交换机B采用VRRP技术组网; 2.…

myabtis流式查询

1、流式查询简介 流式处理在大数据方面应用比较广泛。随着数据的爆发式增长,流式处理的方式也被应用到日常的工具中,如JDK的对于集合处理的Stream流、Redis5.0新增的数据结构Stream专门来处理消息等。 流式查询指的是查询成功后不是返回一个集合而是返回…

景联文科技:高质量数据采集清洗标注服务,助力大语言模型红蓝对抗更加精准高效

红蓝对抗是一种测试和评估大语言模型的方法。通过模拟真实世界测试AI模型的潜在漏洞、偏见和弱点,确保大型语言模型的可靠性和性能。 在红蓝对抗过程中,由主题专家组成的专业团队负责模拟攻击和提供反馈,他们试图诱导AI模型产生不当行为&…

电子商务平台对接电商供应链,不得不说的开放平台电商API接口

B2B电商开放平台的设计需要从以下几面去思考: 开放平台API接口的设计,主要是从功能需求的角度,设计满足业务需求的接口及对应的字段; 平台与商家之间信息的对接,对接的方法有哪些?对接过程中需要可能会遇到…

PaDiM 无监督异常检测和定位-论文和源码阅读

目录 1. 论文 1.1 检测效果 1.2 框架 1.2.1 特征提取embedding extraction 1.2.2 正样本学习Learning of the normality 1.2.3 计算异常图 inference: computation of the anomaly map 2. 源码 2.1 dataset 2.2 model 2.3 提取特征 1. 论文 https://arxiv.org/abs/…

Redis 6.0 新功能

1-支持 ACL 1.1-ACL 简介 官网:https://redis.io/topics/acl Redis ACL 是访问控制列表(Access Control List)的缩写,该功能允许根据可以执行的命令和可以访问的键来限制某些连接。 Redis 5 版本之前,Redis 安全规则只有密码控制&#xf…

Python元编程详细教程

嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 简单定义“元编程是一种编写计算机程序的技术,这些程序可以将自己看做数据, 因此你可以在运行时对它进行内审、生成和/或修改”&#xff…

SpringCloud篇---第三篇

系列文章目录 文章目录 系列文章目录一、负载平衡的意义什么?二、什么是Hystrix?它如何实现容错?三、什么是Hystrix断路器?我们需要它吗?一、负载平衡的意义什么? 在计算中,负载平衡可以改善跨计算机,计算机集群,网络链接,中央处理单元或磁盘驱动器等多 种计算资源的…

超高真空变温台的真空压力和气氛精密控制解决方案

摘要:针对目前国内外显微镜探针冷热台普遍缺乏真空压力和气氛环境精密控制装置这一问题,本文提出了解决方案。解决方案采用了电动针阀快速调节进气和排气流量的动态平衡法实现0.1~1000Torr范围的真空压力精密控制,采用了气体质量流量计实现多…

配置OpenCV

Open CV中包含很多图像处理的算法,因此学会正确使用Open CV也是人脸识别研究的一项重要工作。在 VS2017中应用Open CV,需要进行手动配置,下面给出在VS2017中配置Open CV的详细步骤。 1.下载并安装OpenCV3.4.1与VS2017的软件。 2.配置Open CV环…

纠结蓝桥杯参加嵌入式还是单片机组?

纠结蓝桥杯参加嵌入式还是单片机组? 单片机包含于嵌入式,嵌入式不只是单片机。. 你只有浅浅的的单片机基础,只能报单片机了。最近很多小伙伴找我,说想要一些单片机资料,然后我根据自己从业十年经验,熬夜搞了几个通宵…

Selenium安装WebDriver Chrome驱动(含 116/117/118/119/120/)

1、确认浏览器的版本 在浏览器的地址栏,输入chrome://version/,回车后即可查看到对应版本 2、找到对应的chromedriver版本 2.1 114及之前的版本可以通过点击下载chromedriver,根据版本号(只看大版本)下载对应文件 2.2 116版本…

1. eulerAngles函数

对线性代数库Eigen3中eulerAngles函数的理解_qingtian11112的博客-CSDN博客作用: 将旋转矩阵转换为欧拉角 Vector3f ea mat.eulerAngles(2, 0, 2); // 等价于 mat AngleAxisf(ea[0], Vector3f::UnitZ())* AngleAxisf(ea[1], Vector3f::UnitX())* AngleAxisf(ea[…

《Pytorch新手入门》第二节-动手搭建神经网络

《Pytorch新手入门》第二节-动手搭建神经网络 一、神经网络介绍二、使用torch.nn搭建神经网络2.1 定义网络2.2 torch.autograd.Variable2.3 损失函数与反向传播2.4 优化器torch.optim 三、实战-实现图像分类(CIFAR-10数据集)3.1 CIFAR-10数据集加载与预处理3.2 定义网络结构3.3…

99/年服务器测评,续费也99一年,真香,值得入手

每个帐号都有开通名额,开通99元一年,配置2核2G 40G 3M(不限流量),续费也是99一年 开通之后就可以直接续费,免除后顾之忧(一年一年的去续费,直接选择5年价格不太对) 地址:https://mur…

成为java高手的八个条件

成为java高手的八个条件 1、扎实的基础 数据结构、离散数学、编译原理,这些是所有计算机科学的基础,如果不掌握它们,很难写出高水平的程序。程序人人都会写,但当你发现写到一定程度很难再提高的时候,就应该想想是不…