百川智能发布大模型Baichuan2-192K,一次可输入35万字超越Claude2

news2024/11/20 15:33:09

10月30日,百川智能发布Baichuan2-192K大模型。其上下文窗口长度高达192K,是目前全球最长的上下文窗口。Baichuan2-192K能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的 4.4倍,更是 GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍。Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

今年9月25日,百川智能已开放了Baichuan2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。

10项长文本评测7项取得SOTA,全面领先Claude2

上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好的捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。

Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。

此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口增长后效果都出现了近乎直线下降的情况。Claude2也不例外,在窗口长度超过80K后整体效果下降非常严重。由此可见,Baichuan2-192K的长窗口内容记忆和理解能力大幅领先其他模型。

LongEval是加州大学伯克利分校联合其他高校发布的针对长窗口模型的评测榜单,主要用来衡量模型对长窗口内容的记忆和理解能力,是业内公认的长上下文窗口理解权威评测榜单)

动态采样的位置编码优化,4D并行的分布式方案,同步提升窗口长度和模型性能

扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。

而本次百川发布的Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。

算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。在长文本困惑度标准评测数据 PG-19上,当窗口长度扩大,Baichuan2-192K的序列建模能力持续增强。

PG-19DeepMind发布的语言建模基准数据集,是业内公认的衡量模型长程记忆推理问题的评测标准)


工程方面,在自主开发的分布式训练框架基础上,百川智能整合目前市场上所有先进的优化技术,包括张量并行、流水并行、序列并行、重计算以及Offload功能等,独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

百川智能在算法和工程上针对长上下文窗口的创新,不仅是大模型技术层面的突破,对于学术领域同样有着重要意义。Baichuan2-192K验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。

Baichuan2-192K正式开启内测,已落地法律、媒体等诸多真实场景

Baichuan2-192K现已正式开启内测,以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将全面开放。

全面开放API之后,Baichuan2-192K便能够与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。Baichuan2-192K 能够一次性处理和分析数百页的材料,对于长篇文档关键信息提取与分析,长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有巨大的助力作用。

它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展。

不仅如此,更长的上下文还为其更好的处理和理解复杂的多模态输入,以及实现更好的迁移学习提供了底层支撑,这将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1149586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

iZotope RX 10(音频修复和增强工具)

iZotope RX 10是一款音频修复和增强软件,主要特点包括: 声音修复:iZotope RX 10可以去除不良噪音、杂音、吱吱声等,使音频变得更加清晰干净。音频增强:iZotope RX 10支持对音频进行音量调节、均衡器、压缩器、限制器等…

微信小程序的育儿早教知识科普交流系统

本毕业设计的内容是设计并且实现一个基于微信小程序的育儿科普系统。采用MYSQL为数据库开发平台,SSM框架,育儿科普系统的功能已基本实现,主要用户、启蒙早教、早教类型、课程类型、育儿课程、注意事项、交流会、交流会报名等。 针对育儿科普…

电动汽车常说的CTP/CTB/CTC技术都有什么玄机?

“没有新词汇,不叫发布会”。随着电动汽车行业的迅速发展,许多专业到让人不明觉厉的“新词汇”也开始频频跃入大众视野。比如车企们在介绍电池时常说的CTP,CTB和CTC,就让人感到一头雾水。 它们究竟是什么?有什么作用&…

算法笔记【2】-SVD奇异分解及在最小二乘求解上的应用

文章目录 一、什么是SVD分解二、SVD分解的步骤三、SVD分解的应用领域四、用SVD求解最小二乘表达式 一、什么是SVD分解 奇异值分解(Singular Value Decomposition,简称SVD)是一种重要的矩阵分解技术。它可以将一个矩阵分解为三个矩阵的乘积&a…

高斯过程回归 | 高斯过程回归(Python)

高斯过程(Gaussian Processes,GP)是一种强大的非参数化模型,通常用于回归和分类任务。 它允许我们以一种灵活的方式建模数据的不确定性,并在小样本情况下表现出色。 高斯过程是一种用于建模函数的分布的非参数方法。 在高斯过程回归中,咱们试图建立一个连续的随机函数,…

光学仿真|优化汽车内部照明体验

当我们谈论优化人类感知的内部照明时,我们实际上指的是两个重点领域:安全性和驾驶员体验。如果内部照明可以提供尽可能最佳的体验,驾驶员则能够更好地应对颇具挑战性或意外的驾驶状况,并且减轻疲劳感。除了功能优势外,…

做外贸的你是不是也怕遇到麻烦的客户

最近遇到两个客户,可以说还未开始真正的沟通,就已经心里开始打怵,打怵的原因也无非是各种理由上的不匹配。 当我们觉得一件事情不可能做成的时候,那么不能做成的原因就会不断的涌现出来,进而会让我们自己在谈判的时候…

20.3 OpenSSL 对称AES加解密算法

AES算法是一种对称加密算法,全称为高级加密标准(Advanced Encryption Standard)。它是一种分组密码,以128比特为一个分组进行加密,其密钥长度可以是128比特、192比特或256比特,因此可以提供不同等级的安全性…

【Unity实战】手戳一个自定义角色换装系统——2d3d通用(附项目源码)

文章目录 每篇一句前言素材开始切换头型添加更改颜色随机控制头型和颜色新增眼睛同样的方法配置人物的其他部位设置相同颜色部位全部部位随机绘制UI并添加点击事件通过代码控制点击事件添加颜色修改的事件其他部位效果UI切换添加随机按钮保存角色变更数据跳转场景显示角色数据 …

计算机考研 | 2009年 | 计算机组成原理真题

【计算机组成原理2009年真题43题-10分】 某计算机的CPU主频为500MHz,CPI为5(即执行每条指令平均需5个时钟周期)。假定某外设的数据传输率为0.5MB/s,采用中断方式与主机进行数据传送,以32位为传输单位,对应的中断服务程序包含18条…

Spring MVC的常用注解(设置响应篇)

目录 1.返回静态页面 2.返回数据 3.返回HTML代码片段 4.返回json 5.设置状态码 6.设置Header (1).设置 Content-Type (2).设置其他Header 推荐先看前篇博客Spring MVC的常用注解(接收请求数据篇) 接收…

火山引擎 ByteHouse:只需 2 个方法,增强 ClickHouse 数据导入能力

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作为企业数字化建设的必备要素,易用的数据引擎能帮助企业提升数据使用效率,更好提升数据应用价值,夯实数字化建设基础。 数据导…

基于SpringBoot+Vue实现前后端分离的旅游网站系统

大家好✌!我是Dwzun。很高兴你能来阅读我,我会陆续更新Java前端、后台、数据库、项目案例等相关知识点总结,还为大家分享优质的实战项目,本人在Java项目开发领域有多年的经验,陆续会更新更多优质的Java实战项目&#x…

【网络安全 --- 任意文件上传漏洞靶场闯关 6-15关】任意文件上传漏洞靶场闯关,让你更深入了解文件上传漏洞以及绕过方式方法,思路技巧

一,工具资源下载 百度网盘资源下载链接地址: 百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan…

【LeetCode刷题日志】88.合并两个有序数组

🎈个人主页:库库的里昂 🎐C/C领域新星创作者 🎉欢迎 👍点赞✍评论⭐收藏✨收录专栏:LeetCode 刷题日志🤝希望作者的文章能对你有所帮助,有不足的地方请在评论区留言指正,…

markMan(马克鳗)前端标注工具

马克鳗一款很好用的标注、测量工具,前端必备神器。当需求给我们的原型没有标注颜色,尺寸数据,我们就可以用马克鳗自己标出来。 1.进入官网进行下载 官网网址:http://www.getmarkman.com/ 功能演示: 打开markMan需要拖…

企业金蝶KIS软件服务器中了locked勒索病毒怎么办,勒索病毒解密

最近一段时间,网络上的locked勒索病毒又开始了新一波的攻击,给企业的正常生产生活带来了严重影响。经过最近一段时间云天数据恢复中心对locked勒索病毒的解密,为大家整理了以下有关locked勒索病毒的相关信息。近期locked勒索病毒主要攻击金蝶…

Xamarin.Forms更改AndroidManifest.xml导致错误:没有兼容的代码在线程上运行

想在APP中加一个打开摄像头的功能,按照该博主的方法:https://blog.csdn.net/zhenweied09/article/details/82287761 设置好后,再运行就出现上图的错误,于是查找原因,定位到是更改AndroidManifest.xml文件导致的&#…

用软件模拟IPC的RTSP流,对接烟火识别算法服务,做实时的烟火检测、人员入侵检测、抽烟检测等算法

最近在研发烟火识别的算法,想要检验算法集成到视频分析服务之后的效果,发现线上的摄像机很难发现火情,有的很长时间都不会有检测的结果,于是我就需要用已经被检验过的视频文件,模拟一路IPC的RTSP流,来测试烟…

Spring@Lazy是如何解决构造函数循环依赖问题

Spring实例化源码解析之循环依赖CircularReference这章的最后我们提了一个构造函数形成的循环依赖问题,本章就是讲解利用Lazy注解如何解决构造函数循环依赖和其原理。 准备工作 首先创建两个构造函数循环依赖的类,TestA和TestB,代码如下&am…