重磅!清华最新报告:文心一言超越ChatGPT 3.5

news2024/11/19 14:44:18

  点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

今年国内厂商已发布很多大语言模型,其中最具代表性的产品有:百度的文心一言、阿里巴巴的通义千问、科大讯飞的星火等,最具代表性的开源工作有:ChatGLM、MOSS、BaiChuan等。

大语言模型的能力有很多,比如知识问答、文本生成、翻译、编程、数据分析、图像生成等。

想必有不少同学已经用上大语言模型产品了,将其作为自己的生产力工具。同时也会有很多同学疑问:究竟哪家的实力最强?!如果要选择一个作为科研学习和工作的工具,哪个产品上手又好又快?!

910934559aa5dc44f66d6172d609e3c7.jpeg         

清华大学沈阳团队重磅发布《大语言模型综合性能评估报告》

近日,清华大学(新闻与传播学院沈阳团队)最新发布《大语言模型综合性能评估报告》,该报告给出一个答案:百度文心一言综合评分国内第一(三大维度、20项指标),超越ChatGPT 3.5!其中文心一言的中文语义理解排名第一,部分中文能力超越GPT-4。

1a3916dd30cb46a9c4f10697c4a5deb6.png

本报告测评对象包含了GPT-4、ChatGPT 3.5、Claude国外主流大语言模型,也包含了文心一言、通义千问、讯飞星火、天工国内代表性大语言模型。本报告围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、逻辑推理、内容安全性等20项指标。      

在生成质量维度上,基于对语义理解、输出表达、适应泛化三个方面的综合评测(均为Prompt测试),文心一言得分率高达76.98%,仅次于GPT-4,而领先于ChatGPT 3.5等大语言模型。其中,在部分中文语义理解方面,文心一言以92%得分率排名第一,超越了GPT-4。        

7f5662154faf1b2ddf526e9a865594cd.png

在使用与性能维度上,基于对使用便捷性、响应速度和鲁棒性三个方面的综合评测,文心一言得分率高达72.38%,仅次于ChatGPT 3.5、GPT-4,而远超其他大语言模型。报告显示,文心一言使用便捷,响应快,模型鲁棒性高,对于意外、错误或极端情况下的回应表现较好,而且新加入的插件“ChatFile”支持超长文本输入、插件“百度搜索”支持生成更实时准确的信息。

7e896ae6d6609dea9c4c0556083cc5aa.png

百度搜索和ChatFile插件

在安全与合规维度上,基于对内容安全性、偏见和公平性、隐私保护、版权保护四个方面的综合评测,文心一言得分率高达78.18%,与GPT-4并列第一,远超其他大语言模型。报告显示,文心一言内容安全性好,把握细微,注重用户隐私保护,重视版权保护。

综上来看,文心一言的语义理解能力更为突出,尤其是具备更好的中文理解能力,更懂中国文化和本土主题/背景,而且时效性很强、内容安全性高,对信息把握细微。

这里文心一言的突出优势,离不开百度知识增强、检索增强和对话增强的技术创新

在知识增强方面,文心一言基于百度构建的庞大的知识图谱,通过知识内化和知识外用来实现知识增强。知识内化,是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中;知识外用,是引入外部多源异构知识,做知识推理、提示(Prompt)构建等等,使模型具备高效运用外部知识的能力。在知识的指导下,文心一言学得又好又快,模型效率和效果均大幅提升。

在检索增强方面,文心一言借助了搜索引擎的能力。以语义理解与语义匹配为核心技术的新一代检索架构,深入理解用户需求和网页内容,进行语义匹配。通过引入搜索结果,可以为大语言模型提供时效性好、准确性高的参考信息。

在对话增强方面,基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,使得对话的连贯性、合理性和逻辑性更好,用户实际体验更佳。

不过在本次清华大学(沈阳团队)报告中,并没有看到清华大学自家的ChatGLM大语言模型的评测结果,不清楚是否是因为性能有限,没有参与测评。我是很想看看产品级应用和开源项目之间的性能及体验差距有多大。

文心一言实测

上面简单介绍了文心一言在清华大学《大语言模型综合性能评估报告》中的测评成果和技术细节,下面从我们用户的角度来看,测试最新版本的文心一言究竟有多强,看看实际使用体验如何。

于是我实测了文心大模型3.5版本加持的文心一言。特别提一下,如果你之前有拿到文心一言内测资格的话,应该会明显发现,从3月份到现在,文心一言能力有非常大的提升,可以感觉到体验有非常大的变化。

下面从计算机视觉、人工智能方向从业者角度,提问一些专业问题和日常问题,来看看文心一言是否可以轻松应对。

  • 专业知识

不管对于人工智能方向的学生,还是工程师/研究员,每天都会遇到很多行业问题。这里测试文心一言是否可以回答一些专业领域问题和建议。

问题:小目标检测有哪些技巧?

文心一言列举了7条建议,分别从输入、特征融合、anchor设计、损失函数、训练等角度给出实用性建议,内容相当全面且详尽。

624903dbf71aa5f287df701a9a00b625.png

Transformer目前在计算机视觉、自然语言处理等领域爆火!大名鼎鼎的GPT系列和文心大模型都使用了Transformer相关技术。而大家在学习和应用Transformer过程中会遇到很多问题。这里我来考察文心一言对Transformer的知识点掌握情况。

问题:Transformer为什么要用multi-head注意力?

c9199e74544cf94cc08847da1ae63e07.png

问题:Self-Attention 的时间复杂度是怎么计算的?

76c51e5ea218cfc659ef6046ed80a78e.png

由上可知,文心一言详细解答了关于Transformer的核心知识点问题。

PS:目前正值求职季,强烈建议大家使用文心一言来辅助解决面试题,省时省力,轻松助力校招和社招!

  • 写作辅导

问题:我现在想写一篇语义分割的论文,并想投递到CCF B及以上的会议,请问有哪些建议?   

87b9bd186ddff7ea5accf6291532c94d.png

文心一言回答的内容确实有条理且详细,分别从数据集、算法、实验设计等角度给出建议。这里我再加点难度,因为很多咨询问题的同学都是刚入门不久的从业者,所以加个“小白”的背景,更契合实际一点。

问题:我是小白,现在想写一篇图像分割的论文,并想投递到CCF B及以上的会议,请问有哪些建议?

4270b52a4229d016b81a9b8b6be84bf8.png

显而易见,文心一言的回答更加基础实用了,还温馨的告知:需要经历一段时间的审稿过程,需要保持耐心和信心。

  • 百度搜索插件

百度搜索——让文心一言具有生成实时准确信息的能力。

前段时间,Meta重磅发布了可免费商用的大语言模型Llama 2,让我们来看看文心一言是否知道这个消息。

可见具有百度搜索插件的文心一言,已经“知晓”了Llama 2的存在,并对其进行了介绍和分析。

c3638b48ae463a7c369048298c2c2aaf.png

林俊杰8月将在上海开“JJ20世界”巡回演唱会,问文心一言在哪里举办,具体开票时间?

文心一言回答的信息完全正确,而且开票时间也就是前几天才正式通知的,可见百度搜索插件加持的文心一言更强了!

3c1365a852094057449f300f94495744.png

  • ChatFile文档插件

ChatFile——让文心一言具有生成报告摘要、检索和分享文档内容的能力。

用户使用ChatFile,可以直接上传10MB以内的(pdf/doc格式)文档,ChatFile解析完成后会自动生成一份摘要,然后用户通过文本跟文心一言进行对话,这样就可以对文档的内容进一步解析,比如检索和总结等。

我上传了何恺明(Kaiming He)的鼎鼎大名ResNet《Deep Residual Learning for Image Recognition》论文的pdf,从下图可知,文心一言解析该论文pdf后,检索到了该论文的核心知识点,并对更多信息进行了总结。

e5a0e7f81e3db703fd9efd25e26bbd7d.png

让文心一言继续总结ResNet论文的创新点和实验结果:

6e57f07dc356b46a62a6581dd0c58c49.png

上面总结的实验结果全部汇聚到一个大段文字里了,这里可以单独对实验进行提问,可见文心一言会逐步对实验结果进行总结性介绍:

ca0ec6801c1e78b589935775e21294e0.png

像每天各大期刊、会议平台上会上新很多论文,如果想要一篇一篇看过去,即使只关注自己的研究方向,那工作量也实在太大了,那我们就可以用文心一言快速总结论文,提高科研效率。

期待

当前文心一言具备相当优秀的性能和用户体验,达到了真正的“上手即用”,成为我们科研和工作的生产力神器。

在此,我非常期待文心一言支持更多的功能、插件,开放插件生态,帮助开发者基于文心大模型打造自己的应用。

最后希望国产大语言模型发展越来越好!给每个人带来便利!

整理不易,请点赞和在看7cdb6b1be556196354b0ff8f2c27f47d.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/851934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

春秋云镜 CVE-2020-2551

春秋云镜 CVE-2020-2551 Weblogic iiop协议反序列化 靶标介绍 2020年1月15日,Oracle发布了一系列的安全补丁,其中Oracle WebLogic Server产品存在高危漏洞,漏洞编号CVE-2020-2551,CVSS评分9.8分,漏洞利用低难度&…

C++入门(小白篇1—编译器安装-代码注释等)

前言: 最近想学一下一下C看了一些博客内容写的倒是很充实,但是,细节不到位,我是有Python基础的,所以学习来蛮快的,但是对于小白的话,有好多小细节大多数博客还是不够详细,由此我想写…

第8集丨Vue 江湖 —— 列表渲染

目录 一、v-for指令1.1 遍历数组1.2 遍历对象1.3 遍历字符串1.4 遍历指定次数1.5 案例整合 二、key的作用与原理2.1 虚拟DOM中key的作用2.2 新旧虚拟DOM对比规则2.3 用index作为key可能会引发的问题2.3.1 错误案例2.3.2 错误效果2.3.3 错乱原理图 2.4 开发中如何选择key? 三、…

webshell链接工具-Godzilla(哥斯拉)

项目地址 https://github.com/BeichenDream/Godzilla

“构建高级自定义MVC框架实现CRUD功能的完整指南“

目录 前言1. 导入罐2. 导入工具类3. 配置框架配置文件以及web.xml4. 创建实体类、DAO、Service和Controller5. 配置框架的配置文件6. 页面前端开发 总结 前言 在现代的Web开发中,MVC(Model-View-Controller)架构模式被广泛应用。它将应用程序…

C++中如何让程序休眠自定义的时长

在C中&#xff0c;可以使用以下几种方法让程序休眠指定的时间&#xff1a; 1 使用操作系统相关的方法&#xff0c;如 Windows 中的 Sleep 函数&#xff0c;需要包含 <windows.h> 头文件 #include <windows.h> // 休眠1000毫秒&#xff08;1秒&#xff09; Sleep(…

Spring自定义参数解析器设计

1.什么是参数解析器 RequstBody、RequstParam 这些注解是不是很熟悉&#xff1f; 我们在开发Controller接口时经常会用到此类参数注解&#xff0c;那这些注解的作用是什么&#xff1f;我们真的了解吗&#xff1f; 简单来说&#xff0c;这些注解就是帮我们将前端传递的参数直…

怎么把图片表格转换成word表格?几个步骤达成

在处理文档时&#xff0c;图片表格的转换是一个常见的需求。而手动输入表格是非常耗时的&#xff0c;因此&#xff0c;使用文本识别软件来自动转换图片表格可以大大提高工作效率。在本文中&#xff0c;我们将介绍如何使用OCR文字识别技术来将图片表格转换为Word表格。 OCR文字识…

Redis基础命令大全

这里写目录标题 第一章、Redis 命令大全1.1&#xff09;通用命令语法&#xff1a;ping语法&#xff1a;dbsize语法&#xff1a;select db语法&#xff1a;flushdb语法&#xff1a;exit 或 quit语法&#xff1a;redis-cli 1.2&#xff09;Redis 的 Key 的操作命令语法&#xff1…

20、Flink SQL之SQL Client: 不用编写代码就可以尝试 Flink SQL,可以直接提交 SQL 任务到集群上

Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…

echarts图表中Y(y)轴间距固定,等间距,刻度固定,设置最大值、最小值

echarts图表中Y(y)轴间距固定&#xff0c;等间距&#xff0c;刻度固定&#xff0c;设置最大值、最小值 正确的写法interval: 2.5指定刻度间隔,我的间距2.5 、5、7.5、10、12.5,所以需要改成这种。如果你是 yAxis: {name: 退款率%,type: value,min: 2.5,max: 12.5,interval: …

【基础类】—安全类

一、CSRF 基础概念和缩写 CSRF&#xff0c; 通常称为跨站请求伪造&#xff0c;英文名 Cross-site request forgery 缩写 CSRF攻击原理 关键点&#xff1a; 利用你本身的漏洞自动去执行接口&#xff0c;同时要依赖于用户要登录网站(比如微博粉丝关注) 2-1 网站A中某个接口存在…

CAD怎么转高清JPG图片?三种方法轻松搞定

将CAD文件转换为JPG图像格式可以让文件更易于共享&#xff0c;并且可以更轻松地在不同平台上传递。此外&#xff0c;JPG文件格式具有更小的文件大小&#xff0c;可以更快速地下载或上传。但是&#xff0c;需要注意的是&#xff0c;转换为JPG格式可能会导致图像质量下降&#xf…

分布式问题

1. 分布式系统CAP原理 CAP原理&#xff1a;指在一个分布式系统中&#xff0c;Consistency&#xff08;一致性&#xff09;、Availability&#xff08;可用性&#xff09;、Partitontolerance&#xff08;分区容忍性&#xff09;&#xff0c;三者不可得兼。 一致性&#xff08;C…

【数据分析专栏之Python篇】五、pandas数据结构之Series

前言 大家好&#xff01;本期跟大家分享的知识是 Pandas 数据结构—Series。 一、Series的创建 Series 是一种类似于一维数组的对象&#xff0c;由下面两部分组成&#xff1a; values&#xff1a;一组数据&#xff0c;ndarray 类型index&#xff1a;数据索引 顾名思义&…

华为智选首款纯电轿跑“LUXEED”能大卖吗?

监制 | 何玺 排版 | 叶媛 华为智选纯电轿跑来袭&#xff01; 8月7日&#xff0c;华为常务董事余承东在社交媒体上发文&#xff0c;宣布华为智选即将推出首款“突破想象”的纯电轿跑车。 01 华为智选首款纯电轿跑来袭 余承东的发文引起了极大关注&#xff0c;在各大媒体的报…

2024考研408-计算机网络 第六章-应用层学习笔记

文章目录 前言一、网络应用模型1.1、认识应用层功能和特点1.2、网络应用层模型&#xff1a;1.2.1、客户/服务器&#xff08;C/S&#xff09;模型1.2.2、P2P模型 二、DNS系统2.1、认识DNS与IP地址的关系2.2、DNS解析的大致流程2.3、域名的分类2.4、域名服务器的分类2.5、域名解析…

linux (platform driver)平台设备驱动匹配方法

Table of Contents 一、匹配函数platform_match 1.1、设备树匹配方法 1.2、id_table匹配方法 1.3、dev-name和platform_driver->drv->name匹配方法 一、匹配函数platform_match 平台设备驱动分为设备层和驱动层&#xff0c;每当有新的设备或者新的设备驱动注册时都要…

webshell链接工具-antSword(中国蚁剑)

中国蚁剑是一款开源的跨平台网站管理工具&#xff0c;它主要面向于合法授权的渗透测试安全人员以及进行常规操作的网站管理员。 任何人不得将其用于非法用途以及盈利等目的&#xff0c;否则后果自行承担并将追究其相关责任&#xff01; 项目地址&#xff1a; https://github.c…

GitOps 与 DevOps:了解关键差异,为企业做出最佳选择

在软件开发领域&#xff0c;GitOps 和 DevOps 是加强协作和实现软件交付流程自动化的重要技术。虽然这两种模式都旨在提高软件开发生命周期的效率&#xff0c;但它们的核心原则和实施方式却各不相同。 本篇文章将帮助您了解 GitOps 和 DevOps 之间的差异、它们的工作流程&am…