点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
今年国内厂商已发布很多大语言模型,其中最具代表性的产品有:百度的文心一言、阿里巴巴的通义千问、科大讯飞的星火等,最具代表性的开源工作有:ChatGLM、MOSS、BaiChuan等。
大语言模型的能力有很多,比如知识问答、文本生成、翻译、编程、数据分析、图像生成等。
想必有不少同学已经用上大语言模型产品了,将其作为自己的生产力工具。同时也会有很多同学疑问:究竟哪家的实力最强?!如果要选择一个作为科研学习和工作的工具,哪个产品上手又好又快?!
清华大学沈阳团队重磅发布《大语言模型综合性能评估报告》
近日,清华大学(新闻与传播学院沈阳团队)最新发布《大语言模型综合性能评估报告》,该报告给出一个答案:百度文心一言综合评分国内第一(三大维度、20项指标),超越ChatGPT 3.5!其中文心一言的中文语义理解排名第一,部分中文能力超越GPT-4。
本报告测评对象包含了GPT-4、ChatGPT 3.5、Claude国外主流大语言模型,也包含了文心一言、通义千问、讯飞星火、天工国内代表性大语言模型。本报告围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、逻辑推理、内容安全性等20项指标。
在生成质量维度上,基于对语义理解、输出表达、适应泛化三个方面的综合评测(均为Prompt测试),文心一言得分率高达76.98%,仅次于GPT-4,而领先于ChatGPT 3.5等大语言模型。其中,在部分中文语义理解方面,文心一言以92%得分率排名第一,超越了GPT-4。
在使用与性能维度上,基于对使用便捷性、响应速度和鲁棒性三个方面的综合评测,文心一言得分率高达72.38%,仅次于ChatGPT 3.5、GPT-4,而远超其他大语言模型。报告显示,文心一言使用便捷,响应快,模型鲁棒性高,对于意外、错误或极端情况下的回应表现较好,而且新加入的插件“ChatFile”支持超长文本输入、插件“百度搜索”支持生成更实时准确的信息。
百度搜索和ChatFile插件
在安全与合规维度上,基于对内容安全性、偏见和公平性、隐私保护、版权保护四个方面的综合评测,文心一言得分率高达78.18%,与GPT-4并列第一,远超其他大语言模型。报告显示,文心一言内容安全性好,把握细微,注重用户隐私保护,重视版权保护。
综上来看,文心一言的语义理解能力更为突出,尤其是具备更好的中文理解能力,更懂中国文化和本土主题/背景,而且时效性很强、内容安全性高,对信息把握细微。
这里文心一言的突出优势,离不开百度知识增强、检索增强和对话增强的技术创新。
在知识增强方面,文心一言基于百度构建的庞大的知识图谱,通过知识内化和知识外用来实现知识增强。知识内化,是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中;知识外用,是引入外部多源异构知识,做知识推理、提示(Prompt)构建等等,使模型具备高效运用外部知识的能力。在知识的指导下,文心一言学得又好又快,模型效率和效果均大幅提升。
在检索增强方面,文心一言借助了搜索引擎的能力。以语义理解与语义匹配为核心技术的新一代检索架构,深入理解用户需求和网页内容,进行语义匹配。通过引入搜索结果,可以为大语言模型提供时效性好、准确性高的参考信息。
在对话增强方面,基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,使得对话的连贯性、合理性和逻辑性更好,用户实际体验更佳。
不过在本次清华大学(沈阳团队)报告中,并没有看到清华大学自家的ChatGLM大语言模型的评测结果,不清楚是否是因为性能有限,没有参与测评。我是很想看看产品级应用和开源项目之间的性能及体验差距有多大。
文心一言实测
上面简单介绍了文心一言在清华大学《大语言模型综合性能评估报告》中的测评成果和技术细节,下面从我们用户的角度来看,测试最新版本的文心一言究竟有多强,看看实际使用体验如何。
于是我实测了文心大模型3.5版本加持的文心一言。特别提一下,如果你之前有拿到文心一言内测资格的话,应该会明显发现,从3月份到现在,文心一言能力有非常大的提升,可以感觉到体验有非常大的变化。
下面从计算机视觉、人工智能方向从业者角度,提问一些专业问题和日常问题,来看看文心一言是否可以轻松应对。
专业知识
不管对于人工智能方向的学生,还是工程师/研究员,每天都会遇到很多行业问题。这里测试文心一言是否可以回答一些专业领域问题和建议。
问题:小目标检测有哪些技巧?
文心一言列举了7条建议,分别从输入、特征融合、anchor设计、损失函数、训练等角度给出实用性建议,内容相当全面且详尽。
Transformer目前在计算机视觉、自然语言处理等领域爆火!大名鼎鼎的GPT系列和文心大模型都使用了Transformer相关技术。而大家在学习和应用Transformer过程中会遇到很多问题。这里我来考察文心一言对Transformer的知识点掌握情况。
问题:Transformer为什么要用multi-head注意力?
问题:Self-Attention 的时间复杂度是怎么计算的?
由上可知,文心一言详细解答了关于Transformer的核心知识点问题。
PS:目前正值求职季,强烈建议大家使用文心一言来辅助解决面试题,省时省力,轻松助力校招和社招!
写作辅导
问题:我现在想写一篇语义分割的论文,并想投递到CCF B及以上的会议,请问有哪些建议?
文心一言回答的内容确实有条理且详细,分别从数据集、算法、实验设计等角度给出建议。这里我再加点难度,因为很多咨询问题的同学都是刚入门不久的从业者,所以加个“小白”的背景,更契合实际一点。
问题:我是小白,现在想写一篇图像分割的论文,并想投递到CCF B及以上的会议,请问有哪些建议?
显而易见,文心一言的回答更加基础实用了,还温馨的告知:需要经历一段时间的审稿过程,需要保持耐心和信心。
百度搜索插件
百度搜索——让文心一言具有生成实时准确信息的能力。
前段时间,Meta重磅发布了可免费商用的大语言模型Llama 2,让我们来看看文心一言是否知道这个消息。
可见具有百度搜索插件的文心一言,已经“知晓”了Llama 2的存在,并对其进行了介绍和分析。
林俊杰8月将在上海开“JJ20世界”巡回演唱会,问文心一言在哪里举办,具体开票时间?
文心一言回答的信息完全正确,而且开票时间也就是前几天才正式通知的,可见百度搜索插件加持的文心一言更强了!
ChatFile文档插件
ChatFile——让文心一言具有生成报告摘要、检索和分享文档内容的能力。
用户使用ChatFile,可以直接上传10MB以内的(pdf/doc格式)文档,ChatFile解析完成后会自动生成一份摘要,然后用户通过文本跟文心一言进行对话,这样就可以对文档的内容进一步解析,比如检索和总结等。
我上传了何恺明(Kaiming He)的鼎鼎大名ResNet《Deep Residual Learning for Image Recognition》论文的pdf,从下图可知,文心一言解析该论文pdf后,检索到了该论文的核心知识点,并对更多信息进行了总结。
让文心一言继续总结ResNet论文的创新点和实验结果:
上面总结的实验结果全部汇聚到一个大段文字里了,这里可以单独对实验进行提问,可见文心一言会逐步对实验结果进行总结性介绍:
像每天各大期刊、会议平台上会上新很多论文,如果想要一篇一篇看过去,即使只关注自己的研究方向,那工作量也实在太大了,那我们就可以用文心一言快速总结论文,提高科研效率。
期待
当前文心一言具备相当优秀的性能和用户体验,达到了真正的“上手即用”,成为我们科研和工作的生产力神器。
在此,我非常期待文心一言支持更多的功能、插件,开放插件生态,帮助开发者基于文心大模型打造自己的应用。
最后希望国产大语言模型发展越来越好!给每个人带来便利!
整理不易,请点赞和在看