对比体验 ChatGPT,聊聊文心一言的优缺点

news2024/11/29 4:38:57

在昨天文心一言发布后,我第一时间拿到了体验的资格,但第一次使用后却不禁有些失望。他的逻辑能力极度缺乏、创造力也差点意思。不过,今天再次高强度使用后,却又让我对这款产品的想法有了些许改变。

前言

将 2023 年称为 AI 纪元在我看来也没什么不合适的:虽说 ChatGPT 在去年就已推出,但真正在国内大火还是在今年的事情;而在这个月,OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型,又让一大波基于 OpenAI 的二次开发的工具类软件大火;在今天,微软在发布会上再度宣布将把 ChatGPT 整合进 Microsoft Office 套件中。一时间,AI 仿佛成为了最近最「潮流」的词语。

而如果我们将时间倒回两年之前,就能看到其实百度早在 2021 年就已经入局 AI:文心大模型的第一个版本早在 2019 年就已发布,此后的每一年都会发布一个新版本。不过直到 ChatGPT 在国内大火后,百度才推出了自己面向公众的自然语言处理工具——文心一言。

2021 年「百度世界」上,李彦宏和撒贝宁交流百度关于 AI 的探索

「文心一言」是什么?

根据百度自己的介绍:

文心一言是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。 文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

要更好的了解文心一言的能力,我们不妨就来试试文心一言「主打」的这五个能力,看看他们的能力分别是怎样的。

实际体验

1. 文学创作能力

在这里我选择了最能考验 AI 想象能力的科幻作品创作,并且提升了一些难度:

🔑 Prompt:请你生成一个科幻故事,以你好,宇宙。作为结尾的最后一句。

在这个 Prompt 中,如果想要生成一个满足条件的、有趣的科幻作品,难度不小。而且比较考验 AI 把控情感和主题线索的能力。

来看看文心一言的表现:

可以看出,文心一言生成的内容,与其说是「科幻故事」,倒不如说是第三人称叙事,并且也并没有满足 Prompt 的全部要求。不过对于文章主题(宇宙、太空)等大意能够进行把握,有基本的分析文本的能力。

接下来是 GPT-4 模型的表现:

GPT-4 生成的故事要明显好于文心一言生成的内容,并且准确的理解了 Prompt 的所有要求。文章中也不乏一些有意思的句子,改一改或许真的能写成一篇科幻小说。不过 GPT-4 生成的内容虽然扣题,但「你好,宇宙」与文章内容的联系还是有些勉强。

总的来说,文心一言在文学创作方面,至少是科幻作品创作方面,还远远没有达到基础的门槛,甚至都没有完全实现 Prompt 中的指令。不过文学创作方面本身就比较困难,因此也可以理解。

2. 商业广告能力

在这里我选择了我最熟悉的 Apple 的广告词。Apple 英文广告词一个非常常见的风格是每一句都很押韵,例如 iPad 10 的英文广告词是「Lovable. Drawable. Magical.」,但这一句在国区被翻译为「可圈可点可画心」,丧失了英文广告词的精髓。我们不妨让文心一言和 GPT-4 来试着翻译翻译 iPad 10 的广告词。

文心一言的效果:

又再次出现了老问题:生成的内容并不严格遵循 prompt 的指令。接下来看看 GPT-4 模型的能力:

可见 GPT-4 模型在这种要求的商业广告能力上也显得力不从心,看来商业广告的生成还是有很大难度。

3. 数理逻辑推算

为了验证 GPT-4 和文心一言的数理逻辑,我们问了两个问题。一个是初中难度纯数学问题,另一个是逻辑思维问题。

🔑 Prompt 1:请问一次函数 y=3x+3 与 X 轴的交点坐标是多少?

GPT-4:

看起来初中的题 GPT-4 模型来计算还是小菜一碟。但是当我们将目光放在文心一言上,就会发现他还有很大的提升空间:

至于 GPT-4 的上限,现在已经有很多人测试过,在这里不做过多赘述。

接下来是一道逻辑题:

🔑 Prompt:有一个 3L 的烧杯和一个 5L 的烧杯,如何得到 4L 水?

先看 GPT-4,完美解决,用的是最简单的方法:

可见 GPT-4 还是有一定的的逻辑能力。但接下来文心一言的生成让我有点不敢相信这是 2023 年的语言模型:

这个回答,竟一时让我不知从哪开始反驳。可见文心一言的 AI 模型目前连最基础的数字运算都还不完善。

4. 中文理解

这个在我最初的理解中,应该是文心一言的强势部分。毕竟 GPT-4 中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上,我选取了白话文、古诗文、小说三种中文形式进行测试

1)白话文理解

在白话文的测试中,我就选去情侣之间经常说的一句话🌚:

 🔑 Prompt:你要是还不来,就给我等着吧!

在这句话里,「你给我等着吧」有一种略微的威胁、生气以及有些开玩笑的语气成分在。来看看 GPT-4 和文心一言对于这句话的理解能力:

在这个测试中,文心一言比我想象中的,类似于「意思是是在等待另一方」的回复要更加正确一些。但是相比于 GPT-4 模型的更加完善、全面的解释,文心一言显然只体会到了其中略微威胁、生气的情感。

2)古诗文理解

在这一个部分中,我选取了《茅屋为秋风所破歌》的「安得广厦千万间,大辟天下寒士俱欢颜」一句。

🔑 Prompt:「安得广厦千万间,大辟天下寒士俱欢颜」表达了什么样的情感

他们的表现分别是:

对于这种非常经典的内容,两个模型的理解都还不错,尤其是 GPT-4 要比我想象的水平好不少。

3)小说理解

在这个部分中,我选择用《红楼梦》这部经典名作的其中一段来让两个模型练练手:

两个模型都对于红楼梦这部分内容有最基础的理解,但是更深度的思考都很欠缺。仅仅是在概括和使用白话文总结这个段落发生的事情。

5. 多模态生成

多模态生成应该是文心一言相比于 ChatGPT 的优势(我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型)。

在测试中,我使用了常见 Prompt 和毫无逻辑的 Prompt 两个 Prompt 让 AI 生成图像。

对于常见的 Prompt,文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格,但是可以通过 Prompt 来改变风格。可惜在生成过程中,还是犯了文心一言的老毛病:不严格遵循 Prompt 的要求。尤其是下面第二幅图,只画出了「一个人」,其他的要点都没有展现在图片中,这是目前文心一言一个很大的问题。

但是对于一些要求奇怪的 Prompt,比如「请你画一只爱国的猫」,他就会完全傻掉:

可见文心一言的多模态生成还有很多提升的空间。至少先让生成的画作能严格符合 Prompt 的要求吧

6. 记忆类学术问题

不过对于记忆类的学术问题,文心一言和 GPT-4 的效果都相当不错。一个主要的原因是这方面的训练集不像其他内容需要在中文互联网环境上收集,因此内容质量普遍比较高。

拿神经科学的题目举个例子:

GPT-4 生成内容

两个模型都正确的回答出了正确答案。我也尝试了神经科学、认知心理学方面的很多理论性的知识,两个模型的准确率都高于 90%。

四、总结

通过上面实际体验的截图,可以看出文心一言文字的生成质量还欠缺很多,并且多模态生成的图片也有提升的空间。但文心一言也有自己的优势,例如可以在国内网络环境下直接体验、可以生成图片等功能。

百度作为国内最早入局 AI 的企业,但最终效果不尽人意,其实也间接说明了国内互联网环境的一些遗憾,例如充斥着大幅无意义的内容。

而且,国内互联网很难提供一个合格的训练环境。例如知乎作为国内最大的问答平台,并没有提供一个反选「最佳回答」的选项,而有些知乎问题的最高赞往往是一些抖机灵的答案,给 AI 训练增加了很多难度,因此文心一言目前效果不尽如人意也不完全是百度的责任。

或许再给百度一段时间,文心一言的模型能做得更加优秀。相信文心一言也能随着迭代,克服不足,让亮点更亮。正如《离骚》中所写的:

路漫漫其修远兮,吾将上下而求索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/474150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

西门子PLC沿脉冲类指令汇总

S7-1200CPU提供了四种沿脉冲指令供用户使用,分别为:扫描操作数信号边沿指令、在信号边沿置位操作数的指令、扫描RLO的信号边沿指令以及检测信号边沿指令。 信号从0--1的时刻称为上升沿,信号从1--0的时刻称为下降沿,不管是上升沿还…

【VM服务管家】VM4.0平台SDK_2.1环境配置类

目录 2.1.1 环境配置:CSharp二次开发环境配置方法2.1.2 环境配置:Qt二次开发环境配置方法2.1.3 环境配置:MFC二次开发环境配置方法2.1.4 环境配置:VB.Net二次开发环境配置方法2.1.5 环境配置:运行出现Vm.Core.Solution…

python+django+vue消防知识宣传网站

开发语言:Python 框架:django Python版本:python3.7.7 数据库:mysql 数据库工具:Navicat 开发软件:PyCharm 层随着移动应用技术的发展,越来越多的消防单位借助于移动手机、电脑完成生活中的事…

Ubuntu目录和文件的相关操作

目录 1、目录的切换 2、查看目录及文件 3、目录的常见操作 4、文件的常见操作 1、目录的切换 打开终端窗口(”ctrlaltt“) 一般使用(”pwd“)显示当前所在的目录 比如:当前目录是在home下面的,与用户…

01_JUC概述

1. JUC是什么? 在 Java 5.0 提供了 java.util.concurrent(简称JUC)包,在此包中增加了在并发编程中很常用的工具类。此包包括了几个小的、已标准化的可扩展框架,并提供一些功能实用的类,没有这些类,一些功能会很难实现或…

玩手机打电话识别监测算法 yolov8

玩手机打电话识别监测系统通过YOLOv8网络模型技术,玩手机打电话识别监测算法对现场有人玩手机抽烟打电话时可以立即自动进行抓拍存档。YOLOv8 算法的核心特性和改动可以归结为如下:提供了一个全新的 SOTA 模型,包括 P5 640 和 P6 1280 分辨率…

【全年汇总】2023年CCF人工智能会议截稿时间汇总(持续更新)

本博文是根据2022年CCF会议推荐的人工智能领域相关会议目录撰写。 一、截稿时间总览 截稿时间的总时间轴内容将会持续更新...... 往年投稿及录用情况及链接详见图片后面的内容。 二、会议详细目录 由于一些会议的投稿时间还没公开,因此根据往年投稿时间在表格中使…

石化企业数字化防爆融合通信解决方案

项目背景 石化工业是我国国民经济和社会发展的基础性、战略性产业,其发展和壮大受到了党和国家的高度重视。随着石化企业厂区规模的不断扩大以及技术的快速发展,现有石化企业专网通信系统建设相对滞后,缺乏结合人员管理、安全生产、安全通信…

商品详情API接口如何获取淘宝数据

淘宝是中国最大最受欢迎的电商平台之一,汇集了大量的商家和买家。在淘宝上热门商品的销量经常十分巨大,因此有些开发者和网站想要获取淘宝商品数据来进行一些分析。下面是一篇关于淘宝商品详情API接口获取淘宝数据的文章。 一、淘宝商品API接口介绍 淘…

HadaFS - Burst Buffer解读

背景 近几年AI,ML,HPC大火, 针对这些场景的存储技术及方案也逐步衍生出两个分支,第一支:以Lustre,BeeGFS等为代表的分布式并行文件系统, 这些文件系统对POSIX提供了很好的支持,各种…

Idea关闭或开启引用提示Usages和Annotations

IDEA的引用提示与Annotation 在2022版本的Idea中,新增了引用提示(Usages)和作者(Annotations)的功能。虽然用起来挺好用的,但对电脑还是有一定的压力,在配置比较低的电脑上,打开一个…

PHP入门【1】使用组合包安装php

目录 一,安装appserv组合包 二,运行第一个php程序 一,安装appserv组合包 组合包:将apache,mysql,php等服务器软件和工具安装配置完成后打包处理 组合包大大提高了我们的效率,不需要为配置环境…

使用Python和机器学习进行文本情感分类

使用Python和机器学习进行文本情感分类 1. 效果图2. 原理3. 源码参考这篇博客将介绍如何使用Python进行机器学习的文本情感分类(Text Emotions Classification)。 1. 效果图 训练文本及情感分类前5条数据如下: 训练过程及测试文本情感分类效果图如下: 可以看到 对文本“S…

javaEE初阶 — 服务器版本的表白墙案例

文章目录 原来版本涉及的问题设计程序1 点击提交2 页面加载 实现后端代码1 新建一个 Maven 项目。2 按照之前第一个 Servlet 程序的步骤来进行设置3 新建一个 MessageServlet 类 实现前端代码1 点击提交的时给服务器发送一个 POST 请求2 在页面加载时发送一个 GET 请求3 将数据…

如何学习数据结构和算法

背景: 对待数据结构与算法的态度可能大多数人就是觉得晦涩难懂。这节课我们跟随老师看看老师是如何带领我们入门的。 定义: 首先我们了解数据结构和算法的定义: 从广义上讲,数据结构就是指一组数据的存储结构。算法就是操作数…

MES系统8路热电偶温度输出太网口

8路热电偶温度模块可以同时采集8个热电偶信号,并且具备高精度、高稳定性和良好的抗干扰性能,非常适合工业领域中需要监测多个物体温度的应用场景。 该热电偶温度模块拥有以下几个特点: 1. 8个差分输入通道,支持多种类型的热电偶…

【排序】归并排序(递归+非递归图示详解哦)

全文目录 引言归并排序思路递归实现 归排非递归思路实现 总结 引言 在本篇文章中,将继续介绍一种排序算法:归并排序。 归并排序运用了归并的思想,即将两个有序数列归并为一个有序数列。在前面的合并两个有序链表时,运用了这种思想…

四福来轮全向底盘实现写字功能

1. 功能说明 本文示例将实现R310b样机四福来轮全向底盘绘制“探索者”空心字的功能。 2. 电子硬件 本实验中采用了以下硬件: 主控板 Basra主控板(兼容Arduino Uno) 扩展板 Bigfish2.1扩展板 SH-ST步进电机扩展板电池11.1v动力电池 其它 步进…

干货分享:AI绘图学习心得-Midjourney绘画AI,让你的AI绘画之路少走弯路

干货分享:AI绘图学习心得-Midjourney绘画AI 最重要的Prompt和参数基本 Prompts高级Prompts 一、构图指令结构二、常用指令分享三、操作技巧总结四、常用风格词汇五、常用构图词汇六、高频实用词汇推荐:七、其他AI资料获取: 本篇没有什么长篇大…

01-Vue技术栈之基础篇(上)

目录 1、Vue简介1.1 Vue官网1.2 介绍与描述1.3 Vue 的特点1.4 与其它 JS 框架的关联1.5 Vue 周边库 2. 初识Vue2.1 Vue初体验2.2 注意事项2.3 js表达式和js代码(语句) 3、Vue模板语法3.1 语法分类3.2 插值语法3.3 指令语法 4、Vue模板语法4.1 数据绑定方…