Is ChatGPT a general-purpose natural language processing task solver?

news2026/2/12 9:08:13

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。

Is ChatGPT a general-purpose natural language processing task solver?

本文章是 Nanyang Technological University, Amazon Web Services，Shanghai Jiao Tong University, Georgia Institute of Technology, Stanford University在2023年2月8日发表的文章，内容主要为实验报告，其ChatGPT数据采集时间为2023.01.10~2023.01.31。该文章报告ChatGPT的优缺点，旨在这项研究能够启发未来的工作。具体文章参见https://arxiv.org/pdf/2302.06476.pdf

正文

由于该文章主要是实验报告，我们就直接看实验结果即可。

一 ChatGPT与GPT3.5对比

文章提到ChatGPT是在GPT3.5的基础上训练而来，所以在Arithmetic Reasoning、commonsense reasoning、 Symbolic reasoning、Logical reasoning 、Question Answering、Summarization和Sentiment Analysis任务进行对比。ChatGPT的效果在大多数任务优于GPT-3.5，也存在summary和Sentiment 任务表现较差，同时与具体任务微调的模型相比性能较差，与理想的通用模型还有一段距离。

二在不同任务上与GPT3.5变种（ext-davinci）和其它语言模型对比

任务：

Arithmetic Reasoning、Commonsense, Symbolic, and Logical Reasoning、Question Answering、Natural Language Inference、Dialogue、Named Entity Recognition、Summarization和Sentiment Analysis。

任务输入格式：

数据集

1）Arithmetic Reasoning

结果：ChatGPT优于GPT3.5,但比该任务的模型性能差

2）Commonsense, Symbolic, and Logical Reasoning

结果：ChatGPT优于GPT3.5,但比该任务的模型性能差

3）Natural Language Inference

结果：ChatGPT优于GPT3.5,但比该任务微调的模型性能差。另外Not Entailment性能比GPT3.5差

4）Question Answering

结果：ChatGPT优于GPT3.5,但比该任务的模型性能差

5）Dialogue

结果：ChatGPT优于GPT3.5,但比该任务的模型性能差

6）Summarization

结果：ChatGPT比GPT3.5,差但比该任务的模型性能差

7）Named Entity Recognition

结果：ChatGPT与GPT3.5对不同实体词性能表现不一

8）Sentiment Analysis

结果：ChatGPT差于GPT3.5

9）ChatGPT v.s. Full-Set or Few-Shot Fine-Tuning

总结

作为一个强大的通用模型，ChatGPT 一方面擅长推理和对话任务；另一方面，ChatGPT 在总结和情感分析还不够强大。该研究希望能够启发未来的工作，产出强大的通用语言模型。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/350409.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Android常用9种自动化测试框架对比，Appium有哪些优势？

Android常用9种自动化测试框架对比，Appium有哪些优势？

随着移动终端的普及，手机应用越来越多，也越来越重要。 App的回归测试用例数量也越来越多，全量回归也越来越消耗时间。移动 APP自动化测试的难点移动 APP的UI自动化测试长久以来一直是一个难点，难点在于UI的”变”, 变化导致自动化…

阅读更多...

【数据结构】动态顺序表的接口实现（附图解和源码）

【数据结构】动态顺序表的接口实现（附图解和源码）

动态顺序表的接口实现（附图解和源码） 文章目录动态顺序表的接口实现（附图解和源码）前言一、定义结构体二、每一个接口的实现原理（附图解）1.初始化顺序表2.增容顺序表3.尾插数据4.删除顺序表信息&#xff08…

阅读更多...

git rebase 和 git merge，实际工作使用

git rebase 和 git merge，实际工作使用

概述 git rebase是用来处理git merge命令所处理的同样的问题。这两个命令都用于把一个分支的变更整合进另一个分支——只不过他们达成同样目的的方式不同。场景，你在feature分支上开，另一位团队成员更新了main分支。这将会造成一个分叉的提交历史&am…

阅读更多...

【Java|多线程与高并发】详解start()方法和run()方法的区别

【Java|多线程与高并发】详解start()方法和run()方法的区别

文章目录前言1.start()方法和run()方法2.不能两次调用start()方法3.线程的执行是随机的start()方法和run()方法的执行顺序不一定相同4.run()方法由JVM调用public Thread(Runnable target)中的target前言本篇文章主要讲解以下几个问题: start()方法和run()方法的区别与联系为…

阅读更多...

python cartopy绘制扇形区域图/cartopy绘制北极部分区域

python cartopy绘制扇形区域图/cartopy绘制北极部分区域

问题当绘图时，往往并不需要绘制整块区域，而是想聚焦于局部地区，此时我们需要绘制扇形图。在cartopy中，只提供普通正方形的框架，如果我们需要其他，边界，需要自己去绘制，最常见的是…

阅读更多...

程序分析与神经网络后门

程序分析与神经网络后门

原文来自微信公众号“编程语言Lab”：程序分析与神经网络后门搜索关注“编程语言Lab”公众号（HW-PLLab）获取更多技术内容！ 欢迎加入编程语言社区 SIG-程序分析，了解更多程序分析相关的技术内容。加入方式：…

阅读更多...

Nginx常用命令及具体应用（Linux系统）

Nginx常用命令及具体应用（Linux系统）

目录一、常用命令 1、查看Nginx版本命令，在sbin目录下 2、检查配置文件的正确性 3、启动和停止Nginx 4、查看日志，在logs目录下输入指令： 5、重新加载配置文件二、Nginx配置文件结构三、Nginx具体应用 1、部署静态资源 2、反向代…

阅读更多...

MacOS Pytorch 机器学习环境搭建

MacOS Pytorch 机器学习环境搭建

学习 Pytorch ，首先要搭建好环境，这里将采用 Anoconda Pytorch PyCharm 来一起构建 Pytorch 学习环境。 1. Anoconda 安装与环境创建 Anoconda 官方介绍：提供了在一台机器上执行 Python/R 数据科学和机器学习的最简单方法。为什么最简单…

阅读更多...

springmvc考研交流平台 java ssm mysql

springmvc考研交流平台 java ssm mysql

随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，考研交流平台当然也不能排除在外，从备考资料、课程学习的统计和分析，在过程中会产生大量的、各种各样的…

阅读更多...

头戴式耳机适不适合跑步、最好用的跑步耳机推荐

头戴式耳机适不适合跑步、最好用的跑步耳机推荐

现在爱好运动、重视健康的人越来越多，并且这部分群体呈现几何级增长，而这其中又有很多人喜欢边跑步时边听音乐，所以现如今跑步时听音乐是基本上已经成为很多运动人士的刚性需求。但实际上真正适合运动跑步的耳机并不多，我跑步差不…

阅读更多...

程序员的自我修养第七章——动态链接 (下)

程序员的自我修养第七章——动态链接 (下)

接上一篇。 7.3 地址无关代码对于现代机器来说，引入地址无关代码并不麻烦，我们展示下各种模型的地址引用方式： 1. 模块内部函数调用 2. 模块内部的数据访问，如全局变量、静态变量。 3. 模块外部的函数调用，跳转。 4.…

阅读更多...

【算法基础】字典树（Trie树）

【算法基础】字典树（Trie树）

一、Trie树原理介绍 1. 基本概念 Trie 树，也叫“字典树”。顾名思义，它是一个树形结构。它是一种专门处理字符串匹配的数据结构，用来解决在一组字符串集合中快速查找某个字符串的问题。【高效存储和查找字符串集合的数据结构】，存储形式如下： 2. 用数组来模拟Trie树的…

阅读更多...

SpringBoot 启动配置文件加载和参数配置修改问题

SpringBoot 启动配置文件加载和参数配置修改问题

SpringBoot 配置文件修正和参数覆盖SpringBoot 配置文件加载和参数覆盖1、SpringBoot 配置文件加载1.1、修改application.properties的参数几种方式1.2、方法一：直接CMD1.3、方法二：系统变量配置1.4、方法三：程序运行配置1.5、方法四&#xf…

阅读更多...

【从零开始学C语言】知识总结一：C语言的基本知识汇总

【从零开始学C语言】知识总结一：C语言的基本知识汇总

C语言期末知识点总结 C语言期末试题（附答案）选择题编程题 2022C语言知识点大全【详细、必备】 C语言期末大作业-学生成绩管理系统（完整源码设计报告） C语言期末作业（15个）-货物管理系统、歌曲信息管理系…

阅读更多...

Linux软件管理RPM

Linux软件管理RPM

目录前言 RPM软件管理程序：rpm RPM默认安装的路径 PRM讲解前准备工作 RPM安装（install） RPM查询（query） RPM卸载（erase） RPM升级与更新（upgrade/freshen） RPM重…

阅读更多...

高压放大器在介电泳效应的细胞分选研究中的应用

高压放大器在介电泳效应的细胞分选研究中的应用

实验名称：高压放大器在介电泳效应的细胞分选研究中的应用研究方向：生物医学测试目的：细胞分选在分析化学和生物医药领域有着非常重要的应用。在众多的分选方法中，微流控分选方法以其响应速度快、样品需求少等优点成为研究热门。微…

阅读更多...

订单超时处理方案介绍

订单超时处理方案介绍

在电商场景下，一个订单流程中有许多环节要用到超时处理，包括但不限于： 买家超时未付款：比如超过15分钟没有支付，订单自动取消。商家超时未发货：比如商家超过1个月没发货，订单自动取消。买家…

阅读更多...

【数据结构与算法】数组2：双指针法二分法（螺旋矩阵）

【数据结构与算法】数组2：双指针法二分法（螺旋矩阵）

文章目录今日任务1.Leetcode977：有序数列的平方（1）题目（2）思路（3）暴力排序（4）双指针法2.Leetcode209：长度最小的子数组（1）题目&#x…

阅读更多...

数据库版本管理工具Flyway应用研究

数据库版本管理工具Flyway应用研究

目录1 为什么使用数据库版本控制2 数据库版本管理工具选型：Flyway、Liquibase、Bytebase、阿里 DMSFlywayLiquibaseBytebase阿里 DMS3 Flyway数据库版本管理研究3.1 参考资料3.2 Flyway概述3.3 Flyway原理3.4 Flyway版本和功能3.5 Flyway概念3.5.1 版本迁移&#xf…

阅读更多...

聚观早报|马斯克有意出价45亿英镑收购曼联；威马员工将停薪留职

聚观早报|马斯克有意出价45亿英镑收购曼联；威马员工将停薪留职

今日要闻：马斯克有意出价45亿英镑收购曼联；小米汽车接近获得新能源汽车生产资质；威马员工将停薪留职？；集度融合文心一言ChatGPT上车；三星 Galaxy S23 系列国行版发布马斯克有意出价45亿英镑收购曼联据外媒…

阅读更多...

推荐文章

最新文章