还能这么玩?清华给 ChatGPT 做逆向,发现了 ChatGPT 的进化轨迹!

news2025/1/12 10:08:09

作者 |小戏、Python

立足一个 ChatGPT,现在对大模型的研究简直是百花齐发百家争鸣,用 ChatGPT 做化学实验、给 ChatGPT 做心理测试、诱导 ChatGPT 越狱泄漏隐私、让几个 ChatGPT 形成一个小社会等等不胜枚举。

而最近,清华的研究团队又在大模型研究中另辟蹊径,不仅构建了一个数据集记录 ChatGPT 随时间的“版本迭代”,更是通过逆向分析探索得到了 OpenAI 对 ChatGPT 动的手脚做的改进,推演出了 ChatGPT 的进化轨迹!论文和项目地址如下:

论文题目:

ChatLog: Recording and Analyzing ChatGPT Across Time

论文链接:

https://arxiv.org/pdf/2304.14106.pdf

项目链接:

https://github.com/THU-KEG/ChatLog

各个大模型的研究测试传送门

阿里通义千问传送门:

https://tongyi.aliyun.com

百度文心一言传送门:

https://yiyan.baidu.com

ChatGPT传送门(免墙,可直接测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):

https://gpt4test.com

首先让我们来看一张图,其实毋庸置疑,OpenAI 在 ChatGPT 如此庞大的用户基数下,必然会借助这些海量的“优质数据”让 ChatGPT 不断的迭代进化。以 ELI5 数据集(包含很多 Explain Like I am 5 问题的数据集)为例,在 3 月 9 号的 ChatGPT 版本中,ChatGPT 只给出了一个相当简陋的回答,很显然 ChatGPT 在 3 月 9 号还没有完全理解什么是“Explain Like I am 5”,但是在 4 月 9 号时,ChatGPT 已经完成了进化,不仅表达更加生动,甚至还使用了比喻的修辞

显然,一个直觉的问题是“ChatGPT 是沿着什么方向变化的?”,如果可以搞清楚这个问题,不仅是可以满足一下我们的好奇心,更是给 ChatGPT 客观的评估工作带来了方便。但这个问题并不是 OpenAI 会写在文档里供我们即插即用的问题,因而,这篇工作应运而生,总的来说,论文完成了两件事,一是分别构建了一个按日还按月记录 ChatGPT 变化的数据集;二则是利用这个数据集对 ChatGPT 的进化轨迹进行了分析,得出了不少有意思的结论

ChatLog——ChatGPT 进化数据集

关于数据集,作者团队从两个角度出来,一个是构建一个以月份为时间维度的数据集,一个是构建一个以日期为时间维度的数据集。对于按月记录的数据集而言,作者团队从数据集 HC3(一个包含大约两万四千条问题及其对应的人类专家答案和 ChatGPT 答案的数据集) 、Jack of All Trades (一个用于评估 ChatGPT 在25个公共 NLP 数据集上的 25 个不同 NLP 任务性能的数据集)以及一系列其他数据集中抽取了涵盖计算机、数学、金融等不同领域的共 38730 个问题-答案对,每月询问一次 ChatGPT,构成 ChatLog-Monthly。

而为了监测 ChatGPT 每天的变化,论文从 HC3 数据集中随机抽取了1000个问题,从 2023 年 3 月 5 日到 4 月 9 日重复发送给ChatGPT。其中有些问题是开放性的,可能需要 ChatGPT 借助外部知识,而有部分问题是分析性的,主要考验 ChatGPT 的分析能力。总体大约 30% 是“What”类型的问题,30% 是“How”类型的问题,58% 是为“Why”类型的问题,其他类型的问题占 6%。通过在这些问题上 ChatGPT 的表现,可以评估它在多方面的表现,如多领域知识理解、推理、解释等

分析——ChatGPT 的进化轨迹

有了数据集,选取相应评价指标,便可以看出 ChatGPT 随时间的进化轨迹。如下表所示,对比 1 月份的 ChatGPT 在不同任务数据集上的结果,可以看出 New ChatGPT 有了几乎全线的提升

总结来看,对比 1 月,ChatGPT 主要完成了以下的升级:

  1. 在攻击性与垃圾文本分类任务中,New ChatGPT 有了显著的提升,几乎接近现有模型的 SOTA,这表明 ChatGPT 在识别攻击性与垃圾文本的能力方面有了巨大的提升,这种提升很有可能是开放用户的攻击带来的;
  2. 对于需要数学推理的任务,ChatGPT 有了显著的改进,在 MathQA 数据集上的准确率从 71.40% 提高到了 78.00%。

关注推理能力,从下面的图中可以看出,3 月 5 号的 ChatGPT 使用了错误的推理得出来了错误的答案,但是在 4 月份,ChatGPT 的推理能力便完成了升级,已经可以正确的理解问题并加以推导并得到正确的答案。显然,在 ChatGPT 这种进化速度下,如果没有固定 ChatGPT 的时间版本,那么非常有可能因为忽略 ChatGPT 升级这一关键因素而得出错误的评估结果

值得注意的是,在一些依赖先验知识的任务中,ChatGPT 的性能发生了下降,如在 WNLI 数据集上,ChatGPT的准确率从 1 月份的 81.69% 下降到 71.83%。换言之,大量语料的涌入对 ChatGPT 而言有可能并不全然是一件好事,与人类的互动也会增加 ChatGPT 的机器幻觉

而对 ChatLog-Daily 而言,这种变化可以被更加细致的可视化如下(后缀 p,r,f 分别表示精确度,召回率和 F1 分数):

可以看到,ChatGPT 生成的答案正在变得更加简洁,在追求精度与广度的平衡,以获得更高的可读性。但是,单纯分析这种准确率召回率,其实没法真正透视 OpenAI 到底做了什么,这些指标也无法分析出为什么时隔一个月,ChatGPT 便学会用比喻来解释问题了。因此,作者在这个基础上更进一步做了全面的特征提取,具体而言,作者团队将 n n n 个 query 在 k k k 天内持续丢给 ChatGPT,得到了 n ∗ k n*k nk 维的回复矩阵 R R R,再对 R R R 中每天的回复提取 m m m 个特征(情感特征、知识特征、语言特征),构成集合 F F F 。如下图所示,作者利用对应不同的工具,提取出了知识、语言、情感等总计 265 个的丰富特征。

根据这些特征,作者探索了特征与对应得分之间的关系,可以看到,语义特征与召回率正相关与准确率负相关,结合前面 ChatLog-Daily 的分析结果,可以看出 OpenAI 在语义丰富度方面加强了 ChatGPT。

那么什么在快速迭代中,ChatGPT 的什么特征是稳定的呢?论文定义了一个特征稳定的评估指标——变异系数,公式如下:

μ h = ∑ i = 1 n ∑ j = 1 k s i j n ∗ k σ h = ∑ i = 1 n ∑ j = 1 k ( s i j − ∑ l = 1 k s i l k ) 2 n ∗ k c h = σ h μ h \begin{gathered} \mu_h=\frac{\sum_{i=1}^n \sum_{j=1}^k s_{i j}}{n * k} \\ \sigma_h=\frac{\sum_{i=1}^n \sum_{j=1}^k\left(s_{i j}-\frac{\sum_{l=1}^k s_{i l}}{k}\right)^2}{n * k} \\ c_h=\frac{\sigma_h}{\mu_h} \end{gathered} μh=nki=1nj=1ksijσh=nki=1nj=1k(sijkl=1ksil)2ch=μhσh

其中, h ∈ { 1 , . . . , m } h \in \{1,...,m\} h{1,...,m} 为特征的索引。通过在 ChatLog-Daily 上进行测试,可以看到最稳定的指标是可读性与语义清晰度 。也就是说,这几个指标是 ChatGPT 做的最好的核心竞争力。

总结与讨论

总的来说,这篇论文从 ChatGPT 时间变化性这个角度切入去深入的了解了 ChatGPT 所关注的特征,并且也关注到了 ChatGPT 特征的动态变化,这为许多基于 ChatGPT 的探索性研究铺了一条方便的道路,也或多或少规避了一些因为 ChatGPT 的进化而不应该得出的错误结论。

或许,这样对 ChatGPT 进化数据集的记录与开源,也可以为我们谱写大模型的史书留下了殷实的资料库吧

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/502051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习01-tensorflow开发环境搭建

文章目录 简介运行硬件cuda和cuddntensorflow安装。安装Anaconda创建python环境安装tensorflow-gpupycharm配置配置conda环境配置juypternotebook 安装cuda安装cudnn 简介 TensorFlow是一种端到端开源机器学习平台,它提供了一个全面而灵活的生态系统,包…

unity进阶学习笔记:有限状态机

一般来说,每一个游戏物体会有多种状态,每一个状态会对应一个特定动画。如一个游戏角色可能有静止状态,移动状态,攻击状态。每一个状态里都有对应的动画。如果我们只是简单使用一个个if语句判断玩家进行哪个控制来切换动画会让程序…

一文打尽目标检测NMS(2): 效率提升篇

文章来自于:曲終人不散丶知乎, 连接:https://zhuanlan.zhihu.com/p/157900024, 本文仅用于学术分享,如有侵权,前联系后台做删文处理。 在笔者上一篇文章《一文打尽目标检测NMS——精度提升篇》中&#xff0…

博客系统后端设计(三) - 实现获取博客列表页功能

文章目录 实现获取博客列表页功能1. 约定前后端交互接口2. 实现后端代码3. 实现前端代码4. 测试代码5. 涉及到的两个 Bug 实现获取博客列表页功能 当前的博客列表上的数据都是写死的,符合逻辑的做法是,通过数据库读取数据后显示到页面上。 此处就需要打…

【Linux】2.2 环境基础开发工具使用——vim

文章目录 什么是 vimvim 的基本操作vim 指令集Normal mode 指令集插入模式复制粘贴撤销剪切光标移动删除 last line mode 指令集列出行号跳到文件中的某一行查找字符保存文件 vim 的配置 什么是 vim Linux editor —— vim ——多模式的编辑器每种模式有差异,模式之…

人工智能洗稿-免费自媒体洗稿工具

文字洗稿 文字洗稿是指通过修改、重组、删除、替换等手段对文本进行优化、清理和调整,以达到改善文章质量、增加独特性和提高可读性的目的。文字洗稿是自媒体行业的一个重要需求,尤其是在批量撰写文章或需要大量修改文本的情况下。文字洗稿分为自动洗稿…

记一次springboot项目漏洞挖掘

前言 前段时间的比赛将该cms作为了题目考察,这个cms的洞也被大佬们吃的差不多了,自己也就借此机会来浅浅测试下这个cms残余漏洞,并记录下这一整个流程,谨以此记给小白师傅们分享下思路,有错误的地方还望大佬们请以指正…

云办公时代,企业如何保护数据资产安全?

云办公是一种基于云计算技术的办公方式,它将传统的办公软件和数据存储方式转移到了云端服务器上。用户可以通过互联网访问各种办公应用程序和数据,实现远程协作、移动化办公和信息共享等功能。 常见的云办公应用包括文档处理、电子邮件、日历、在线会议、…

ABAP 锁对象

需求场景 最近收到用户反馈,发现同一个托运单生成了两个不同的服务订单以及根据同一个送货单生成了两个托运单,经过排查,发现原因都是由同样的问题导致的,多窗口或者多用户同时对一条数据操作,就会出现这种现象。这个…

Learning C++ No.19【搜索二叉树实战】

引言: 北京时间:2023/5/2/9:18,五一放假第四天,昨天本来想要发奋图强将该篇博客写完,但是摆烂了一天,导致已经好几天没有码字,敲代码了,此时难受的感觉涌上心头,但是摆烂…

DNF类游戏动作实现(C语言)

没有接触制作小游戏前,感觉做游戏很不可思议,游戏里的人物是怎么移动的,怎么攻击,释放技能。。。。。。现在逐渐了解到之后,发现2d游戏人物的动作更多是图片的拼接,动作是否精细,由这个动作的帧…

鲲鹏展翅 信安高飞 | 鲲鹏开发者峰会2023-麒麟信安技术论坛成功举办!

2023年5月6日-7日,以“创未来 享非凡”为主题的鲲鹏开发者峰会2023在东莞松山湖举办。鲲鹏产业生态繁荣,稳步发展,正在成为行业核心场景及科研领域首选,加速推动数字化转型。 作为鲲鹏生态重要合作伙伴,麒麟信安受邀举…

企企通:B2B商城四种“玩法”,一站式解决端到端全链路需求!

商城系统在电商零售领域中,一直是助力商家搭建商城的核心工具,随着电商行业的发展,各种新模式随即出现,与此同时也出现了各种各样的商城系统,而B2B商城是这其中最为常见的商城系统。 近年来,由于电子商务的…

相遇于此,相交链表的解题心得

本篇博客会讲解力扣“160. 相交链表”的解题思路,这是题目链接。 老规矩,先来审题。这道题的题干有点长,简而言之,就是判断2个链表是否相交,如果相交就返回第一个相交结点,不相交就返回NULL。看看题目原文…

【C++中可调用对象和function】

C中有如下几种可调用对象:函数、函数指针、lambda表达式、bind对象、仿函数。其中,lambda表达式和bind对象是C11标准中提出的(bind机制并不是新标准中首次提出,而是对旧版本中bind1st和bind2st的合并)。个人认为五种可调用对象中,…

FM33A048B LPUART

概述 LPUART 是一个低功耗UART 接口,其工作仅需32768Hz 时钟,可以支持到最高9600 波特率的数据接收。LPUART 功耗极低,可以在Sleep/DeepSleep 模式下工作。 特点: ⚫ 异步数据收发 ⚫ 标准UART帧格式 ◼ 1bit起始位 ◼ 7或8bit数据…

【ChatGPT Prompt Engineering】面向Java开发者的ChatGPT提示词工程(1)

各位Java开发者们,欢迎来到万猫学社!在这里,我将和大家分享ChatGPT提示词工程的系列文章,希望能够和大家一起学习和探讨提示词的最佳实践。 虽然互联网上已经有很多有关提示词的材料,比如那些“每个人都必须知道的30个…

lua是什么?lua的基本语法知识点

目录 一、lua是什么? 二、lua的基本语法 1.运行lua脚本文件 2.注释 3.标示符 4.关键词 5.全局变量 三、数据类型 8个基本类型 1.nil(空) 2.boolean(布尔) 3.number(数字) 4.string(字符串) 5…

一图看懂 six 模块:最常见的 POSIX 系统调用, 资料整理+笔记(大全)

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 一图看懂 six 模块:最常见的 POSIX 系统调用, 资料整理笔记(大全) 摘要模块图类关系图模块全展开【six】统计常量intboolstrtuplelist 模块24 fun…

电脑屏幕开机后一直闪不停怎么办?电脑屏幕闪烁的解决方法

不少电脑用户经常会遇到的一种情况,就是开机后,发现电脑屏幕一直闪不停,十分伤眼。驱动人生就为大家带来电脑屏幕闪烁的解决方法。 首先,驱动人生建议可以排查一下出现电脑屏幕闪烁的原因,从而更加针对性的解决故障。…