GPT-4o将改变论文学术文风,科学家揭示5年内百万篇论文“is”“are”词频减少10%!

news2025/2/24 3:43:29

 

在最近的一项研究中,意大利国际高等研究院(SISSA)的博士生耿明萌量化了 ChatGPT 对学术论文写作的影响。

与以往主要分析 ChatGPT 生成的段落或文章不同,这次研究更关注整体情况。
 

论文地址:https://arxiv.org/pdf/2404.08627

耿明萌希望在大模型火热的背景下,从类似足球裁判员和数据分析师的角度研究 ChatGPT 的影响。



事实上,一年前他并不是 ChatGPT 的支持者,也未打算追随大模型研究的潮流。

2023年夏天,他提交了一篇论文初稿,导师给了一些简略的建议和批注,多涉及写作问题。这促使耿明萌尝试使用 ChatGPT 修改和润色论文,但很快发现其词频与人类写作不同。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


因此,他决定从词频角度分析 ChatGPT 对论文的影响。导师虽对该方法的简单性感到疑惑,但因缺乏相关经验暂时搁置了这个想法。


直到2023年秋天,导师忙于出差宣传新书,耿明萌决定自己尝试。



在解决数据问题后,他在万圣节假期前开始了研究,并在几周内得出了初步结果:ChatGPT 出现后,学术论文中一些词语的使用频率确实发生了变化。



耿明萌选取了 arXiv 上最新的 100 万篇论文摘要进行分析,发现2018年至2023年间论文数量暴增,其中90%来自数学、物理和计算机学科。



研究显示,如“significant”的词频几乎翻倍,而“is”和“are”的词频减少了约10%。



接着,他通过 ChatGPT API 修改2022年 arXiv 上的前两万篇论文摘要,分析 ChatGPT 的词语偏好。

结果表明,2023年 ChatGPT 修改前后的词频变化与2022年高度相关,但2022年与2021年相比变化较小。



耿明萌提出了一个含噪声项的模型,证明在某些情况下,词语的选取不在多而在于其频率和变化率。

同时,对于不同类别和混合比例的摘要,词语选取也应有所不同。理论分析在模拟中得到验证。


基于此,他开始根据真实的 arXiv 摘要数据估算 ChatGPT 的影响。ChatGPT API 的模拟输出因 prompt 不同而产生相对值。



以“Revise the following sentences”为基准,ChatGPT 的修改比例约为35%。若使用更精准的 prompt,贡献可能超过100%。

耿明萌更愿意用“影响”而非“比例”来描述结果,因为不同的 prompt 会产生不同的输出。

一些作者可能会在使用 ChatGPT 后刻意抹去痕迹,或受其影响但最终未使用 ChatGPT 润色摘要。此外,其他大模型可能有相似但不同的词频变化。

总的来说,耿明萌依然认为,使用 ChatGPT 或其它工具,来润色论文和翻译论文本身并没有错,但要知道修改前后语义上的差别。

对于母语非英语的研究人员来说,这些新工具的合理使用确实也能促进公平,但直接利用这些工具生成论文段落是不可取的。

而研究 ChatGPT 对于论文风格的影响,则能助力科研人员更好地使用类似工具。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1899226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8改进 添加轻量级注意力机制ELAttention

一、ELA论文 论文地址:2403.01123 (arxiv.org) 二、Efficient Local Attention结构 ELA (Efficient Local Attention) 被用于处理自然语言处理任务中的序列数据。它旨在提高传统注意力机制的效率,并减少其计算和存储成本。 在传统的注意力机制中,计算每个输入位置与所有其…

NFT Insider #137:Polygon链上NFT销售额破7800万美元,TheSandbox通过创作者挑战推动社区参与

引言:NFT Insider由NFT收藏组织WHALE Members (https://twitter.com/WHALEMembers)、BeepCrypto (https://twitter.com/beep_crypto)联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜…

平安养老险宿州中心支公司积极参与“78奋力前行”集体健步行活动

7月3日,平安养老保险股份有限公司(以下简称“平安养老险”)宿州中心支公司组织员工参加由宿州市保险行业协会2024年“78奋力前行”线下集体健步行活动。 平安养老险宿州中心支公司员工高举公司旗帜,与同业伙伴一起出发&#xff0…

探索Figma:下载流程及使用前准备

Figma 是基于浏览器的 UI 设计合作工具。无需下载,打开浏览器使用。虽然更建议直接在浏览器中使用 Figma,但是如果确实需要下载 Figma 客户端,可以直接在 Figma 官网的 Products > Downloads 页面下载。如果你不能访问 Figma 官网&#xf…

软件测试面试题总结(超全的)

前面看到了一些面试题,总感觉会用得到,但是看一遍又记不住,所以我把面试题都整合在一起,都是来自各路大佬的分享,为了方便以后自己需要的时候刷一刷,不用再到处找题,今天把自己整理的这些面试题…

申请便宜SSL证书 Let‘s Encrypt泛域名SSL证书

在当今数字化时代,网络安全已成为公众和企业关注的焦点。 申请Lets Encrypt便宜泛域名SSL证书步骤 1. 登录来此加密网站,输入域名,可以勾选泛域名和包含根域。 2. 选择加密方式,一般选择默认就可以了,也可以自定义CS…

【代码随想录——图论——岛屿问题】

1.岛屿数量 https://kamacoder.com/problempage.php?pid1171 1.1 深度优先搜索 package mainimport "fmt"var direction [][]int{{0, 1}, {0, -1}, {1, 0}, {-1, 0}}func main() {var M, N intfmt.Scanln(&N, &M)sea : make([][]int, N)visited : make…

VUE3使用antd引入百度地图 实现位置查询,获取地址经纬度

实现效果&#xff1a; 1.index.html 中先引入下 <script type"text/javascript" src"http://api.map.baidu.com/api?v2.0&ak自己申请的key"></script> 申请密钥key地址&#xff1a;登录百度账号 注册登录后创建应用&#xff0c;根据自己…

Windows 下载安装ffmpeg

下载地址 https://ffmpeg.org/download.html 测试 管理员方式打开控制台&#xff0c;输入ffmpeg测试 配置环境变量

树形结构C语言的实现

一.什么是树&#xff1a; 树形结构是一层次的嵌套结构。一个树形结构的外层和内层有相似的结构&#xff0c;所以这种结构多可以递归的表示。经典数据结构中的各种树状图是一种典型的树形结构&#xff1a;一棵树可以简单的表示为根&#xff0c;左子树&#xff0c;右子树。左子树…

微服务框架Kratos学习笔记

环境配置 export GOPROXYhttps://goproxy.cn export GO111MODULEon go get -u github.com/go-kratos/kratos/tool/kratoskratos 工具安装完成 使用kratos命令创建新项目 kratos new kratos-demo看到这个提示&#xff0c;项目创建完成 go mod tidy 拉取项目依赖 生成所有pro…

3D生成模型TripoSR完美搭建流程,包含所有问题解决方案!

最近需要使用3D生成模型,无意中看到了TripoSR,觉得效果还行,于是打算在Linux系统上部署一下,结果遇到很多坑,在这里写一下详细的部署流程和部署过程中遇到的问题。 下面是TripoSR的源码地址。 GitHub - VAST-AI-Research/TripoSRContribute to VAST-AI-Research/TripoSR…

制造业产品展示革新:3D模型轻量化引领在线营销体验的全面升级

在当今数字化时代&#xff0c;在线展示已成为制造业企业吸引客户、促进销售的关键环节。随着消费者对产品细节、交互体验要求的日益提升&#xff0c;传统的图片与视频展示方式逐渐显露出局限性&#xff0c;难以满足市场对全方位、沉浸式体验的需求。 模型展示&#xff0c;尤其…

第五篇——谋攻篇:韩信该死,拿破仑该亡

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 人生也是如此&#xff0c;伤敌一千&#xff0c;自损八百&#xff1b;而不…

C++基础(六):类和对象(中-1)

上一篇博客&#xff0c;我们进入了面向对象的学习&#xff0c;知道了如何设计类&#xff0c;如何创建使用对象&#xff0c;这一篇博客我们再一次深入学习&#xff0c;这一节是类和对象的重点&#xff0c;其中的逻辑比较强&#xff0c;我们要深刻理解&#xff0c;消化&#xff0…

目标检测1--Pytorch目标检测之yolov1

文章目录 前言核心思想网络结构算法原理算法流程关于标定框框的中心点 (x,y)的解释框的宽高(w,h)的解释置信度 c的解释&#xff1a; class类别概率详解 损失函数坐标损失置信度损失分类损失 优缺点 前言 论文地址&#xff1a;yolov1 YOLOv1&#xff08;You Only Look Once ve…

lnmp php7 安装ssh2扩展

安装ssh2扩展前必须安装libssh2包 下载地址: wget http://www.libssh2.org/download/libssh2-1.11.0.tar.gzwget http://pecl.php.net/get/ssh2-1.4.tgz &#xff08;这里要换成最新的版本&#xff09; 先安装 libssh2 再安装 SSH2: tar -zxvf libssh2-1.11.0.tar.gzcd libss…

淘宝扭蛋机小程序:打造新的扭蛋体验

扭蛋机行业近年来发展非常迅速&#xff0c;呈现出了明显的增长势头&#xff0c;深受年轻消费者的青睐。当下在消费市场中&#xff0c;年轻人占据了很大的份额&#xff0c;这也推动了扭蛋机市场的发展。如今&#xff0c;扭蛋机也正在向多个方向发展&#xff0c;不再局限于线下扭…

特征缩放介绍

目录 一、引入特征缩放&#xff1a;二、特征缩放介绍&#xff1a;三、如何实现特征缩放&#xff1a;1.分别除特征中最大值缩放到0—1&#xff1a;2.均值归一化缩放到-1—1&#xff1a;3.Z-Score归一化&#xff1a; 四、特征缩放合理范围&#xff1a; 一、引入特征缩放&#xff…

JUC并发编程基础(包含线程概念,状态等具体实现)

一.JUC并发编程基础 1. 并行与并发 1.1 并发: 是在同一实体上的多个事件是在一台处理器上"同时处理多个任务"同一时刻,其实是只有一个事件在发生. 即多个线程抢占同一个资源. 1.2 并行 是在不同实体上的多个事件是在多台处理器上同时处理多个任务同一时刻,大家…