ChatGPT成为“帮凶”:生成虚假数据集支持未知科学假设

news2024/11/19 3:34:13

ChatGPT 自发布以来,就成为了大家的好帮手,学生党和打工人更是每天都离不开。

然而这次好帮手 ChatGPT 却帮过头了,莫名奇妙的成为了“帮凶”,一位研究人员利用 ChatGPT 创建了虚假的数据集,用来支持未知的科学假设。

图片

让我们看看这究竟是怎么一回事吧。

ChatGPT生成虚假数据集支持科学假设

在11月9日发表在《美国医学会眼科杂志》杂志上的一篇论文中,论文作者使用了GPT-4与高级数据分析(ADA)配对,并结合Python进行统计分析和创建数据可视化。研究表明,AI生成的数据比较了两种外科手术方法的结果,并错误地表明其中一种治疗方法比另一种更好。

图片

该研究合著者表示,你可以在几分钟内创建一个不受真实原始数据支持的数据集,而且与现有证据相反。”

AI制造令人信服的数据的能力增加了研究人员和期刊编辑对于研究诚信的担忧。加利福尼亚州旧金山的微生物学家和独立研究诚信顾问Elisabeth Bik表示:

“生成式AI之前可以用来生成无法通过抄袭软件检测出来的文本,但能够创建虚假且逼真的数据集是一个更高级别的担忧。

这将使得任何研究人员或研究团队都能够轻松地创建不存在的患者的虚假测量数据、问卷调查的虚假答案,或者生成大量的动物实验数据集。”

作者将结果描述为“看似真实的数据库”。但在专家的检查下,数据未通过真实性检查,并包含明显的伪造痕迹。

造假细节

作者要求GPT-4 ADA创建一个关于患有角膜圆锥症的人群的数据集,该病会导致角膜变薄,可能导致焦点不清和视力不佳。对于15-20%的患者,治疗会使用两种手术之一进行角膜移植。

第一种方法是穿透性角膜移植术(PK),它涉及通过手术将所有受损的角膜层移除,并用供体的健康组织替换它们。第二种手术是深前层角膜移植术(DALK),只替换角膜的前层,而最内层保持完整。

作者表示大语言模型捏造了数据,可以支持生成DALK比PK产生更好的结果的结论。为了做到这一点,他们要求模型展示在评估角膜形状和检测不规则性的成像测试中的统计差异,以及在手术前后试验参与者的视力改善程度的差异。

AI生成的数据包括160名男性和140名女性参与者,并显示接受DALK手术的人在视力和成像测试方面的表现均优于接受PK手术的人,这一发现与真实临床试验的结果相矛盾。在一份涉及77名参与者的2010年的试报告中,DALK的结果与PK在手术后长达2年的结果相似。

来自英国曼彻斯特大学的生物统计学家杰克·威尔金森表示:“看起来创建一个在表面上看起来合理的数据集相当容易。这对于一个未经训练的人来说,这肯定看起来像是一个真实的数据集,”

图片

威尔金森对于检测伪造数据的方法有兴趣,他检查了几个由早期版本的大语言模型生成的数据集,他说这些数据集在经过仔细审查时缺乏令人信服的要素,因为它们难以捕捉变量之间的真实关系。

更严格的审查

应《Nature》团队的要求,威尔金森和他的同事使用一个旨在检查真实性的筛选协议评估了这个伪造的数据集。

检查结果揭示了许多“参与者”在指定性别和根据他们的名字通常预期的性别之间存在不匹配。此外,在术前和术后的视力能力测量和眼部成像测试之间没有发现相关性。威尔金森还检查了数据集中一些列中数字的分布,以查看是否存在非随机模式。眼部成像数值通过了这个测试,但一些参与者的年龄数值聚集在一种在真实数据集中极不寻常的方式:有大量参与者的年龄数值以7或8结尾。

研究作者承认他们的数据集存在缺陷,这些缺陷在仔细审查时可能会被发现。但是如果你很快速地浏览数据集,很难辨认出数据来源的非人类特征”。

图片

《EMBO Reports》的主编同意这是一个令人担忧的原因:

“实际上,同行评审往往没有进行完整的数据重新分析,不太可能通过AI发现精心制作的完整违规行为。期刊需要更新质量检查来识别由AI生成的合成数据。”

最后,就像AI可能是产生问题的一方一样,也可能有基于AI的解决方案。我们需要用AI打败Al。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1276089.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows环境 dockertopdesk 部署gitlab

1.在dockertopdesk里搜索 gitlab镜像 (pull)拉取镜像 2.运行镜像到容器 mkdir gitlab gitlab/etc gitlab/log gitlab/opt docker run -id -p 3000:80 -p 9922:22 -v /root/gitlab/etc:/etc/gitlab -v /root/gitlab/log:/var/log/gitlab -v /root/gitlab/opt:/var/opt/gitla…

Linux系统之centos7编译安装Python 3.8

前言 CentOS (Community Enterprise Operating System) 是一种基于 Red Hat Enterprise Linux (RHEL) 进行源代码再编译并免费提供给用户的 Linux 操作系统。 CentOS 7 采用了最新的技术和软件包,并提供了强大的功能和稳定性。它适用于各种服务器和工作站应用场景&a…

8.整数转换为浮点数【2023.11.30】

1.问题描述 整数转换为浮点数。 2.解决思路 使用input函数读取输入的整数 input_int int(input()) #将整数转换为浮点数类型 output_float float(input_int) 3.代码实现 numint(input("请输入一个整数")) num1float(num) print(num1)4.运行结果

掌握HarmonyOS框架的ArkTs如何管理和共享状态数据

ARKTS(Ark TypeScript)是HarmonyOS应用框架的一部分,提供了一种灵活而强大的状态管理机制。在ARKTS中,AppStorage和LocalStorage是两个关键的概念,它们分别用于应用级和页面级的状态共享。通过深入了解这两个特性&…

【Python】OpenCV库中常用函数详解和示例

在Python中,OpenCV(Open Source Computer Vision Library)是一个广泛使用的图像和视频处理库。它包含许多用于图像处理和计算机视觉任务的函数。本文对一些常用的OpenCV函数及其详细解释和示例,以帮助大家理解和使用。 目录 cv2.…

跨模态图像翻译:使用具有感知监督的多生成网络合成MR脑图像的CT图像

Cross-modality image translation: CT image synthesis of MR brain images using multi generative network with perceptual supervision 跨模态图像翻译:使用具有感知监督的多生成网络合成MR脑图像的CT图像背景贡献实验方法损失函数Thinking 跨模态图像翻译&…

使用 NRF24L01 无线收发模块进行远程控制

NRF24L01 是一款基于 2.4GHz 射频通信的低功耗无线收发模块,具有高性能和稳定性,适用于远程控制和数据传输应用。本文将介绍如何使用 NRF24L01 模块进行远程控制,包括硬件的连接和配置,以及相应的代码示例。 一、引言 NRF24L01 是…

es6之class类(未完成)

es6之class类 一、什么是类二、类的基本用法1.定义类2.constructor() 方法3.静态方法(属性)4.私有方法(属性) 三、继承 一、什么是类 类是用于创建对象的模板,类只是让对象原型的写法更加清晰、更像面向对象编程的语法。 class Pe…

matlab 多目标粒子群优化算法MOPSO

1、内容简介 略 21-可以交流、咨询、答疑 多目标、粒子群 2、内容说明 多目标粒子群优化算法MOPSO 3、仿真分析 略 %% Problem Definition TestProblem3; % Set to 1, 2, or 3 switch TestProblem case 1 CostFunction(x) MyCost1(x); nVar5; …

REST-Assured--JAVA REST服务自动化测试的Swiss Army Knife

什么是REST-Assured REST Assured是一套基于 Java 语言实现的开源 REST API 测试框架 Testing and validation of REST services in Java is harder than in dynamic languages such as Ruby and Groovy. REST Assured brings the simplicity of using these languages into t…

TCP简介及特性

1. TCP协议简介 TCP是Transmission Control Protocol的简称,中文名是传输控制协议。它是一种面向连接的、可靠的、基于IP的传输层协议。两个TCP应用之间在传输数据的之前必须建立一个TCP连接,TCP采用数据流的形式在网络中传输数据。TCP为了保证报文传输的…

网站更换IP的四大注意事项

1.对网站当中的数据进行备份 网站更换IP时可以将页面的数据库文件和站点文件通过下载工具在本地完成备份。 2.更换解析域名 从站点域名管理后台当中更换域名地址,改为新的IP地址。 3.确保IP安全 在用户更换IP前一定要确定IP是否安全,一旦IP存在不良…

如何选择适合长期投资的股票板块?

大家在学习炒股的过程中肯定没少听“板块”这个词,新手可能一脸懵逼,板块到底是啥意思?为什么会有这么多板块? 一、什么是股票板块?常见的板块分类有哪些? 板块理解起来其实很简单,它就是一种分…

java开发实战 基于Resuful风格开发接口, IocDi和nginx,以及三层架构思想,分层解耦,并使用Apifox对接口数据进行测试。

开发规范: 前后端分离: 根据需求文档开发 Resultful风格: REST(REpresentational State Transfer),表述性状态转换,它是一种软件架构风格。 POST(insert) 负责新增的操作 http://localhost:8080…

TZOJ 1386 十转换转R进制

答案&#xff1a; #include<stdio.h> char fun(int n) {if (n > 0 && n < 10) //如果是小于10进制的return n 48; //ASCII值48else if (n > 10 && n < 16) //如果是大于10进制小于16进制的return n 55; //ASCII值55elseretur…

JIRA 基本使用

该页面可以&#xff1a; 查看个人基本信息以及归属的邮件组修改常用参数配置查看指给自己的 Open 问题查看自己最近的活动记录等 权限管理 Project 权限管理 JIRA 项目有三种通用权限方案&#xff1a; 公开权限方案&#xff08;默认禁止使用此方案&#xff09;&#xff1a…

Google Chrome 下载 (离线版)

1 访问网址 Google Chrome 网络浏览器 2 点击 下载Chrome 3 直接运行 ChromeStandaloneSetup64.exe 其他&#xff1a; ####################### 谷歌浏览器 (Google Chrome) 最新版离线安装包下载 https://www.iplaysoft.com/tools/chrome/#google_vignette Google Chrome …

【二叉树】常见题目解析(2)

题目1&#xff1a;104. 二叉树的最大深度 - 力扣&#xff08;LeetCode&#xff09; 题目1描述&#xff1a; 题目1分析及解决&#xff1a; &#xff08;1&#xff09;base case&#xff1a;当前节点为null时&#xff0c;以当前节点为根节点的树最大深度是0。 &#xff08;2&…

深入理解前端路由:构建现代 Web 应用的基石(上)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

skywalking 9.0.0开启自监控和配置集群

一、skywalking介绍 SkyWalking是有国内开源爱好者吴晟开源并提交到Apache孵化器的开源项目&#xff0c;2017年12月SkyWalking成为Apache国内首个个人孵化项目&#xff0c;2019年4月17日SkyWalking从Apache基金会的孵化器毕业成为顶级项目&#xff0c;目前SkyWalking支持Java、…