生成式人工智能会导致人工智能崩溃吗

news2024/10/2 8:20:20

况可能很快就会发生变化。

从定义上讲,LLM 需要大量数据,而且所使用的数据集越来越大。根据缩放定律[2],要提高性能,必须同时增加参数数量和训练标记数量(后者被认为是最重要的因素)。

这些数据集包含人类产生的数据,但一些研究表明,这是一种有限的资源。人类产生的数据规模也不及我们,因为我们通过 LLM 培训增加了数据消耗。一项最近发表的研究认为,我们无法支持未来十年的扩展 [3]。

LLM模式崩溃

图片来源:[3]

随着 ChatGPT 和开源模型的出现,人工智能模型生成的文本量正在不断增长。例如,最近发表的一项研究 [1] 表明,随着低成本机器翻译 (MT) 的出现,网络上的内容通常可以使用 MT 算法快速翻译成多种语言。

机器生成的多向并行翻译不仅占据了可用机器翻译的资源较少的语言的网页翻译内容总量,还构成了这些语言网页内容总量的很大一部分。 —来源

然而,这会导致几个问题:

  • 这些翻译的内容存在一些偏见,并且主题分布不同(质量低下,并且表明它们只是为了产生广告收入)。
  • 翻译的语言越多,平均质量越低

LLM模式崩溃

图片来源:[1]

人工智能产生的文本数量在各个领域(互联网、科学文章、学校学生)都在增加,而且越来越难以识别 [4–6]。如果未来的模型是用从网络上抓取的文本进行训练的,那么它们将不可避免地用前辈产生的数据进行训练。

当使用 AI 生成的文本训练模型时会发生什么?如果大多数文本都是由 ChatGPT 生成的,会发生什么?

根据《自然》杂志最近发表的一篇文章,这会导致模型崩溃 [7]。模型崩溃是一个退化过程,其性能下降,产生错误并变得无用。从统计学的角度来看,这分为两个阶段:

  • 早期模型崩溃,模型开始丢失有关分布尾部的信息。
  • 后期模型崩溃,模型收敛到与原始分布完全不同的分布,因此不再产生任何有用的东西。

之前已经证明,模型无法在自训练循环中进行训练(在使用真实数据进行第一次迭代后,模型将使用自生成数据进行训练)。使用模型本身生成的数据会导致系统崩溃。

LLM模式崩溃

模型崩塌。图片改编自:[8]

如上所示,模型首先开始偏离训练数据,忘记原始数据和代表性不足的类别的元素(早期崩溃),然后无法产生有意义的数据(晚期崩溃)。

因此,研究表明,不断从生成的数据(或被生成的数据毒害的数据)中学习会导致模型崩溃。因此,一些作者警告说,互联网上生成的数据爆炸式增长可能会导致崩溃:

模型崩溃警告称,生成模型的民主化访问可能会污染训练未来生成模型迭代所需的数据。——来源,[9]

然而,到目前为止,我们既没有用文本模型对问题进行严格的描述,也没有发现导致这种崩溃的原因。在本研究中 [7],当存在 AI 生成的数据时,三种错误会导致崩溃:

  • 统计近似误差。初始数据是有限的,但是一旦训练数据趋于无穷大,数据就会分散,因此在进一步训练的每一步中,信息都会开始丢失。
  • 函数表达力误差。Transformer 具有表达力限制,因此在近似初始分布时会出现一些误差。
  • 函数近似误差。这种误差来自于学习过程,作为随机梯度下降的结构偏差。

上述每个因素都会导致模型崩溃,并且其影响会随着代代推移而不断加剧。

在本文中,作者 [7] 采用预先训练的模型并对数据集进行微调。这是 LLM 的常见用途(尤其是因为从头开始训练模型的成本太高)。作者测试的是如果这个微调数据集是由另一个微调模型生成的,会发生什么。作者从 HuggingFace 中获取一个模型,使用 wikitext2 数据集对其进行微调,在测试集上对其进行评估,然后使用它来生成数据,从而生成一个人工数据集。然后在人工数据集上对模型进行迭代训练。

LLM模式崩溃

图片来自[7],许可证:此处

通过对模型进行 5 个 epoch 的训练,我们发现模型的性能逐渐下降,生成的样本中逐渐出现了一条长尾,这些样本是其他模型生成样本引入的误差的产物。

LLM模式崩溃

图片来自[7],许可证:此处

作者指出,通过保留原始数据集中一定比例的数据,可以减少这种退化。在生成的数据上训练的模型可以学习一些原始任务,但错误率会更高(困惑度增加表明)。对于作者来说,随着困惑度较低的样本在几代中积累,模型开始崩溃(因此产生复合效应)。继续循环,这种影响将导致模型最终崩溃。

LLM模式崩溃

图片来自[7],许可证:此处

在检查下,模型开始生成原始模型以更高可能性生成的那些示例。这种效果与以下事实相一致:在训练过程中,如果不重复(从那些较稀有的知识开始),模型就会丢失部分知识。在模型看到一个示例后,该示例的知识会最大化,但随后该知识就会逐渐消失 [10]。因此,继续训练模型会首先开始丢失稀有知识,并且只产生具有最大可能性的示例。

LLM模式崩溃

图片来源:[10]

当使用数据集中 AI 生成的内容训练模型时,它会学会只生成众所周知的概念、短语和语调。同时,它会忘记数据集中不太常见的想法和概念。从长远来看,这会导致模型崩溃。

模型崩溃对于未来的法学硕士意味着什么?

长期对语言模型进行毒害攻击并非新鲜事。例如,我们看到点击、内容和网络喷子农场的出现,这是一种人类“语言模型”,其作用是误导社交网络和搜索算法。——来源

目前,此类内容的产生主要影响的是搜索引擎。大多数此类内容的产生都是为了在搜索引擎中获得较高的排名,并通过展示获利。谷歌试图通过在其算法中为这些网站分配较低的价值来限制这种现象。但这并不能解决问题,因为人们找到了新的方法来避免这些对策。

通常,训练 LLM 的数据集是自动获取的,并且生成的许多数据也可能位于信誉良好的网站上。这意味着将来这些数据可能会大量进入训练集。模型崩溃不仅会影响性能,还会影响算法的公平性。模型会很快忘记代表性不足的知识(甚至在看到对性能的明显影响之前),这意味着会对少数群体和边缘群体产生影响。

水印不是解决方案。首先,水印可以去除(它与生成的图像一起显示)。其次,检测生成文本的模型并不那么准确,很容易被欺骗。第三,公司不会分享有关其水印的信息(以免方便竞争对手训练模型)。最后,使用开源模型,许多生成的文本无论如何都不会有水印。

LLM模式崩溃

去除隐形水印。图片来源:[11]

那些正在训练模型或在大量生成文本出现之前保存数据的公司比竞争对手更具优势。一般来说,数据质量至关重要,拥有由真人生成的数据对于拥有这些数据的人来说是一笔巨大的财富。或者,需要协调一致的努力才能确定文本的来源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2065583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0x03 ShowDoc 文件上传漏洞(CNVD-2020-26585)复现

参考:ShowDoc文件上传漏洞(CNVD-2020-26585)_showdoc漏洞-CSDN博客 一、fofa 搜索使用该工具的网站 网络空间测绘,网络空间安全搜索引擎,网络空间搜索引擎,安全态势感知 - FOFA网络空间测绘系统 "S…

ZMQ请求应答模型

案例一 这个案例的出处是ZMQ的官网。请求段发送Hello&#xff0c;应答端回复World。 ZMQ Request(client) #include <string> #include <iostream> #include <zmq.hpp>using namespace std; using namespace zmq; // 使用 zmq 命名空间int main() {// ini…

知识竞赛答题设备及答题方式有哪些

根据我们多年的知识竞赛承办经验&#xff0c;我来谈谈在知识竞赛中常用的答题设备和答题方式。 一、常用答题设备 1.电脑 如果电脑资源充足&#xff0c;可以用笔记本电脑进行答题&#xff0c;笔记本电脑可以采取有线或无线方式进行连网&#xff0c;可以根据情况选择连网方案&…

PyTorch专栏介绍

专栏导读 深度学习作为人工智能领域的重要分支&#xff0c;其应用范围广泛&#xff0c;从图像识别到自然语言处理&#xff0c;再到强化学习等。PyTorch作为当前流行的深度学习框架之一&#xff0c;以其动态计算图和易用性受到了广大开发者的青睐。本专栏将带领读者从零开始&am…

kubeadm搭建生产环境高可用集群

前言 搞了好多天&#xff08;今天是20240819&#xff09;&#xff0c;中途遇到各种各样的问题&#xff0c;总算是可以用了 我这里用的vmware开了5台服务器做学习实践 K8S因为直接使用的 pkgs.k8s.io 仓库&#xff0c;所以直接拉取的最新release版&#xff08;v1.31&#xff09…

结构开发笔记(五):solidworks软件(四):绘制36x36方块摄像头基座

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/141422131 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

【hot100篇-python刷题记录】【盛最多水的容器】

R6-双指针篇 印象题 双指针法&#xff0c;num1在0处&#xff0c;num2在n-1处&#xff0c;相对移动收缩。 核心&#xff1a; 每次单步移动短板&#xff0c;因为长板收缩面积肯定变小。 面积&#xff1a;短板决定 class Solution:def maxArea(self, height: List[int]) ->…

【嵌入式软件】stm32内部flash读写

1.简介 控制系统采用STM32F429IGT6,STM32F429IGT6 的 FALSH 容量为 1024K 字节。 STM32F429 的闪存模块组织如下表所示。 STM32F429xx 的闪存模块由:主存储器、系统存储器、OTP 区域和选项字节等 4 部分组 成。 1)主存储器,该部分用来存放代码和数据常数(如 con…

PHP开发过程中常见问题快速解决

1.PHP解决文件名不合法,无法创建 文件名称不能含有 /\:*?"<>|符号&#xff0c;直接替换关键词就OK了 $search array(*,$,\\,/,"",",*,?,:,<,>,|, ,[,],【,】,(,),&#xff08;,&#xff09;); $name"1:.php"; $new_namestr_repla…

Windows 11新版将至:Zen5、Zen4、Zen3游戏性能一起飞

锐龙9000系列发布之初&#xff0c;有些媒体和玩家发现&#xff0c;其游戏性能没有官方宣传的提升那么高&#xff0c;于是产生了一些质疑&#xff0c;AMD今天特意就此撰文&#xff0c;给出了详细的解释&#xff0c;并透露未来会随着Windows 11的升级而释放更多性能潜力。 事实上…

FreeRTOS学习:内存管理

FreeRTOS内存管理简介 在使用 FreeRTOS 创建任务、队列、信号量等对象的时候&#xff0c; FreeRTOS 一般都提供了两种方法&#xff0c; 动态方法创建&#xff1a;自动地从 FreeRTOS 管理的内存堆中申请所创建对象所需的内存&#xff0c;在对象被删除后&#xff0c;又可以将这…

基于Django的停车场车辆出入管理系统,可识别车牌图片

研究背景 随着城市化进程的加快&#xff0c;车辆数量不断增加&#xff0c;停车场的管理成为一个日益重要的课题。传统的停车场管理系统依赖人工登记和监控&#xff0c;不仅效率低下&#xff0c;而且容易出现疏漏和错误&#xff0c;难以满足现代社会对停车场管理智能化、高效化…

Scrum敏捷开发高效实践课程:面向企业团队的系统化训练,旨在提升研发效率,优化项目管理,推动企业敏捷化发展。

课程简介&#xff1a; Scrum 是一种广泛应用的敏捷开发方法&#xff0c;用于项目管理和产品研发。该课程为期两天&#xff0c;专为研发管理者、项目经理、产品经理和研发团队设计。通过案例讲解和沙盘演练&#xff0c;学员将深入理解Scrum的核心理念&#xff0c;如产品价值驱动…

基于x86 平台opencv的图像采集和seetaface6的人脸跟踪功能

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境三、开发流程3.1 编写测试3.2 配置资源文件3.2 验证功能一、概述 本文档是针对x86 平台opencv的图像采集和seetaface6的人脸跟踪功能,opencv通过摄像头采集视频图像,将采集的视频图像送给seetaface6的人脸跟踪模块从而实现…

谢广坤:愿意说话你自己起个头行不?刘能:我起头不费劲吗!

谢广坤&#xff1a;愿意说话你自己起个头行不&#xff1f;刘能&#xff1a;我起头不费劲吗&#xff01; --小品《欢乐农家》&#xff08;赵家班、上&#xff09;的台词与解说 刘能&#xff1a;大脚 谢大脚&#xff1a;咋的了这是 大过年的 刘&#xff1a;脚崴了 大脚&…

Godot自定义快捷键(配置视图快捷键)

如图 这个没啥技术&#xff0c;但是配置快捷键的时候有讲究如图 选择万国码并且将前后左右下上&#xff08;顶底&#xff09;分别配置为123456。汝等自管记好&#xff0c;今后自有妙用&#xff08;哈哈&#xff09;效果如图

饮水机开水前加入童锁判断

饮水机开水前加入童锁判断 引言 饮水机加入童锁, 是配合红外线, 进行防误触检测. 我们模仿红外线检测杯子, 加入童锁变量, 这个变量是人工控制的, 开水前,检测一下童锁,如果童锁锁住 , 则不能开水, 我们只需要修改一下底层即可. 本博客修改完的代码工程: https://wwyz.lanzou…

《计算机操作系统》(第4版)第6章 输入输出系统 复习笔记

第6章 输入输出系统 一、I/O 系统的功能、模型和接口 1.I/O 系统的基本功能 (1)隐藏物理设备的细节。 (2)与设备的无关性。 (3)提高处理机和I/O 设备的利用率。 ( 4 ) 对I/O 设备进行控制。 (5)确保对设备的正确共享。 (6)错误处理。 2.I/O 系统的层次结构和模型 (…

21.1 Netty介绍及服务搭建

21.1 基于Netty实现聊天 一. 章节概述二. `Netty`介绍三. 阻塞与非阻塞1. 阻塞与非阻塞简介2. BIO同步阻塞3. NIO同步非阻塞4. AIO异步非阻塞IO5. 异步阻塞IO(用的极少)6. 总结四. Netty三种线程模型1. 单线程模型2. 多线程模型3. 主从线程模型五. 构建Netty服务器************…

【传输层协议】UDP协议 {端口号的范围划分;UDP数据报格式;UDP协议的特点;UDP的缓冲区;基于UDP的应用层协议}

一、再谈端口号 1.1 端口号标识网络进程 如何通过端口号找到主机上的网络进程&#xff1f; 在socket编程中bind绑定是最为重要的一步&#xff1a;他将套接字与指定的本地 IP 地址和端口号关联起来&#xff0c;这意味着指定的套接字可以接收来自指定 IP 地址和端口号的数据包…