AIGC“弄脏”互联网 大模型“课本”遭污染

news2024/11/17 7:29:42

“AI制造”充斥互联网,连“真人小姐姐”也可以批量生成。随着生成式人工智能的爆发,一个可怕的现象出现:AI正在污染整个互联网。

知乎成为生成无脑答案的重灾区,这些内容描述简短、概括性十足,细看逻辑混乱、错误百出。打开今日头条,用ChatGPT生成的虚假新闻,内容耸人听闻,足够博人眼球。

AI加持下,虚假、无意义、同质化的内容呈指数级增长,获得大量曝光。莱斯大学和斯坦福大学的科学家研究发现,这些低质、同质化、未经证实的“AI语言”如果不加以甄别,进一步被抓取作为训练AI的语料,AI大模型将会走向崩溃。

AIGC“垃圾”泛滥 内容平台成重灾区

生成式AI越来越低成本化,伴生而来的是AI生成信息的“垃圾网站”。

外媒NewsGuard 发布相关数据报告称,目前已经追踪到了大约277个且还在不断增加的“垃圾网站”,这些网站生产了大量标题诱饵以优化广告收入。

类似的情况也发生在国内,表现形式是AI生成的低质内容。

“中文互联网高质量的问答社区和创作者聚集的原创内容平台”知乎,如今成了AI无脑答案的重灾区,不少答主的内容呈现明显的“GPT风”,机器翻译的文字感、混乱的逻辑扑面而来,有时还会出现事实错误,特别是在金融、医学等专业领域,没有经验的人群很容易被误导。

 知乎上的“片儿汤话”答案

有知乎用户使用AI每隔一两分钟就可以输出一条几百字的回答。尽管已经被禁言,但其产生的错误信息依然遗留在互联网中。如果你足够细心,你会发现,自带AI问答功能的搜索引擎Bing在中文世界经常会引用知乎的内容。一些生成后就从未过人工核查的错误答案 被Bing AI抓取,造成低质的中文信息蔓延。

AI对互联网内容的侵蚀不仅限于文字。在小红书、淘宝、抖音上,越来越多的“AI真人美女”的图片和视频被批量生产,还有大批“AI摄影”类账号的出现。

 “AI美女”造就新一代网红脸

AI魔法棒一挥,制作成本低、效率高的“AI美女”一时间成为电商眼中的香饽饽,AI模特、AI主播频频出现。“她们”足够吸睛,但也千篇一律,“网红脸”的队伍里又增加一类AI面孔。

如果只是用AIGC制造美图供人评鉴、学习倒也还好,但AI生图工具产生的内容开始侵犯直接与人们生活相关的领域。

淘宝上,有商家直接用AI生成图来取代商品实物图,一张由Midjourney生成的卡通少女图,被商家打上“绿色衬衫”的标签,售价218元。与之风格相似甚至完全相同的AI生成图,在网上随手就可以找到。利用Midjourney的垫图功能,任何人都可以自己生成无数仿照图,与卖家秀相差甚远的买家秀将再添槽点。

 淘宝商家用AIGC网图(右)描述商品

在中文互联网,AI大有无孔不入之势,专门教人如何用“AI写文赚钱”的课程层出不穷,卖课人号称“一套教学视频跟万能模板,直接套用”。AI话题营造出的失业焦虑中,该类课程受到追捧,曾有人通过卖课月入百万。

如今,学会了使用AI工具的人,将AI生成的内容上传到知乎、今日头条或者小红书上,吸引了流量,但也制造了不少低质量、同质化甚至信息虚假的内容垃圾。

那么,这种AIGC内容“垃圾”会产生危害吗?

靠AI识别真假 技术还不行

泛滥的AIGC内容加速污染互联网环境,除了影响人类获取有效信息的效率外,产出它们的工具“大语言模型”也会走向崩溃的边缘。

莱斯大学和斯坦福大学的科学家研究证明,将人工智能生成的内容输入人工智能模型,会导致输出质量下跌。

研究人员将这一现象解释为“模型自噬障碍”(MAD),即如果AI 只学习其他 AI 生成的内容,在经过几代训练后,AI 将输出无意义的垃圾信息,最终走向“模型崩溃”这一结果。 研究人员表示,对于大语言模型而言,“数据清洁”十分重要。

“世界正在奔向一个未来:生成式AI的爆发,导致了互联网上的合成数据很快就会超过真实数据。”按照研究者的说法,区分合成数据与真实数据,无论对人类本身还是大模型发展都变得势在必行。

最近,中国首个AIGC监管文件《生成式人工智能服务管理暂行办法》落地,该《办法》明确指出AIGC服务提供者要“增强训练数据的真实性、准确性、客观性和多样性”。

 生成式人工智能服务者有义务保证数据质量

在《办法》的指导下,国内的内容平台也推出针对AI生成内容的管理措施,知乎、抖音、小红书等平台均已发布有关AIGC内容的规定。

《抖音关于人工智能生成内容的平台规范暨行业倡议》称,针对人工智能生成的视频、图片和衍生的虚拟人直播,发布者应对人工智能生成内容进行显著标识,帮助其他用户区分虚拟与现实,特别是易混淆场景。该《倡议》提到,平台提供统一的人工智能生成内容标识能力,帮助创作者打标,方便用户区分。同时,平台提供用户反馈渠道,方便用户反馈违规的生成内容。

知乎也发布了《关于应用AIGC 能力进行辅助创作的社区公告》,公告显示,如果创作者发布AIGC生成的内容时,没有主动使用“包含AI辅助创作”的标签进行声明,平台会添加相关标识并限流,同时鼓励知友对利用AIGC技术,扰乱社区秩序的内容和账号进行举报,举报类型里新增了“AI生成内容”的选项。

规则出现了,但在实操中出现了Bug。

 知乎用户反馈原创内容被误判为AI生成

知乎创作者们对平台“打标签”(审核)的能力表示质疑。有用户反馈,自己原创的内容被当成了AI创作打了AI标记,甚至有人因此被禁言。

这种“误判”现象背后又隐藏了一个细思极恐的问题。假如平台采用机器来识别AI,机器对同类的“宽容度”或许会很高,让计算机还无法精准识别出AI犯的错误。

最近,OpenAI推出的AI文本识别工具 AI-Text-Classifier就因准确率太低而被官方下架。DetectGPT、GPTZero 等 AI 生成检测工具的失误率也都高得惊人。

随着AIGC技术不断迭代升级,AI生成内容将越来越具备迷惑性,想通过AI识别工具遏制AI内容垃圾的滋生,从技术成果上看成功率还不高。

看来,在充满人工智能的未来,“人工”有多强大,“智能”才有多强大。在AIGC的巨大冲击下,如何不被内容垃圾裹挟、实现人工与智能的良性共进将成为AI下一阶段发展的重要挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/814505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实战:工作中对并发问题的处理

大家好,我是 方圆。最近在接口联调时发生了数据并发修改问题,我想把这个问题讲解一下,并把当时提出的解决方案进行实现,希望它能在大家以后在遇到同样的问题时提供一些借鉴和思考的方向。原文还是收录在我的 Github: enthusiasm 中…

ORB_SLAM3 TrackReferenceKeyFrame

TrackReferenceKeyFrame 使用条件: 运动模型为空并且imu未初始化,说明是刚初始化完第一帧跟踪,或者已经跟丢了当前帧和重定位帧间隔很近,用重定位帧来恢复位姿恒速云端模型跟踪失败 1.计算当前帧的描述子的Bow向量 mCurrentFr…

如何使用ArcGIS Pro制作间断标注等高线

如果直接对ArcGIS Pro生成的等高线进行标注,默认情况下是标注在等高线上,这样效果不是很明显也不是很美观,我们可以对默认的等高线标注进行处理,使其标注范围内的等高线不显示,这里为大家介绍一下这种间断标注等高线的…

SpringBoot的static静态资源访问、参数配置、代码自定义访问规则

目录 1. 静态资源1.1 默认静态资源1.2 Controller高优先级1.3 修改静态资源的URL根路径1.4 修改静态资源的目录1.5 访问webjars依赖包的静态资源1.6 静态资源的关闭1.7 静态资源在浏览器的缓存1.8 静态资源实战1.9 通过代码自定义静态资源访问规则 1. 静态资源 查看源码如下&a…

RLHF 技术:如何能更有效?又有何局限性?

编者按:自ChatGPT推出后,基于人类反馈的强化学习(RLHF)技术便成为大模型构建和应用人员关注的热点。但该方法一些情况下效果却差强人意,有些基础模型经RLHF调优后反而表现更差。RLHF技术的适用性和具体操作细节似乎成谜。 这篇文章探讨了基于…

分享 13 个有用的 JavaScript 片段,提升你的工作效率

JavaScript 是您可以学习的最流行的语言之一。当我开始学习 JavaScript 时,我总是在 StackOverflow、medium 和其他博客上寻找代码片段。在这篇文章中,我将分享我发现它们有用的 15 个 JavaScript 代码片段。 1. 不循环地重复字符串 此 JS 片段将展示如何…

<C++> STL_string

目录 1.string类 2.string类的接口 2.1 成员函数 2.1.1 string构造函数 2.1.2 string赋值运算 2.1.3 string析构函数 2.2 string对象访问以及迭代器 2.2.1 string的遍历方式 2.2.2 迭代器的使用 2.2.3 const_迭代器的使用 2.2.4 at 2.2.5 back和front 2.3 string容…

手机防窥膜对眼睛危害非常大,快速避坑,避免智商税!

背景 如果你的手机贴了防窥膜,在室外阳光下你想看清楚机屏幕上的文字,是不是有个动作就是调亮屏幕!因为防窥膜透光率比较低,那你就得提高手机亮度。 国产的防窥膜透光率只有30%左右韩国进口防窥膜的透光率在50%左右 透光率越低意味…

Semantic Kernel 入门系列:Kernel 内核和Skills 技能

理解了LLM的作用之后,如何才能构造出与LLM相结合的应用程序呢? 首先我们需要把LLM AI的能力和原生代码的能力区分开来,在Semantic Kernel(以下简称SK),LLM的能力称为 semantic function ,代码的…

innovus设置size only的方法

dbSet [dbGetInstByName $inst].dontTouch sizeOk 我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口

【BMC】OpenBMC使用基础(WSL2版本)

代码准备 OpenBMC是一个开源的项目,用于开发BMC固件。官网是https://www.openbmc.org/,不过里面似乎没有什么内容,所以还需要依赖其它的网站,https://github.com/openbmc,在这里可以下载到需要的代码和文档。其主体部…

工作中遇到的关于配置问题

工作中遇到的问题 想记录一下 一个程序员小白每天遇到的问题 1.创建了一个Maven的web工程,但是启动一直是404,原服务器未能找到目标资源 解决办法: 选择deployment,点击加号选择war格式就OK啦 目录里面无法创建类&#xff0…

如何在面试IT公司时展现出色的表现

在面试IT技术岗位的过程中,展现出色的表现是至关重要的。下面我将分享一些我个人的经验和观察,希望对大家有所帮助。 首先,提前准备是非常重要的。在面试前,你应该充分了解目标公司的业务和技术需求。这样你就能更好地回答面试官…

一些高频的C++ cache line面试

C那些事之False Sharing与Cache line 最近看到一段代码&#xff0c;手动做的对齐&#xff0c;于是研究一下不对齐又会带来什么影响&#xff1f; template <typename T> class AtomicWithPadding {private:static constexpr int kCacheLineSize 64;uint8_t padding_befor…

HTML+CSS+JavaScript:轮播图的自动播放、手动播放、鼠标悬停暂停播放

一、需求 昨天我们做了轮播图的自动播放&#xff0c;即每隔一秒自动切换一次 今天我们增加两个需求&#xff1a; 1、鼠标点击向右按钮&#xff0c;轮播图往后切换一次&#xff1b;鼠标点击向左按钮&#xff0c;轮播图往前切换一次 2、鼠标悬停在轮播图区域中时&#xff0c;…

闲鱼链接生成 仿闲鱼链接搭建

教程&#xff1a;修改数据库账号密码直接使用。 源码带有教程! 下载程序&#xff1a;https://pan.baidu.com/s/16lN3gvRIZm7pqhvVMYYecQ?pwd6zw3

layui框架学习(36:数据表格_复杂表头)

table数据表格模块中的col属性支持配置复杂表头&#xff0c;其为二维数组&#xff0c;用于描述复杂表头中每个表头单元格的位置和尺寸信息&#xff08;colspan和rowspan描述表头单元格所占行数和列数&#xff09;。   从参考文献2-3给出的示例来看&#xff0c;描述复杂表头的…

[数学公式] 1秒移动x米是多少码 x码一秒钟移动几米

1秒移动x米是多少码&#xff1a;3.6x码 x码一秒钟移动几米&#xff1a;

6、用restful风格写controller方法接口,单元测试依赖

编写单元测试&#xff0c;用restful风格写controller方法 单元测试依赖 实际项目开发中&#xff0c;单元测试与业务代码通常都会要求同步进行 TDD测试驱动开发&#xff1a;先编写单元测试&#xff0c;然后努力去开发业务代码去满足所有的单元测试用例。 添加SpringBoot的测试…

LeetCode_双指针_中等_143.重排链表

目录 1.题目2.思路3.代码实现&#xff08;Java&#xff09; 1.题目 给定一个单链表 L 的头节点 head &#xff0c;单链表 L 表示为&#xff1a; L0 → L1 → … → L~n - 1~ → Ln 请将其重新排列后变为&#xff1a; L0 → Ln → L1 → L~n - 1~ → L2 → L~n - 2~ → … 不…