新规拉开中国生成式AI“百团大战”序幕?

news2024/10/7 10:13:24

AI将走向何方?

ChatGPT在全球范围掀起的AI热潮正在引发越来越多的讨论,AI该如何管理?AI该如何发展?一系列问题都成为人们热议的焦点。此前,马斯克等海外名人就在网络上呼吁OpenAI暂停ChatGPT的模型训练和迭代,等待企业与政府讨论出一套行之有效的管理方法后再继续。 

显然,此举遭到了OpenAI的反对,不过OpenAI也认可马斯克的部分说法:“AI确实需要管控”,在一次访谈中,OpenAI的创始人之一更是直言自己有时候会对ChatGPT感到恐惧,AI确实有可能对人类造成威胁。 

当我们惊叹于ChatGPT的强大时,确实不该忘记AI技术发展所带来的“可能威胁”。4月11日,国家互联网信息办公室发布了关于《生成式人工智能服务管理办法(征求意见稿)》的公开征求意见通知,国内有关生成式人工智能的第一个管理条例来了。 

以下为《生成式人工智能服务管理办法(征求意见稿)》的原文。

第一条 为促进生成式人工智能健康发展和规范应用,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规,制定本办法。 

第二条 研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

第三条 国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。 

第四条 提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求:(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。(三)尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。(四)利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。(五)尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。 

第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。 

第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。 

第七条 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:(一)符合《中华人民共和国网络安全法》等法律法规的要求;(二)不含有侵犯知识产权的内容;(三)数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形;(四)能够保证数据的真实性、准确性、客观性、多样性;(五)国家网信部门关于生成式人工智能服务的其他监管要求。 

第八条 生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。 

第九条 提供生成式人工智能服务应当按照《中华人民共和国网络安全法》规定,要求用户提供真实身份信息。 

第十条 提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。 

第十一条 提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定。 

第十二条 提供者不得根据用户的种族、国别、性别等进行带有歧视性的内容生成。 

第十三条 提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。 

第十四条 提供者应当在生命周期内,提供安全、稳健、持续的服务,保障用户正常使用。 

第十五条 对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。 

第十六条 提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。 

第十七条 提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。 

第十八条 提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。用户发现生成内容不符合本办法要求时,有权向网信部门或者有关主管部门举报。 

第十九条 提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。 

第二十条 提供者违反本办法规定的,由网信部门和有关主管部门按照《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规的规定予以处罚。法律、行政法规没有规定的,由网信部门和有关主管部门依据职责给予警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停或者终止其利用生成式人工智能提供服务,并处一万元以上十万元以下罚款。构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。 

第二十一条 本办法自2023年 月 日起实施。

从内容来看,目前还只是一个初步的管理条例,对应的处罚及法律依据来自此前发布的《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规。 

看到管理条例的发布,不少网友都持肯定态度,AI的发展速度之迅猛超出了许多人的预料,并且已经开始对社会造成明显的影响,确实需要对AI的发展与使用做出管理,避免对社会造成严重的危害。 

不过也有网友认为,这份“管理办法”的一些条例,或许会让中国企业在AI赛道的竞争力减弱,因为其中的一些要求对于目前的AI模型来说,是很难确保100%符合规定的,势必让企业在开发过程中畏手畏脚。 

现如今的AI,是否已经到了必须管控的地步呢?

 “撒谎”的AI 

在前段时间,我先后体验和测试百度的文心一言与阿里巴巴的通义千问,作为国内首批开展内测的对话式AI大模型,两者在体验上虽然不如ChatGPT 4.0,不过也已经具备一定的能力,从测试结果来看也是各有千秋。 

但是,不管是文心一言还是通义千问,都无法避免在一些回答中“撒谎”,或者换个说法,现阶段的AI模型基本上避免不了根据已有信息生成虚构内容的问题,即使是ChatGPT 4.0也是如此。

甚至从测试来看,ChatGPT的虚构信息能力要远超文心一言等较低等级的AI对话模型,有兴趣的朋友可以在知乎、B站等平台搜索相关内容,可以轻松查询到不少ChatGPT一本正经地胡说八道的记录。 

在知乎上,用户@何学源 就展示了ChatGPT是如何从0开始编造自己的人生经历的,只需要给ChatGPT一定的关键词,AI就会依据关键词进行信息编造,将一些完全杜撰或是不属于本人成就的信息拼接到一起,生成一份回答。

从提供的ChatGPT对话截图来看,AI不仅是生成了一系列编造的个人信息,在用户要求提供相关的引用论文和文章时,AI更是直接生成了一系列不存在的网络链接与论文标题,给用户@何学源 带来一些小小的AI震撼。

在我的测试中,文心一言也有类似的问题,比如我在询问它:“吃西瓜为什么不吐葡萄皮”时,文心一言不仅将西瓜与葡萄的关系混淆,甚至将归属于葫芦科的西瓜变成了“葡萄科”的,接下来的内容都基于西瓜与葡萄是同一样水果的逻辑进行解答,以至于错漏百出。 

只是相对于ChatGPT能够以假乱真的“撒谎”行为来看,具有一定知识储备的人可以轻松辨认出文心一言回答中的问题。但是,如果未来的文心一言经过迭代进步后达到ChatGPT的同等水平,人们又该如何分辨其中的问题? 

再进一步,如果有人不怀好意地让AI故意生成“谣言”,又该如何解决?实际上,互联网上已经出现了不少利用AI生成的图片、文字来进行诈骗、造谣的案例,前段时间就有人利用AI生成的模特图片进行网络诈骗,甚至还成功骗到了不少人。

在我看来,对于AI的管控确实应该提上日程,不仅仅是国内在紧锣密鼓地筹备相关法例法规,美国也将在近期召集微软、谷歌、OpenAI等一系列相关企业,探讨对AI的约束与规定,使其在使用和发展的过程中不会侵犯用户的合法权益。 

正是出于对AI的“撒谎”能力担忧,《生成式人工智能服务管理办法(征求意见稿)》中就明确写明了“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。”,同时也使该条例引起了许多网友的争议。

但就目前的AI能力来说,想要满足“真实准确”的难度非常高,前面提到过ChatGPT都无法做到,国内的AI则更是如此。严格来说,甚至连人类自己其实也无法做到所有的回答、信息都真实准确,我们的记忆会出错,对知识点、新闻的理解会出错,而且网络上本就充斥着大量的虚假信息,以网络数据训练出来的AI显然不可避免地受其影响。 

有网友甚至直言:“如果哪一天AI能够完美规避错误答案,生成100%准确且真实的回答,那么人类就该担心自己了”,言下之意就是这种程度的AI已经不再是普通的工具,而是具备独立思维且拥有强大能力的“超级生命”。 

当然,目前的AI离我们设想中的“完美AI”还有着非常遥远的距离,但是对于AI“谎言”的管控确实该提上日程了。不过,一些网友则认为不应该对AI的回答准确率过早地做出严苛规定,否则以目前的错误率来看,国内的所有AI模型都可以停止对外运营。

实际上,这些网友的发言多少有点危言耸听,对于阿里、百度等企业来说,处理错误答案与内容一直都是AI模型迭代中的重要工作,文心一言和通义千问在问答框中都有设置一键反馈按钮,可以轻松对错误回答进行标记,帮助完善AI模型。 

而且,从条例的细则来看,对企业的要求是在3个月采取措施修正生成错误回答的AI模型,确保同样的错误不会再次发生,实际上也是给了企业不少的处理时间。对于阿里和百度来说,如果3个月都无法处理一个明显的错误,那么或许该考虑一下是不是有工程师在“摸鱼”了。

入局AI市场的门槛将更高 

从条例本身来看,不少要求与规范其实都是AI企业已经在做的事情,比如对错误答案进行优化、限制非法内容的输出等。在文心一言和通义千问上,对于违规或非法的问题基本上都只会得到一个类似的回复:“我是一个人工智能语言模型,无法对xxxx进行评价。我的目的是提供客观和准确的信息,帮助人们解决问题”。 

ChatGPT同样如此,如果你使用的是通过官网API接口提供的服务及NEWBING,那么在涉及暴力、血腥、色情等方面的提问时,AI都会直接结束当前话题并提示用户应该更换一个话题。 

对于AI的规制其实一直都存着,公开的AI平台本就不是法外之地,不少企业也在探讨对AI模型进行修改,使其生成的图片、视频、音频会自动附加可用于快速识别的标记,用以在网络上对相关的AI生成内容进行快速标识。

图源:网络 

在我看来,对AI行业最大的影响是切实地提高了入门门槛,随着ChatGPT的大火,国内开始涌现出大量的AI企业和项目,除了阿里、百度、华为等科技巨头外,还有不少的小企业和个人也在宣传自己的项目,使得国内的AI市场变得十分混乱。 

此次条例实施后,对于AI企业的规模、反馈处理等能力都提出了更高的要求,对于目前的大厂来说,满足以上要求并不困难,倒不如说已经在做了。实际上,更大的难点在于训练数据的获取,目前的AI模型基本都是通过爬虫等手段,大量抓取网络信息进行训练迭代。 

由此引发了不少网友的指责,认为AI企业在训练中使用了未经过授权的用户个人数据,侵犯了个人隐私,意大利政府此前就公开要求ChatGPT完善数据爬取方式,以确保不会擅自使用未经授权的数据。 

此外,三星此前也发布公告,要求严格管控企业内部的ChatGPT使用情况,避免企业机密外泄,因为ChatGPT将三星部分员工输入的机密数据作为训练数据,上传到了ChatGPT的数据库中,导致其他用户可以通过问答的方式获取这些数据,直接影响到三星的企业安全。 

为了确保公民信息及个人数据的安全,未来AI企业在隐私保护等方面需要花费更多的成本来完善相关的保障系统。而且,对训练数据的严格规范也会直接影响到AI企业的训练成本,此前华为就声称,开发和训练一个AI的成本高达1200万元美元,而且还不包括后续的硬件、数据投入。 

随着相关管理的规范化,AI训练的成本或许会将多数中小企业拒之门外,对于个人和中小企业来说,使用阿里等开放式AI训练平台将会是未来的主流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SGAT丨单基因分析工具SingleGeneAnalysisTool

Single Gene Analysis Tool 简介:SGAT是一个免费开源的单基因分析工具,基于Linux系统实现自动化批量处理,能够快速准确的完成单基因和表型的关联分析,只需要输入基因型和表型原始数据,即可计算出显著关联的SNP位点&…

学习大数据需要什么语言基础

Python易学,人人都可以掌握,如果零基础入门数据开发行业的小伙伴,可以从Python语言入手。 Python语言简单易懂,适合零基础入门,在编程语言排名上升最快,能完成数据挖掘、机器学习、实时计算在内的各种大数…

测试名词介绍

测试名词介绍一:敏捷测试1. 定义:2. 敏捷测试的核心:3. 敏捷测试的8大原则和传统测试的区别二:测试名词介绍瀑布模型回归测试Alpha测试Beta测试性能测试白盒测试黑盒测试灰盒测试三:测试流程单元测试 (unit test)集成测…

Java RSA加解密算法学习

一、前言 1.1 问题思考 为什么需要加密 / 解密?信息泄露可能造成什么影响? 二、 基础回顾 2.1 加密技术 加密技术是最常用的安全保密手段,利用技术手段把重要的数据变为乱码(加密)传送,到达目的地后再…

nginx的前端部署方式

1. 什么是nginx Nginx是一款高性能的http 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器。 由俄罗斯的程序设计师Igor Sysoev所开发,官方测试nginx能够支支撑5万并发链接, 并且cpu、内存等资源消耗却非常低&#xff0…

javascript 数组详解

1.数组是可变的 数组内元素可以是不同的类型: 字符串一旦创建就不可变,但数组是可变的,且操作起来十分随意,例如: 直接修改数组长度,若新赋予长度小于原数组长度,会直接舍弃多余元素: 若新赋予…

【AI绘画】Midjourney和Stable Diffusion教程

之前我向大家介绍了这两个AI绘画网站: Stable Diffusion介绍: https://mp.csdn.net/mp_blog/creation/editor/130059509 Midjourney介绍: https://mp.csdn.net/mp_blog/creation/editor/130003233 前言 这里是新星计划本周最后一篇,主要…

python 连接oracle

前提,navicate成功连接oracle 1、下载cx_oracle,根据python版本下载whl,或者通过 ​pip install cx_Oracle -i http://pypi.douban.com/simple/ 下载地址: cx-Oracle PyPIhttps://pypi.org/project/cx-Oracle/#files2、navicate下instant…

​Auction Design in the Auto-bidding World系列一:面向异质目标函数广告主的拍卖机制设计...

导读: 传统拍卖机制不存在了!出价产品智能化成为行业发展趋势,自动出价(Auto-bidding)已成为互联网广告主营销的主流,经典效用最大化模型(Utility Maximizer)的假设已经不再能良好地…

使用 LXCFS 文件系统实现容器资源可见性

使用 LXCFS 文件系统实现容器资源可见性一、基本介绍二、LXCFS 安装与使用1.安装 LXCFS 文件系统2.基于 Docker 实现容器资源可见性3.基于 Kubernetes 实现容器资源可见性前言:Linux 利用 Cgroup 实现了对容器资源的限制,但是当在容器内运行 top 命令时就…

《金阁寺》金阁美之于幻想,我用摧毁它来成就其美

《金阁寺》金阁美之于幻想,我用摧毁它来成就其美 三岛由纪夫(1925-1970),日本当代小说家、剧作家、记者、电影制作人和电影演员,右翼分子。主要作品有《金阁寺》《鹿鸣馆》《丰饶之海》等。曾3次获诺贝尔文学奖提名,属…

基于Sketch Up软件校园建模案例分享

Acknowledgements: 由衷感谢覃婉柔、赵泽昊同学在本次课程实习中做出的巨大贡献,感谢本团队成员一起努力奋斗的岁月。 一、建模地点(中国地质大学(武汉)未来城校区图书馆周边) 中国地质大学(武汉…

关于ChatGPT的一些随笔

大家好,我是老三,最近几个月关于ChatGPT的信息可以说是铺天盖地。 “王炸,ChatGPT……” “xxx震撼发布……” “真的要失业了,xxx来袭……” “普通如何利用ChatGPT……” …… 不过老三前一阵比较忙,对ChatGPT…

【MySQL】锁详解——从结构分类到适用场景

我们要学习锁首先要了解下我们想了解的锁到底是什么🤔 而在MySQL中给某个数据加锁的本质其实就是在内存中创建一个锁结构与之关联,而这个锁结构就是我们常提到的MySQL的锁🔒 那么接下来的问题就是,这个锁结构长啥样呢&#xff1…

ASEMI代理ADI亚德诺AD8065ARTZ-REEL7车规级芯片

编辑-Z AD8065ARTZ-REEL7芯片参数: 型号:AD8065ARTZ-REEL7 −3dB带宽:145MHz 0.1 dB平坦度的带宽:7MHz 输入超速恢复时间:175ns 输出恢复时间:170ns 斜率:180V/μs 三阶拦截&#xff1a…

教育大数据总体解决方案(2)

系统管理对当前大数据基础平台的所有服务及组件版本、账户以及自动启动进行统一管理。 服务版本查看当前大数据基础平台的所有服务信息及版本状态。 服务用户和组查看当前大数据基础平台的所有用户信息。 服务自动启动对当前大数据基础平台的所有服务组件进行自启动设置。 后台…

【信息安全】EDR、HIDS、NDR、MDR、XDR 区别与联系

【前言】 随着安全态势的发展,为应对不同的安全防御场景需求,安全产品层出不穷,各大安全厂商也争先推出自家的安全产品/平台,这就导致产品种类繁多,信息量大而杂,本篇博文重点讲解EDR、HIDS、NDR、MDR和XDR…

LinuxGUI自动化测试框架搭建(二)- 详细设计框架设计

(二)-详细设计&框架设计1 需求分析2 技术栈3 框架设计3.1 框架说明3.2 框架执行流程4 预期结果4.1 测试过程log日志4.2 测试报告html格式4.3 测试报告邮件格式1 需求分析 对 实现需求 进行详细分析,主要有下: 功能说明使用U…

经典文献阅读之--FastFlowNet(轻量光流估计)

0. 简介 密集的光流估计在许多机器人视觉任务中起着关键作用。随着深度学习的到来,已经比传统方法以令人满意的精度预测了它。然而,当前的网络经常占用大量参数并且需要沉重的计算成本。这些缺点阻碍了在功率或内存受限的移动设备上的应用。为了应对这些…

Apache 网页优化与防盗链

目录 一、Apache网页优化概述 二、gzip介绍 Apache的压缩模块 配置网页压缩功能 1.检查是否安装 mod_deflate 模块 2.编译安装 Apache 添加 mod_deflate 模块 3.配置 mod_deflate 模块启用 4.检查安装情况,启动服务 5.测试 mod_deflate 压缩是否生效 三. 网页缓…