早在2023年年初,国家互联网信息办公室、工业和信息化部、公安部针对深度合成服务制定的《互联网信息服务深度合成管理规定》(“《深度合成管理规定》”)顺利施行,其明确了深度合成服务相关方的义务与主体责任,强化了对互联网信息服务深度合成领域的管理。同年8月15日实施了《生成式人工智能服务管理暂行办法》,主要是针对提供生成式人工智能服务需要做大模型备案。这样就形成了由算法备案制度和生成式人工智能备案(下称“大模型备案”)构成的“双备案制”的实践机制。
《互联网信息服务深度合成管理规定》第十九条规定“具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行或办理备案、变更、注销等相关手续。而大模型备案自《生成式人工智能服务管理暂行办法》施行之日起仅有半年多,对于大模型备案的流程、规则以及安全评估相关的具体事项,企业相关的经验也相对较少。
下面,众森企服小编就来给大家详细讲解下生成式人工智能大模型备案办理指南。
一、什么是大模型?
大模型,即Foundation Models,通常是指具有大量参数和复杂结构的深度学习模型。这些模型的参数量较大,通常需要数十亿甚至上百亿个参数,相较于传统的较小规模模型,大模型具有更高的容量和表达能力。大模型可以通过训练大规模数据集,以实现更准确的预测和更高的性能,并依据相关指令,完成各种目标任务。我们熟知的OpenAI的ChatGPT与Google的Alpha Go就是典型的语言类大模型:ChatGPT以Transformer模型为基础,具有1750亿个参数;而Alpha Go具有超过1亿个参数。
目前企业应用大模型主要体现为以下三种模式:
1、自主构建基础大模型,但是考虑到训练大模型的成本和技术壁垒都非常高,因此只有少数企业会自建大模型。
2、建立行业大模型,通常是了解行业know-how的企业,结合自身掌握的行业数据,用基础大模型精调出更贴合实际场景的垂类行业大模型。
3、在基础大模型和行业大模型之上,开发AI应用,这也是目前大多数企业采取的模式。
二、大模型上线的合规要素
在我国当前的监管体系下,大模型合规要素主要涉及的范畴包括平台运营合规、内容合规、平台管理合规、网络安全与数据合规、算法技术合规、国际联网合规等方面,具体合规要素以及相应的法律法规依据详见下图:
三、大模型上线备案如何申请
1、大模型上线备案所需资料
(1)大模型上线备案表,包含以下具体内容:
-
基本情况:模型名称、主要功能、适用人群、服务范围等。
-
模型研制:模型备案情况、训练算力资源(自研模型)、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。
-
服务与安全防范:推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。
-
安全评估:基本情况、评估情况。
-
自愿承诺:承诺所填信息真实性,并签字确认。
-
附件及备注:附件包括安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题。
(2)安全评估报告:提交的报告应包含语料安全评估、模型安全评估以及安全措施评估,并应在评估报告中形成整体评估结论。
(3)模型服务协议:一般包含产品及服务的各项规则及隐私条款等,需协同法务共同制定提交。
(4)语料标注规则:包括标注团队介绍、功能性及安全性标注细则,标注流程等。
(5)拦截关键词列表:总规模不宜少于10000个,应至少覆盖《生成式人工智能服务安全基本要求》A.1以及A.2中17种安全风险,A.1中每一种安全风险的关键词均不宜少于200个,A.2中每一种安全风险的关键词均不宜少于100个。
(6)评估测试题集:
-
该测试题集需要包括生成内容测试题库、拒答内容测试题库、非拒答测试题库。
-
测试题分类满足《生成式人工智能服务安全基本要求》中相关的风险类型,并有最小的数量要求。
-
测试题建议是“问题”(包含主谓宾),不可只是短词、长文章。
-
生成内容测试题库中建议明确标记出哪些问题是需要拒答的、哪些是需要回答的。
2、大模型上线备案流程
-
向属地网信办报备,拿到备案表;
-
企业根据表格及评估要点准备填写材料;
-
企业内部展开评估,编写相关材料,准备测试账号;
-
材料附件及测试账号提交属地网信办审核;
-
属地网信办材料审核及技术测试审核通过后,属地上报中央网信办;未通过,修改材料或调整模型能力后再次提审,具体调整哪方面根据属地网信反馈进行;
-
中央网信办进行材料复审及技术评审,通过,企业下发备案号;未通过,需重新进行上线备案。