大模型算法办备案全网最详细说明(+附件)

news2025/1/23 17:28:54

已成功备案产品(近130家,不包括审核中的)

一、大模型算法备案的强制性
二、生成式人工智能(大语言模型)安全评估要点
三、大模型备案必备材料+重点说明
四、大模型备案填报流程
五、大模型备案时间成本对比
六、备案建议
附录、过程性材料

一、大模型算法备案的强制性
1、强制要求备案
(1)《办法》第六条规定:利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
(2)根据《算法推荐规定》第三十一条规定:算法推荐服务提供者违反该规定第二十四条,不履行或未按时履行算法备案义务的,应承担如下法律责任:警告、通报批评;罚款;刑事责任等(简化版)。

2、强制实现
(1)根据《算法推荐规定》第三十三条规定:具有舆论属性或者社会动员能力的算法推荐服务提供者通过隐瞒有关情况、提供虚假材料等不正当手段取得备案的,予以撤销备案,关闭网站、吊销相关业务许可证或吊销营业执照等处罚。
(2)算法备案不是审查制度,是通过事前手段对算法产品加强管理的方式,算法产品通过备案不意味着监管部门认可实质内容。在算法应用过程中,用户可以通过公开渠道查询到算法产品的备案信息,若发现互联网服务提供者实际提供的服务与其备案内容不符,可向监管部门投诉、举报。

二、生成式人工智能(大语言模型)安全评估要点
1、语料安全评估
(一)评估内容
(1)文本训练语料规模
训练语料存储规模,按文本格式存储时的语料大小。
训练语料数量,按词元 (Token) 计数。
(2)各类型语料规模
训练语料中的中文文本、英文文本、代码、图片、音频、
视频及其他语料的规模。
(3)训练语料来源
训练语料来源的组成情况,按照开源语料、自采语料、商业语料进行分类。
境外开源网站语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。
自采语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。
商业语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。
(4)语料标注数量
语料标注的数量,仅限文本和图片,按标注单元计数,
通常按条数、张数。
(5)标注人员情况
标注人员的数量,标注人员的类型,通常包括内部、外包。
标注人员培训时间、培训数量等情况。
(6)标注规则
按照《生成式人工智能服务管理暂行办法》第四条要求制定的标注规则。
(7)标注内容准确性核验
标注内容准确性人工核验比例。
(8)语料合法性
语料来源合法性情况。
语料是否包含侵害他人知识产权内容。
语料是否包含违法违规的个人信息内容。
(二)评估结论
评估结论应包括以下内容:
(1)语料是否符合《生成式人工智能服务管理暂行办法》相关规定,是否含有违反我国法律法规明确禁止的内容。
(2)语料中包含个人信息语料的数量、种类,是否符合《生成式人工智能服务管理暂行办法》规定。
(3)因语料产生知识产权纠纷的风险分析。
(4)防范语料安全风险的措施和建议。
2、模型安全评估
(1)语料内容评估
采用人工抽检,说明抽检数量与合格率。
采用关键词抽检,说明抽检数量与合格率。
采用分类模型抽检,说明抽检数量与合格率。
(2)生成内容评估
采用人工抽检,说明抽检数量与合格率。
采用关键词抽检,说明抽检数量与合格率。
采用分类模型抽检,说明抽检数量与合格率。
(3)涉知识产权、商业秘密的评估
评估方法、评判标准以及评估结果等。
(4)涉民族、信仰、性别等的评估
评估方法、评判标准以及评估结果等。
(5)涉透明性、准确性、可靠性等的评估
评估方法、评判标准以及评估结果等。
3、 安全措施评估
(1)模型适用人群、场合、用途
服务的适用人群,是否适用未成年人、学生等。
适用场合,是否适用关键信息基础设施、自动控制、医疗信息服务、心理咨询等。
服务范围,是否限定或未限定特定领域。
(2)服务过程中收集保存个人信息情况
服务过程中收集保存个人信息情况,包括个人信息的类型、数量、用途以及保存期限。
(3)收集个人信息征得个人同意情况
收集个人信息征得个人同意的方式。
(4)受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况
受理处理的条件以及途径方法。
(5)图片、视频标识情况
标识的样式,按1:1 比例贴入。
标识在图片、视频中的具体位置。
标识频度,如每帧、跳帧等。
(6)接受公众或使用者投诉举报情况
接受公众或使用者投诉举报的途径及反馈方式。
(7)服务协议情况
上述1至6内容是否已经写入模型服务协议。
(8)非法内容拦截措施
监看人员的数量。
预置关键词拦截情况,并提供预置关键词拦截列表。
分类模型的检测情况,说明分类模型研制情况和准确性。
(9)拒答率
拒绝回答或者以简单模板回答数量占总测试数量的比率。
(10)模型更新、升级
在何种情况下重新进行预训练,如较频繁发现生成非法
三、大模型备案必备材料+参考资料
必备材料清单
《算法备案承诺书》
《落实算法安全主体责任基本情况》
《算法安全自评估报告》
《拟公示内容》
《落实算法安全主体责任基本情况》,需要50页左右,《算法安全自评估报告》 100 页左右,包含附录各种证明材料。材料申报难度较高,一方面涉及专业问题非常全面,可能算法数据人员在实际工作中都未思考过,更不好回答;另一方面对于算法的详细描述质量,有较高的要求,非专业人员无法胜任报告的撰写。
1、《 算法安全自评估报告》
重点说明,需要明确以下4个点
(1)算法原理和逻辑
(2)数据来源合规性
(3)算法透明度和可解释性
(4)安全漏洞检测与应对
《算法安全自评估报告》是整个申报过程中最难和最重要的材料,总共160+种备案关键指标需要回答,且所有问题都必须要回答清楚,如果不理解问题表述,需要寻求专业求助,不能删除问题不回答,更不能随意回答,回答的详细程度和准确性决定算法备案是否通过。
撰写评估报告的难点主要在于三点:
一是要对算法进行全面的评估,包括安全性、可靠性、有效性等,同时需要与法务的参与,必须要符合法律法规;
二是数据的合规性,要有数据来源的开源授权协议或相关合作证明,确保数据在使用中符合相关行业法规和标准,避免违规操作;
三是风险预估与应对策略,对各种可能出现的风险进行评估,并进行对应的策略。
2、《落实算法安全主体责任基本情况》
这个文档的填写难度较高,需要明确3个重点
(1)如何做好信息安全监测
(2)如何做好内容安全监测
(3)如何做好用户个人信息安全监测
做好以上几点需要产品、研发算法、法务团队的密切配合,材料需要详细提供企业建立的算法安全相关组织和制度,但大多数公司还没有建立算法制度,网上的资料还少,其中制度又分为了自评估制度、监测制度、应急处置制度和违法违规处置等。
如有不清晰的,可以私信联系我,目前我们团队也对外提供咨询服务。
3、《xxx大模型算法”拟公示内容》【公示内容《拟公示内容》】
这部分信息主要在网页端的信息填报环节,这部分包括算法名称、算法基本原理、算法运行机制、算法应用场景、算法目的意图、算法公示情况(选填),一般一页word即可
4、申请公司营业执照副本彩色扫描件;
5、法定代表人身份证彩色扫描件+手机号+电子邮箱;
6、算法安全负责人身份证彩色扫描件+手机号+电子邮箱+工作证明(如工作证扫描件);
7、联系人身份证彩色扫描件+手机号+电子邮箱;法人、安全责任人、联系人 分别三人担任
8、算法机构设置(主要工作职责、任职要求、配备的规模、保障措施);
参考资料
1、《互联网信息服务深度合成管理规定》
2、《互联网信息服务算法推荐管理规定》
3、《生成式人工智能服务安全基本要求》
补充说明
《落实算法安全主体责任基本情况》《算法安全自评估报告》是非常重要并且比较繁琐的,需要画出流程图,描述各个产品研发过程、输入输出的算法原理、范围、来源、限制,算法的意图、算法的逻辑、使用的技术、数据结构、对数据安全保障和风险防范措施。程序的构造和原理主要包括计算机程序设计语言、算法设计、编码、调试、测试等技术。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718864.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

# Mybatis 高级用法和tk.mybatis使用

Mybatis 高级用法和tk.mybatis使用 文章目录 Mybatis 高级用法和tk.mybatis使用使用SelectProvider、InsertProvider、UpdateProvider、DeleteProviderSelectProvider使用例子 tk.mybatis引入依赖查询实现实体映射类实体类规范 dao层调用dao 使用SelectProvider、InsertProvide…

使用CS抓取WIN2012明文密码

目录 实验概述: 开始实验: 实验准备: 打开CS: 生成木马控制wind2012: 抓取明文密码: 实验概述: win2012及win10版本是不允许将明文密码储存在内存中的,此时我们…

测试基础08:测试文档的编写(测试计划方案用例报告)

测试大纲 一、测试计划 1 概述 1.1 目的 简述本计划的目的,旨在说明各种测试阶段任务、人员分配和时间安排、工作规范等。测试计划包含足够的信息使测试人员明白项目需要做什么,是如何运作的。另外,清晰的文档结构能使任何一个读者在浏览…

如何利用向量数据库来弥补 LLM 的弱点

向量数据库使企业能够以经济且可持续的方式调整通用大型语言模型以供组织特定使用。 译自 How to Cure LLM Weaknesses with Vector Databases,作者 Naren Narendran。 多年来,人们一直在猜测人工智能对企业产生的潜在影响。现在,我们看到来自…

Ansible04-Ansible Vars变量详解

目录 写在前面6 Ansible Vars 变量6.1 playbook中的变量6.1.1 playbook中定义变量的格式6.1.2 举例6.1.3 小tip 6.2 共有变量6.2.1 变量文件6.2.1.1 变量文件编写6.2.1.2 playbook编写6.2.1.3 运行测试 6.2.2 根据主机组使用变量6.2.2.1 groups_vars编写6.2.2.2 playbook编写6.…

美国RAKsmart海外大带宽服务器的显著特点

美国RAKsmart海外大带宽服务器在当前的互联网服务领域中备受瞩目,其显著特点主要体现在以下几个方面: 高带宽资源:RAKsmart服务器拥有充足的带宽资源,最低提供100M独享带宽,并支持升级至G口、10G口大带宽方案。这种高带…

【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口

【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口 文章目录 【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口声明一、标…

C++ vector的使用和简单模拟实现(超级详细!!!)

目录 前言 1.STL是什么 2.vector使用 2.1 vector简介 2.2 常用接口函数 1. 构造函数 2.operator[ ]和size,push_back 3. 用迭代器进行访问和修改 4. 范围for遍历 5.修改类型函数 pop_back find insert erase 6. 容量相关函数capacity resize reserve 3.…

知识图谱抽取实战

相关代码见文末 1.知识图谱应用场景 知识图谱是一种先进的数据组织形式,它通过图数据结构来表示实体(如人、地点、概念)及其之间的复杂关系,便于机器理解和处理。这种结构化知识库允许高效的信息检索、推理和知识发现,尤其适用于处理高度关联且需要深度理解的领域,如医学…

Source Insight 变量高亮快捷键F8 失效

SourceInsight4.0,使用的时候,高亮快捷键F8突然不能用了 查半天发现,是用了“有道翻译”的原因,热键冲突,如下,把下面的热键换一个就好了

freeswitch官方仓库

概述 在使用源代码编译安装freeswitch的过程中,我们经常需要一些依赖库,其中freeswitch官方的yum源仓库是最齐全最方便的。 但是,freeswitch仓库的配置和使用需要先在signalwire网站注册账号并获取PAT(personal access token&am…

微调医疗大模型,与通用大模型效果对比

下面是一份CT描述: “肝脏大小、形态未见明确异常。肝S2见一结节状低密度影,大小约13x11mm,增强扫描呈明显渐进性强化,延迟期呈等密度。余肝实质内未见异常密度影或强化灶。肝内大血管及其分支走行未见异常,肝门区层次…

Cloudflare的增长正在放缓,股价过高,未来将进一步下跌

来源:猛兽财经 作者:猛兽财经 一、Cloudflare公司介绍 1.1、Cloudflare(NET)是一家全球性云平台,总部位于美国旧金山,在英国伦敦亦设有办事处。 Cloudflare以向客户提供网站安全管理、性能优化及相关的技术支持为主要业务。通过基…

ArcGIS空间数据处理、空间分析与制图;PLUS模型和InVEST模型的原理,参量提取与模型运行及结果分析;土地利用时空变化以及对生态系统服务的影响分析

工业革命以来,社会生产力迅速提高,人类活动频繁,此外人口与日俱增对土地的需求与改造更加强烈,人-地关系日益紧张。此外,土地资源的不合理开发利用更是造成了水土流失、植被退化、水资源短缺、区域气候变化、生物多样性…

03-树3 Tree Traversals Again(浙大数据结构PTA习题)

03-树3 Tree Traversals Again 分数 25 作者 陈越 An inorder binary tree traversal can be implemented in a non-recursive way with a stack. For example, suppose that when a 6-node binary tree (with the keys numbered from 1 to 6) is traversed, th…

【十年java搬砖路】Jumpserver docker版安装及配置Ldap登陆认证

Jumpserver docker 安装启动教程 拉取镜像 docker pull JumpServer启动进行前确保有Redis 和Mysql 创建jumperServer数据库 在MYSQL上执行 创建数据库 登陆MYSQL mysql -u root -p 创建Jumperserveri库 create database jumpserver default charset utf8mb4;可以为jumperSe…

视频监控汇聚EasyCVR助力山体滑坡/自然灾害可视化监测与应急救援

近日,巴布亚新几内亚恩加省遭遇山体滑坡,持续引发关注。截至5月29日,恩加省山体滑坡导致的遇难人数可能超过2000人。据悉,巴布亚新几内亚恩加省位于巴布亚新几内亚中部高原的西部,地形多山。由于事发地区相对偏远&…

自定义数据库连接池

为什么要用数据库连接池? mysql连接资源非常宝贵,创建连接和关闭连接花费的时间比较长,使用数据库连接池可以提高我们开发效率,用户从连接池获取连接使用用完了后,需要把连接归还给连接池,所以我们需要用L…

Rasa.3X中使用lookup实现对实体的抽取

rasa3.6的DIETClassifier实体提取器不准确,使用RegexEntityExtractor的实体提取器替换。在实战过程解决以下两个问题: 1、RegexEntityExtractor实体提取器的应用 首先在domain.yml中明确对应的实体以及意图: version: "3.0" ent…

【知识拓展】机器学习基础(二):什么是模型、自定义模型、模型训练、模型调优

前言 接上文,前文对模型没有过多介绍,随着看的资料增多,对模型有了更多的自我认识,记录一下。要了解模型,我们先从零开始创建一个模型开始: 最简单的方法是使用Python和scikit-learn库。关于scikit-learn库…