昨天接到一位客户的咨询,说他们的模型还在开发阶段,想提前了解一下大模型备案政策中对于模型训练语料有什么具体要求,提前规避一下。客户确实有前瞻性,考虑得比较充分。训练语料在研发阶段至关重要,直接影响模型的性能、安全性和合规性。
一、训练语料数据来源合法性要求
- 合规来源:语料需通过合法途径获取,禁止使用非法爬取、窃取或未授权的内容(如盗版书籍、隐私数据)。
- 版权合规:需明确语料的版权归属,使用开源数据集时需遵循其许可协议,商业数据需获得授权。
- 开源语料:需提供开源许可协议,重点核查 Robots 协议及个人信息授权限制。
- 自采语料:需保留采集记录(含采集时间、采集方式),禁止采集通过 Robots 协议明确禁止的网页数据(如政府官网、金融机构敏感数据)。境外语料需通过安全评估。
- 商业语料:需提供法律效力的交易合同,并要求合作方提供来源、质量及安全证明材料。
- 用户数据使用:若包含用户生成内容,需确保符合《个人信息保护法》,获得用户明示同意并匿名化处理。
二、训练语料内容安全合规性要求
严格规避《生成式人工智能服务安全基本要求》定义的 5 类 31 种不良语料
- 敏感信息过滤:需移除涉及国家安全、暴力、色情、歧视、虚假信息等违规内容。
- 价值观对齐:避免包含违背社会主义核心价值观或社会公序良俗的内容。
- 多语言语料审查:非中文语料需额外审核文化差异和合规风险(如部分国家的政治敏感内容)。
- 领域覆盖:需涵盖科技、法律、医疗、文化等多领域数据,避免知识盲区。
- 时效性:定期更新语料以反映最新知识(如政策变化、技术进展)。
- 去重与清洗:去除重复、低质量文本(如乱码、广告),提升训练效率。
检查方式:违法不良信息占比需≤5%,人工抽检≥1000 条且合格率≥95%
三、语料全生命周期管理要求
- 质量控制:去除重复、低质、格式错误数据,采用密码技术(如同态加密)、抑制技术(删除敏感字段)、泛化技术(如年龄区间化)实现去标识化,确保无法识别个人身份
- 隐私保护:使用含个人信息的语料需获得授权,敏感个人信息需单独书面授权
- 动态过滤机制:结合关键词匹配、分类模型及人工复核,实时拦截不良信息
- 可追溯性:记录语料来源、处理流程、标注记录等,确保全链路可审计
大模型备案的语料管理需贯穿 “采集 - 标注 - 过滤 - 审计” 全流程,核心是确保数据来源合法、处理规范、风险可控。同时关注后续法规政策更新,确保持续符合监管要求。