Datawhale 组队学习之大模型理论基础Task9 大模型法律

news2026/2/11 20:43:07

第11章大模型法律

11.1 简介

此内容主要探讨法律对大型语言模型的开发和部署有何规定。

先看看法律的特点：

法律就如我国法律教材所给出的一样，有依靠国家强制力保证实施的特点。

而法律在大模型中也是不可或缺的，缺少了法律的约束，一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。

11.2 版权法

大型语言模型或任何机器学习模型，都是基于数据进行训练的，而这些数据是人类劳动的结果（例如，作者，程序员，摄影师等）。除了创作者外，其他人可以对这些创作（例如，书籍，代码，照片等）进行何种使用，属于知识产权法的范畴。

11.2.1 知识产权法

使用版权作品有两种方式：获取许可或依赖公平使用条款。

11.2.2 许可

许可（来自合同法）是由许可人授予许可使用者的。

11.2.3 公平使用（第107条）

自1840年代以来，公平使用一直是普通法。决定是否适用公平使用的四个因素是：

使用的目的和性质（教育用途优于商业用途，转型用途优于复制）；
版权作品的性质（虚构作品优于事实作品，创新性的程度）；
使用的原作部分的数量和实质性；和
使用对原作市场（或潜在市场）的影响。

注意：事实和想法不受版权保护。如果策划/安排被视为表达，事实数据库可以受版权保护。复制数据（训练的第一步）就已经是侵权，即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元（版权法第504条）。

11.3 案例研究

接下来，我们将回顾一些已经裁定公平使用或反对公平使用的案件。

11.3.1 作家协会诉Google

Google Book Search扫描了印刷书籍并使其在线可搜索（显示片段），始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年，地区法院判定Google公平使用。

11.3.2 Google诉Oracle

Google在Android操作系统中复制了Oracle（原Sun Microsystems）所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月，最高法院裁定Google的使用Java API属于公平使用。

11.4 公平学习与机器学习

公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的，它不会改变作品，但会改变目的。机器学习系统对想法感兴趣，而不是具体的表达。

对于将机器学习视为公平使用的论据：训练数据的广泛访问会为社会创造更好的系统。如果不允许使用，那么大部分作品无法用来产生新

的价值。使用版权数据可能更公平。

反对将机器学习视为公平使用的论据：认为机器学习系统不会产生创意的“最终产品”，而只是赚钱。生成模型（例如，语言模型）可以与创意专业人士竞争。机器学习系统的问题（传播假信息，实现监控等），因此不应该给予机器学习系统利益的怀疑。

在版权法下，很难分离可保护的（例如，表达）和不可保护的（例如，想法）。虽然构建机器学习系统可能有很多原因不妥，但版权是阻止它的正确工具吗？对于训练大型语言模型是否属于公平使用的问题正在迅速发展。

11.5 阶段性结论

查看信息技术的历史，我们可以看到三个阶段：

第一阶段：文本数据挖掘（搜索引擎），基于简单的模式匹配。
第二阶段：分类（例如，分类停止标志或情感分析），推荐系统。
第三阶段：学习模仿表达的生成模型。

上次，我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特，那么这对公平使用来说是有问题的。然而，即使语言模型不直接生成以前的作品，版权仍然相关，因为以前的受版权保护的作品被用来训练语言模型。

事实上，语言模型可以与作家竞争。例如，作家写了3本书，语言模型在这3本书上进行训练，并自动生成第4本。

因此，面对大型语言模型，版权和机器学习的未来还未知。

11.6 隐私法律教程

在本教程中，我们将简要讨论一些隐私法律的例子，包括Clearview AI、加利福尼亚消费者隐私法案（2018）、加利福尼亚隐私权法案（2020）以及欧盟的一般数据保护条例（GDPR）。

11.6.1 Clearview AI

Clearview AI是一家成立于2017年的公司。2019年，纽约时报曝光了它。到2021年10月，该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构（例如，FBI）和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私，该公司已被起诉。

11.6.2 伊利诺伊州生物识别信息隐私法（2008）

这项法律通过私人实体对生物识别标识符进行监管（不包括政府实体）。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构（DPA）认为该行为违法。

11.6.3 加利福尼亚消费者隐私法案（2018）

这项法案赋予加利福尼亚居民以下权利：

了解收集他们的哪些个人数据。
了解他们的个人数据是否被出售或公开，以及给了谁。
拒绝个人数据的销售。
访问他们的个人数据。
请求业务删除从消费者处收集的任何个人信息。
不因行使他们的隐私权利而被歧视。

个人数据包括：真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。

该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同，这项法律不允许用户更正数据。

11.6.4 加利福尼亚隐私权法案（2020）

这项法案创立了加利福尼亚隐私保护机构，将于2023年1月1日生效，适用于2022年1月1日之后收集的数据。

11.6.4.1 意图

了解谁在收集他们及其孩子的个人信息，如何使用，以及向谁公开。
控制他们个人信息的使用，包括
- 限制他们敏感个人信息的使用。
- 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
- 通过易于获取的自助工具行使他们的隐私权利。
- 行使他们的隐私权利而不受罚款。
- 将未采取合理信息安全预防措施的企业追究责任。
- 从企业使用他们的个人信息中受益。
- 作为员工和独立承包商也能保护他们的隐私利益。

11.7 GDPR（欧盟一般数据保护条例）

该规定是欧盟法律关于数据隐私的一部分，于2016年通过，2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据，并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意，Google被罚款5700万美元。