第11章 大模型法律
11.1 简介
此内容主要探讨法律对大型语言模型的开发和部署有何规定。
先看看法律的特点:
法律就如我国法律教材所给出的一样,有依靠国家强制力保证实施的特点。
而法律在大模型中也是不可或缺的,缺少了法律的约束,一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。
11.2 版权法
大型语言模型或任何机器学习模型,都是基于数据进行训练的,而这些数据是人类劳动的结果(例如,作者,程序员,摄影师等)。除了创作者外,其他人可以对这些创作(例如,书籍,代码,照片等)进行何种使用,属于知识产权法的范畴。
11.2.1 知识产权法
使用版权作品有两种方式:获取许可或依赖公平使用条款。
11.2.2 许可
许可(来自合同法)是由许可人授予许可使用者的。
11.2.3 公平使用(第107条)
自1840年代以来,公平使用一直是普通法。决定是否适用公平使用的四个因素是:
- 使用的目的和性质(教育用途优于商业用途,转型用途优于复制);
- 版权作品的性质(虚构作品优于事实作品,创新性的程度);
- 使用的原作部分的数量和实质性;和
- 使用对原作市场(或潜在市场)的影响。
注意:事实和想法不受版权保护。如果策划/安排被视为表达,事实数据库可以受版权保护。复制数据(训练的第一步)就已经是侵权,即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元(版权法第504条)。
11.3 案例研究
接下来,我们将回顾一些已经裁定公平使用或反对公平使用的案件。
11.3.1 作家协会诉Google
Google Book Search扫描了印刷书籍并使其在线可搜索(显示片段),始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年,地区法院判定Google公平使用。
11.3.2 Google诉Oracle
Google在Android操作系统中复制了Oracle(原Sun Microsystems)所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月,最高法院裁定Google的使用Java API属于公平使用。
11.4 公平学习与机器学习
公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的,它不会改变作品,但会改变目的。机器学习系统对想法感兴趣,而不是具体的表达。
对于将机器学习视为公平使用的论据:训练数据的广泛访问会为社会创造更好的系统。如果不允许使用,那么大部分作品无法用来产生新
的价值。使用版权数据可能更公平。
反对将机器学习视为公平使用的论据:认为机器学习系统不会产生创意的“最终产品”,而只是赚钱。生成模型(例如,语言模型)可以与创意专业人士竞争。机器学习系统的问题(传播假信息,实现监控等),因此不应该给予机器学习系统利益的怀疑。
在版权法下,很难分离可保护的(例如,表达)和不可保护的(例如,想法)。虽然构建机器学习系统可能有很多原因不妥,但版权是阻止它的正确工具吗?对于训练大型语言模型是否属于公平使用的问题正在迅速发展。
11.5 阶段性结论
查看信息技术的历史,我们可以看到三个阶段:
- 第一阶段:文本数据挖掘(搜索引擎),基于简单的模式匹配。
- 第二阶段:分类(例如,分类停止标志或情感分析),推荐系统。
- 第三阶段:学习模仿表达的生成模型。
上次,我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特,那么这对公平使用来说是有问题的。然而,即使语言模型不直接生成以前的作品,版权仍然相关,因为以前的受版权保护的作品被用来训练语言模型。
事实上,语言模型可以与作家竞争。例如,作家写了3本书,语言模型在这3本书上进行训练,并自动生成第4本。
因此,面对大型语言模型,版权和机器学习的未来还未知。
11.6 隐私法律教程
在本教程中,我们将简要讨论一些隐私法律的例子,包括Clearview AI、加利福尼亚消费者隐私法案(2018)、加利福尼亚隐私权法案(2020)以及欧盟的一般数据保护条例(GDPR)。
11.6.1 Clearview AI
Clearview AI是一家成立于2017年的公司。2019年,纽约时报曝光了它。到2021年10月,该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构(例如,FBI)和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私,该公司已被起诉。
11.6.2 伊利诺伊州生物识别信息隐私法(2008)
这项法律通过私人实体对生物识别标识符进行监管(不包括政府实体)。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构(DPA)认为该行为违法。
11.6.3 加利福尼亚消费者隐私法案(2018)
这项法案赋予加利福尼亚居民以下权利:
- 了解收集他们的哪些个人数据。
- 了解他们的个人数据是否被出售或公开,以及给了谁。
- 拒绝个人数据的销售。
- 访问他们的个人数据。
- 请求业务删除从消费者处收集的任何个人信息。
- 不因行使他们的隐私权利而被歧视。
个人数据包括:真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。
该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同,这项法律不允许用户更正数据。
11.6.4 加利福尼亚隐私权法案(2020)
这项法案创立了加利福尼亚隐私保护机构,将于2023年1月1日生效,适用于2022年1月1日之后收集的数据。
11.6.4.1 意图
- 了解谁在收集他们及其孩子的个人信息,如何使用,以及向谁公开。
- 控制他们个人信息的使用,包括
- 限制他们敏感个人信息的使用。
- 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
- 通过易于获取的自助工具行使他们的隐私权利。
- 行使他们的隐私权利而不受罚款。
- 将未采取合理信息安全预防措施的企业追究责任。
- 从企业使用他们的个人信息中受益。
- 作为员工和独立承包商也能保护他们的隐私利益。
11.7 GDPR(欧盟一般数据保护条例)
该规定是欧盟法律关于数据隐私的一部分,于2016年通过,2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据,并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意,Google被罚款5700万美元。
11.8 其他法律
11.8.1 加利福尼亚的机器人披露法案:
如果使用机器人与人进行通信,而不披露它是一个机器人,这是违法的。限制:只适用于激励销售或影响选举投票的情况。限制:只适用于每月在美国有1000万访问者的公开网站。
11.9 总结
比如大模型的训练、数据的收集和使用等都需要考虑到法律的问题,法律如同一个现存的事物,用哲学的角度来说就是一个无限发展过程中的一个点,因此需要不断完善和发展,这种发展是随着法律制定者的认识而不断进行的。
声明:以上内容部分节选自Datawhale课程内容,加入了一定的博主本人的理解。如有侵权,联系立删!
觉得有用的话给个一键三连哦,欢迎关注无神一起学AI。