Datawhale 组队学习之大模型理论基础Task9 大模型法律

news2024/9/22 19:25:42

第11章 大模型法律

11.1 简介

此内容主要探讨法律对大型语言模型的开发和部署有何规定。

先看看法律的特点:

法律就如我国法律教材所给出的一样,有依靠国家强制力保证实施的特点。

而法律在大模型中也是不可或缺的,缺少了法律的约束,一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。

11.2 版权法

大型语言模型或任何机器学习模型,都是基于数据进行训练的,而这些数据是人类劳动的结果(例如,作者,程序员,摄影师等)。除了创作者外,其他人可以对这些创作(例如,书籍,代码,照片等)进行何种使用,属于知识产权法的范畴。

11.2.1 知识产权法

使用版权作品有两种方式:获取许可或依赖公平使用条款。

11.2.2 许可

许可(来自合同法)是由许可人授予许可使用者的。

11.2.3 公平使用(第107条)

自1840年代以来,公平使用一直是普通法。决定是否适用公平使用的四个因素是:

  1. 使用的目的和性质(教育用途优于商业用途,转型用途优于复制);
  2. 版权作品的性质(虚构作品优于事实作品,创新性的程度);
  3. 使用的原作部分的数量和实质性;和
  4. 使用对原作市场(或潜在市场)的影响。

注意:事实和想法不受版权保护。如果策划/安排被视为表达,事实数据库可以受版权保护。复制数据(训练的第一步)就已经是侵权,即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元(版权法第504条)。

11.3 案例研究

接下来,我们将回顾一些已经裁定公平使用或反对公平使用的案件。

11.3.1 作家协会诉Google

Google Book Search扫描了印刷书籍并使其在线可搜索(显示片段),始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年,地区法院判定Google公平使用。

11.3.2 Google诉Oracle

Google在Android操作系统中复制了Oracle(原Sun Microsystems)所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月,最高法院裁定Google的使用Java API属于公平使用。

11.4 公平学习与机器学习

公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的,它不会改变作品,但会改变目的。机器学习系统对想法感兴趣,而不是具体的表达。

对于将机器学习视为公平使用的论据:训练数据的广泛访问会为社会创造更好的系统。如果不允许使用,那么大部分作品无法用来产生新

的价值。使用版权数据可能更公平。

反对将机器学习视为公平使用的论据:认为机器学习系统不会产生创意的“最终产品”,而只是赚钱。生成模型(例如,语言模型)可以与创意专业人士竞争。机器学习系统的问题(传播假信息,实现监控等),因此不应该给予机器学习系统利益的怀疑。

在版权法下,很难分离可保护的(例如,表达)和不可保护的(例如,想法)。虽然构建机器学习系统可能有很多原因不妥,但版权是阻止它的正确工具吗?对于训练大型语言模型是否属于公平使用的问题正在迅速发展。

11.5 阶段性结论

查看信息技术的历史,我们可以看到三个阶段:

  1. 第一阶段:文本数据挖掘(搜索引擎),基于简单的模式匹配。
  2. 第二阶段:分类(例如,分类停止标志或情感分析),推荐系统。
  3. 第三阶段:学习模仿表达的生成模型。

上次,我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特,那么这对公平使用来说是有问题的。然而,即使语言模型不直接生成以前的作品,版权仍然相关,因为以前的受版权保护的作品被用来训练语言模型。

事实上,语言模型可以与作家竞争。例如,作家写了3本书,语言模型在这3本书上进行训练,并自动生成第4本。

因此,面对大型语言模型,版权和机器学习的未来还未知。

11.6 隐私法律教程

在本教程中,我们将简要讨论一些隐私法律的例子,包括Clearview AI、加利福尼亚消费者隐私法案(2018)、加利福尼亚隐私权法案(2020)以及欧盟的一般数据保护条例(GDPR)。

11.6.1 Clearview AI

Clearview AI是一家成立于2017年的公司。2019年,纽约时报曝光了它。到2021年10月,该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构(例如,FBI)和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私,该公司已被起诉。

11.6.2 伊利诺伊州生物识别信息隐私法(2008)

这项法律通过私人实体对生物识别标识符进行监管(不包括政府实体)。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构(DPA)认为该行为违法。

11.6.3 加利福尼亚消费者隐私法案(2018)

这项法案赋予加利福尼亚居民以下权利:

  • 了解收集他们的哪些个人数据。
  • 了解他们的个人数据是否被出售或公开,以及给了谁。
  • 拒绝个人数据的销售。
  • 访问他们的个人数据。
  • 请求业务删除从消费者处收集的任何个人信息。
  • 不因行使他们的隐私权利而被歧视。

个人数据包括:真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。

该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同,这项法律不允许用户更正数据。

11.6.4 加利福尼亚隐私权法案(2020)

这项法案创立了加利福尼亚隐私保护机构,将于2023年1月1日生效,适用于2022年1月1日之后收集的数据。

11.6.4.1 意图
  • 了解谁在收集他们及其孩子的个人信息,如何使用,以及向谁公开。
  • 控制他们个人信息的使用,包括
    • 限制他们敏感个人信息的使用。
    • 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
    • 通过易于获取的自助工具行使他们的隐私权利。
    • 行使他们的隐私权利而不受罚款。
    • 将未采取合理信息安全预防措施的企业追究责任。
    • 从企业使用他们的个人信息中受益。
    • 作为员工和独立承包商也能保护他们的隐私利益。

11.7 GDPR(欧盟一般数据保护条例)

该规定是欧盟法律关于数据隐私的一部分,于2016年通过,2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据,并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意,Google被罚款5700万美元。

11.8 其他法律

11.8.1 加利福尼亚的机器人披露法案:

如果使用机器人与人进行通信,而不披露它是一个机器人,这是违法的。限制:只适用于激励销售或影响选举投票的情况。限制:只适用于每月在美国有1000万访问者的公开网站。

11.9 总结

比如大模型的训练、数据的收集和使用等都需要考虑到法律的问题,法律如同一个现存的事物,用哲学的角度来说就是一个无限发展过程中的一个点,因此需要不断完善和发展,这种发展是随着法律制定者的认识而不断进行的。

声明:以上内容部分节选自Datawhale课程内容,加入了一定的博主本人的理解。如有侵权,联系立删!

觉得有用的话给个一键三连哦,欢迎关注无神一起学AI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1421380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【复现】Ivanti Connect Secure命令注入漏洞(CVE-2024-21887)_33

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 Ivanti Connect Secure(9.x、22.x)和 Ivanti Policy Secure(9.x、22.x)的 Web 组件…

java8 Duration类学习

Duration类 官网地址 基于时间的时间量,例如“34.5秒”。 此类以秒和纳秒为单位对时间的量或量进行建模。它可以使用其他基于持续时间的单位访问,如分钟和小时。此外,可以使用DAYS单位,并将其视为完全等于24小时,从…

如何利用故障根因分析快速定位故障原因?

「 背 景 」 众所周知,变更是线上环境不稳定的⾸要因素,有研究表明,线上70%的故障都是由某种变更⽽触发的。因此,当⽣产环境发⽣故障产⽣告警时,管理员第⼀直觉是怀疑近期是否发⽣过变更。此时,我们往往需…

Linux ---- Shell编程之正则表达式

一、正则表达式 ​ 由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用…

C++ 数论相关题目 博弈论:拆分-Nim游戏

给定 n 堆石子,两位玩家轮流操作,每次操作可以取走其中的一堆石子,然后放入两堆规模更小的石子(新堆规模可以为 0 ,且两个新堆的石子总数可以大于取走的那堆石子数),最后无法进行操作的人视为失…

如何在win系统部署Apache服务并实现无公网ip远程访问

文章目录 前言1.Apache服务安装配置1.1 进入官网下载安装包1.2 Apache服务配置 2.安装cpolar内网穿透2.1 注册cpolar账号2.2 下载cpolar客户端 3. 获取远程桌面公网地址3.1 登录cpolar web ui管理界面3.2 创建公网地址 4. 固定公网地址 前言 Apache作为全球使用较高的Web服务器…

MySQL解决 恢复从备份点到灾难点之间数据(不收藏找不到了)

CSDN 成就一亿技术人! 今天分享一期 mysql中 备份之后发生灾难造成数据丢失 那么如何恢复中间的数据呢? 数据库数据高于一切(任何数据是不能丢失的) CSDN 成就一亿技术人! 目录 1.准备测试数据库 2.备份数据库 观…

CCF-CSP 202312-1 仓库规划(Java、C++、Python)

文章目录 仓库规划问题描述输入格式输出格式样例输入样例输出子任务 满分代码JavaCPython 仓库规划 问题描述 西西艾弗岛上共有 n n n 个仓库, 依次编号为 1 ⋯ n 1 \cdots n 1⋯n 。每个仓库均有一个 m m m 维向量的位置编码, 用来表示仓库间的物流运转关系。 具体来说,…

机器学习 | 掌握 K-近邻算法 的理论实现和调优技巧

目录 初识K-近邻算法 距离度量 K值选择 kd树 数据集划分 特征预处理 莺尾花种类预测(实操) 交叉验证与网格搜索 初识K-近邻算法 K-近邻算法(K-Nearest Neighbor,KNN)是一种基本的分类和回归算法。它的基本思想是通过找出与新对象最近…

git远程仓库基本操作

目录 gitremote (查看远程仓库) git remote add [仓库名] [url] git clone [url](克隆远程仓库到本地) git push [名][分支名](提交到远程仓库)​编辑 git pull [名][分支名]从远程仓库拉取​编辑 注意操作…

SpringBoot拉取高德行政区域数据

SpringBoot拉取高德行政区域数据 一、账号申请 1.整体流程 行政区域文档:https://lbs.amap.com/api/webservice/guide/api/district 整体流程可参考:https://lbs.amap.com/api/webservice/guide/create-project/get-key 2.注册账号 注册地址&#…

js padEnd方法介绍笔记

padEnd() 是 JavaScript 字符串的方法之一,它用于在当前字符串的末尾添加指定数量的字符,直到字符串达到指定的长度。 padEnd() 方法接受两个参数: 目标长度和要添加的填充字符。 如果当前字符串的长度已经等于或超过目标长度,则不…

你应该仅仅把useMemo作为性能优化的手段

文章概叙 本文主要通过几个简单的例子,讲解下useMemo这个hook,给诸君参考,也是给我自己做一个记录 关于useMemo useMemo是一个React Hook,它在每次重新渲染的时候能够缓存计算的结果。 相比于其他很常用的hook,如u…

LPC804开发(7.SPI使用)

1.前言 原本说写ADC,但是考虑到6已经给了串口,算了算了,还是把SPI和IIC放到7和8吧。整体用下来感觉NXP的协议比ST和TI开发的完善的,都可以走硬件,比较完善的底层开发,没有硬伤,那么接下来我们来…

教你一招轻松把模糊的照片变高清

亲爱的朋友们,你们是否也曾经遇到过这样的问题——精心拍摄的照片或珍藏已久的图片突然变得模糊不清,让人心情郁闷?别担心,我发现了解决这个问题的秘诀!借助一些专业的图片修复工具,那些模糊的瞬间可以重新…

react实现滚动到顶部组件

新建ScrollToTop.js import React, { useState, useEffect } from react; import ./ScrollToTop.css;function ScrollToTop() {const [isVisible, setIsVisible] useState(true);// Show button when page is scorlled upto given distanceconst toggleVisibility () > {…

一分钟在SpringBoot项目中使用EMQ

先展示最终的结果: 生产者端: RestController RequiredArgsConstructor public class TestController {private final MqttProducer mqttProducer;GetMapping("/test")public String test() {User build User.builder().age(100).sex(1).address("世界潍坊渤…

Wireshark网络协议分析 - UDP协议

在我的博客阅读本文 文章目录 1. 基础2. 实战2.1. 用Go写一个简单的UDP服务器与客户端2.2. Wireshark抓包分析 3. UDP与TCP的区别4. 参考资料 1. 基础 UDP包的数据结构: 2. 实战 2.1. 用Go写一个简单的UDP服务器与客户端 我们这里使用Golang写了一个简单的9830端…

docker由浅入深

一、什么是docker docker 顾名思义就是轮船的意思,轮船我们知道是通过集装箱运载货物的东西,那么docker其实也是类似的东西,只是装载的是虚拟的运行程序罢了。其中集装箱在docker里面被称为container(后面以容器称之)…

林浩然的Python奇遇记:从小白到科学界的编程魔法师

林浩然的Python奇遇记:从小白到科学界的编程魔法师 Lin Haoran’s Python Adventure: From Novice to Programming Sorcerer in the Scientific Realm 在那个平凡的午后,我们的主角林浩然——一个对编程一窍不通但对世界充满好奇的物理学大二学生&#x…