如何思考生成式人工智能著作权案件中的救济问题

news2024/10/5 20:23:12

如何思考生成式人工智能著作权案件中的救济问题

在这里插入图片描述

迄今为止,在16起指控OpenAI和其他生成人工智能(AI)技术开发商侵犯版权的诉讼中,最引人注目的指控是,为了训练生成人工智能模型而复制受版权保护的作品侵犯了版权。

一些评论员相信,这些训练数据声明肯定是赢家;其他人同样确信使用作品来训练基础模型是合理使用,特别是如果数据集由开放互联网上发现的作品的数字副本组成。法院可能需要数年时间才能在这些诉讼中对这些和其他索赔作出裁决。

但假设至少有一个原告成功地提出了训练数据版权索赔。然后会发生什么?到目前为止,评论员们几乎没有注意到在生成人工智能版权投诉中寻求的补救措施。这篇《法律讲话》专栏将为你揭开他们的秘密。

实际上,所有的投诉都要求赔偿实际损害赔偿金、分配侵权利润、判决前利息、律师费和诉讼费。大多数人要求禁令救济和法院认为公正的任何其他救济。在这些方面,抱怨是很正常的。

但有三种类型的救济请求值得特别注意:法定损害赔偿请求;法院命令销毁受过侵权作品训练的模特儿;最奇怪的是,法院命令建立一个监管制度来监督生成式人工智能系统的运作。

法定损害赔偿的两种类型

大多数生成式人工智能版权投诉包括对法定损害赔偿的索赔。根据美国法律,这种赔偿是对侵犯版权的实际损害赔偿和利润赔偿的替代救济。

版权所有人通常喜欢要求法定损害赔偿,因为这些损害赔偿不必与侵权造成的实际损害或利润的大小挂钩。在版权案件中,这种类型的裁决最初的理由是,当证明他们因侵权而遭受的实际损害过于困难或昂贵时,允许权利人获得一些赔偿。法院有时判决法定损害赔偿近似于实际损害赔偿。当侵权行为是不计后果或故意的,赔偿额可能会合理地设定为实际损害赔偿的适度倍数。但是相关法规并不要求这样的约束。

在生成式人工智能投诉中,两种类型的法定损害索赔是显而易见的。一种类型是用于错误地删除或更改作为训练数据的作品副本中的版权管理信息(CMI)。(也就是说,在收集或管理数据集或训练模型的过程中,最初附加到训练数据集中作品的CMI可能不再与训练模型中的那些作品相关联。)第二种类型的法定损害索赔是针对版权侵权的。一些生成式人工智能投诉要求两种法定损害赔偿,而另一些则只要求一种法定损害赔偿。

美国最高法院裁定,版权诉讼当事人享有宪法赋予的权利,有权由陪审团决定应判给的法定损害赔偿金额。

法定损害赔偿

违反CMI规则的法定损害赔偿范围从每次违规2500美元起,每次违规最高可达25000美元。h(法规中没有标准来指导在该范围内应授予何种损害赔偿金额。)CMI原告不需要向美国版权局登记他们的版权主张,就有资格获得CMI法定损害赔偿。

大多数生成式人工智能投诉都没有估计原告所寻求的CMI法定损害赔偿金额。一个例外是Doe对GitHub的投诉。它声称代码补全工具Copilot违反了CMI规则,因为它在向用户推荐有用的计算机代码时没有遵守开源许可归属要求。copilot是GitHub和OpenAI的合资企业,它借鉴了Codex,后者是OpenAI的大型语言模型(LLM),经过50亿行开源软件代码的训练。(同样是被告的还有GitHub的母公司微软,该公司对OpenAI进行了大量投资。)

以下是GitHub投诉对CMI法定损害赔偿的解释:

原告估计,仅被告直接违反[CMI规则]的法定损害赔偿就将超过90亿美元。这一数字代表了微软在2022年6月报告的120万副驾驶用户中每人三次遭受的最低法定损害赔偿(2500美元)。每次Copilot提供非法输出,即违反[CMI规则]三次(分发许可材料时没有:归属、版权声明和许可条款)。因此,如果每个用户在使用Copilot的过程中(最早的用户最多15个月)只收到一次违反[CMI规则]的输出,那么GitHub和OpenAI已经违反了[CMI规则]360万次。按每次违规最低2500美元的法定损害赔偿计算,相当于90亿美元。

这类违反CMI的指控是否最终会成功是值得怀疑的。所有三位考虑过在生成人工智能案件中驳回CMI索赔动议的法官都驳回了这些动议,包括GitHub案件中的法官,尽管他们有权修改。仅仅删除或修改CMI本身并不违反这些规则。删除或修改必须“诱导、允许、便利或隐瞒”侵犯版权构成侵权。

1998年,国会将违反CMI的法定损害赔偿范围定得相当高(最低2500美元),因为它担心篡改CMI会使受保护作品的精确副本受到广泛侵犯。除非系统经过训练,否则生成式人工智能输出不太可能产生这种结果。目前部署的模型,如GPT4或Claude,很少产生作为输入的作品的精确副本的输出,甚至基本上与它们相似。然而,如果模型已经“记住”了该内容,那么有时有决心的用户可能会提示模型产生可能侵权的输出

版权法定损害赔偿

一些生成人工智能投诉要求对版权侵权进行法定损害赔偿。版权所有人必须在侵权行为开始前登记他们的版权主张,才有资格获得这些法定损害赔偿。三家人工智能原告——即《纽约时报》、康科德音乐公司和盖蒂图片社——只要他们定期注册他们的作品,就有资格获得这些损害赔偿。作家协会对OpenAI的集体诉讼将假定的类别限制为及时注册作品的作者。大多数集体诉讼的原告都不具备获得版权法定损害赔偿的资格,尽管有些人还是提出了索赔。

著作权法定损害的范围比CMI侵权更广。每件侵权作品的最低奖金为750美元,普通侵权作品的最低奖金为3万美元。然而,如果侵权行为是故意的,每件侵权作品最高可获得15万美元的赔偿。版权法提供的唯一指导是,这种裁决应该是“公正的”。

主张版权法定损害赔偿的生成式人工智能原告毫不奇怪地声称被告的侵权行为是“故意的”,从而宣布他们有权获得每件侵权作品的最高法定损害赔偿。

如果原告成功地声称将作品用作训练数据侵犯了版权,那么版权法定损害赔偿几乎肯定会大得惊人,因为可能有数百万件作品被用作训练数据。

在生成人工智能案例中,巨额的法定损害赔偿似乎很难证明是合理的,因为用于大多数生成人工智能系统的训练数据集主要来自开放互联网上的副本,尽管有时来自暗网。为模型训练目的而使用基于互联网的作品所造成的实际损害可能微乎其微或根本不存在,尽管生成式人工智能原告辩称,产出可能会减少对原件的需求。

然而,生成人工智能版权原告所要求的法定损害赔偿可能会使大多数生成人工智能公司破产,尽管可能不会像Alphabet、Meta和微软这样大的公司。这些公司也有能力支付相当可观的授权费用;许多初创公司和非营利性的生成式人工智能开发者可能做不到。

模型的破坏

在16起生成式人工智能版权投诉中,有4起明确要求法院命令生成式人工智能被告销毁根据其作品进行培训的模型。长期以来,美国版权法允许扣押和销毁侵权物品以及在制作侵权复制品过程中使用的材料。其他生成人工智能版权原告可能最终会修改他们的投诉,要求获得这种补救。或者他们可以要求扣押和销毁作为请求禁令的一部分。

《纽约时报》对OpenAI和微软的投诉在寻求破坏模型作为补救措施方面走得最远。它要求法院下令销毁“所有包含时报作品的GPT或其他法学硕士模型和训练集”,尽管OpenAI和微软是该诉讼中仅有的被告。然而,对这些被告来说,破坏模型的威胁是非常真实的。

《纽约时报》和其他模型破坏说法的一个潜在问题是,训练数据集与生成式人工智能模型是截然不同的实体。准备训练数据集的实体不一定与使用数据集训练模型的实体相同。(例如,Stability AI用于生成图像的Stable Diffusion模型是在德国非营利研究实体LAION准备的数据集上进行训练的。该数据集由指向互联网上图像的链接组成,而不是图像本身的副本。)

一旦模型被训练,训练过程中使用的数据集可能不再具有任何效用。或者数据集可能只用于再训练、微调或其他目的。由于训练过程改变了这些作品中的数据在模型中的表示方式,因此模型通常不包含来自对模型进行训练的版权作品的可识别表达式。

训练数据集和模型的独立存在意味着使用作品作为训练数据可能会侵犯版权,但模型可能不会。到目前为止,法院一直不愿意采用“毒树之果”理论来解释版权责任,当对受保护作品的预先使用侵犯了版权,但部分源于先前使用的后续产品却没有侵权。《纽约时报》和其他生成式人工智能版权案件的原告可能会试图说服法院采用这一理论,这样,受过侵权数据训练的模型开发者就不会因此而逃避责任。

生成式人工智能模型破坏声明的第二个问题与开源训练数据集和模型有关。例如,Stability AI在LAION的开源训练数据集上建立了Stable Diffusion的模型。它声称已经在互联网上广泛传播的开源软件中体现了稳定扩散。正因为如此,即使盖蒂说服法院下令销毁该模型,只要它是在盖蒂的图像上训练的,稳定可能无法销毁所有的稳定扩散模型的副本。虽然Stability不可能追踪到这个开源软件的每一个副本,但法院可以命令Stability销毁其拥有的Stable Diffusion的副本,并停止进一步使用Stable Diffusion。

生成式人工智能版权销毁请求的第三个问题是,扣押和销毁侵权材料是酌情采取的补救措施。也就是说,原告可以要求法院下令采取此类补救措施。然而,法院可以拒绝给予这些救济,就像他们有自由裁量权不对实际或可能侵权的调查结果发布禁令一样。

可能不利于发布此类命令的考虑因素包括训练数据集中存在非侵权材料,对训练模型的大量投资,以及此类命令对公众的负面影响。

新规定怎么样?

由几位匿名的集体代表提起的针对Alphabet的集体诉讼,包含了16起投诉中最新颖的补救请求。

以下是本投诉的前三项补救要求:

1.建立一个由思想领袖组成的独立机构(“AI委员会”),负责在产品被部署用于上述用途之前(而不是之后)批准产品的使用;

2.实施问责协议,要求被告对产品的行为和产出负责,并禁止被告在产品没有能力遵循类似人类的道德原则和指导准则以及尊重人类价值和权利的情况下进行进一步的商业部署,直到原告和集体成员就产品所依赖的被盗数据获得公平赔偿为止;[和]

3.实施AI委员会确定的产品的有效网络安全保障措施,包括充分的协议和实践,以保护通过用户在产品中输入该等信息以及通过被告的大规模网络抓取收集的用户个人信息,并符合行业标准、适用法规以及联邦、州和/或地方法律

该诉状还要求法院命令Alphabet设立一个货币基金,以补偿集体成员过去和正在进行的不当行为,“由产品总收入的一定比例提供资金”,由法院指定的官员管理。

对于这个请求,我只能说:“祝你好运。”应该由立法机构来建立针对Alphabet的投诉所提议的那种监管机制。

结论

除了一起以外,所有关于人工智能的版权诉讼都可能需要数年才能最终解决。然而,汤森路透(Thomson Reuters)起诉罗斯情报公司(Ross Intelligence)使用Westlaw的标题作为罗斯生成式人工智能系统的训练数据,用于分析法律问题,该诉讼定于2024年8月底开庭审理。罗斯声称,它只是合理地使用了标题。初审法院驳回了当事人要求即决判决的交叉动议,认为侵权和合理使用主张存在可审判的事实问题。

汤森路透(Thomson Reuters)是生成式人工智能(generative AI)的原告之一,他们要求法院下令销毁基于侵权数据训练的生成式人工智能模型。因此,我们可能会在一年内知道法院在生成人工智能案件中对此类补救请求的接受程度。(我觉得罗斯的合理使用辩护很有说服力。如果罗斯获胜,我们对生成式人工智能案例可能采取的补救措施的了解将不会比今天多。)

没有一项关于生成式人工智能版权的投诉明确要求法院命令生成式人工智能开发者从版权清算中心(copyright Clearance Center)等收集机构获得许可,允许他们使用有版权的作品作为训练数据,并为过去和未来使用有版权的作品来训练人工智能模型提供补偿。

美国作家协会(Authors Guild)是一起集体诉讼的主要原告,它支持采用集体许可的方式,授权将有版权的作品作为训练数据使用。由于没有任何现有的版权收集协会获得所有受影响的版权所有者的许可来授予这种集体许可,因此法院的这种命令似乎是不合适的。

2023年8月下旬,美国版权局发布了一份询问通知,征求意见,其中包括是否应该建议国会为生成式人工智能的培训和部署建立一个集体许可制度。它关于这个和其他生成人工智能版权相关问题的报告可能会在2024年下半年发布。

对于生成人工智能使用版权作品的集体许可制度是一个好主意(如一些人所认为的)还是一个坏主意(如其他人所认为的),这取决于个人的观点。正确处理经济问题绝非易事。生成人工智能诉讼的结果可能会影响关于生成人工智能版权问题的立法(如果有的话)最终被提出和颁布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

three.js纹理贴图褪色失真问题解决

网上查的都是加encoding配置,但是最新版本,纹理对象属性名.encoding已经变更为.colorSpace // 纹理贴图加载器 const texLoader new THREE.TextureLoader(); const texture texLoader.load("./test.jpg"); texture.colorSpace THREE.SRGBC…

1.动手学习深度学习课程安排及深度学习数学基础

视频资源B站:动手学习深度学习——李沐 目录 目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导 目标 介绍深度学习景点和最新模型 LeNet AlexNet VGG ResNet LSTM BERT… 机器学习基础 损失函数,目标函数&a…

设计师搞得表单页,差点让我看吐血,来教会你。

碰到字段比较多,数据类型也比较多的表单页,该怎么设计了? 设计一个字段非常多、类型很多的移动端表单页时,可以考虑以下几个方面来提高用户体验: 简化表单:将表单字段进行分类和分组,根据用户填…

把Vue文件转至树莓派上遇到的问题和解决方案

把整个文件夹复制进树莓派后,运行 npm run dev ,报错sh: 1: vite: Permission denied 解决方案:删除项目里的 node_modules 重新 npm install 再运行即可 rm -rf node_modules/ npm install 在安装过程中,遇到下图问题,vulnerabi…

【Java笔记】第11章:内部类

前言1. 讲解结语 上期回顾:【Java笔记】第10章:接口 个人主页:C_GUIQU 归属专栏:【Java学习】 前言 各位小伙伴大家好!上期小编给大家讲解了Java中的接口,接下来讲讲Java中的内部类! 1. 讲解 Java中的内…

【每日刷题】Day63

【每日刷题】Day63 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 414. 第三大的数 - 力扣(LeetCode) 2. 2265. 统计值等于子树平均值的节点数…

我国间二甲苯零售规模逐渐扩大 进口量有所下滑

我国间二甲苯零售规模逐渐扩大 进口量有所下滑 间二甲苯(MX)又称为1,3-二甲苯,是苯的两个氢基被两个甲基取代后形成的一种有机化合物。间二甲苯的化学方程式为C8H10,多表现为一种无色透明的液体,不溶于水,但…

人工智能的社会应用:深刻变革的新浪潮

人工智能的社会应用(语言文本方面) 人工智能在社会应用中的广泛运用体现在多个领域,特别是在语音和文本处理方面。以下是这些技术的一些扩展: 1. 文本翻译: 谷歌翻译:利用深度学习模型,支持100多…

ARM功耗管理框架之SCP

安全之安全(security)博客目录导读 目录 一、功耗管理框架中的SCP 二、SCP的示例 三、SCP固件 四、SCP启动流程 五、SCP的memory map 六、SCP与AP的通信 思考:功耗管理框架?SCP?PPU?LPI?之间的关系?如何配合? 一、功耗管理框架中的SCP 二、SCP的示例

【Python】使用OpenCV特征匹配检测图像中的【特定水印】

如果没有方向 往哪里走都是前方 做自己的光 不需要多亮 曾受过的伤 会长出翅膀 大雨冲刷过的天空会更加明亮 流过泪的眼睛也一样 做自己的光 悄悄的发亮 逆风的方向 更容易飞翔 世界怎样在于你凝视它的目光 那未曾谋面过的远方 或许就在身旁 &#x1f3b5…

Intel 8080接口与Motorola 6800接口定义与应用

本文介绍Intel 8080接口与Motorola 6800接口定义与应用。 Intel 8080接口与Motorola 6800接口是常用的并行总线接口,在MCU与外设直接的接口中经常用到,如MCU与LCD接口,MCU与FPGA之间的接口。本文介绍Intel 8080接口与Motorola 6800接口定义&…

Springboot的小型超市商品展销系统-计算机毕业设计源码01635

摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作…

通用大模型VS垂直大模型,相辅相成!

1.通用大模型: 如OpenAI的GPT系列、Google的PaLM等,因其广泛的训练数据来源和强大的泛化能力,展现出在多种任务和场景中的应用潜力。它们能够处理从文本生成、代码编写到语言翻译等多种复杂任务,适应性强,减少了针对单…

视频格式转换avi格式怎么弄?分享视频转换方法

视频格式转换avi格式怎么弄?AVI作为一种广泛支持的视频格式,能够在多种设备和播放器上顺畅播放,确保我们的视频内容能够无障碍地分享给朋友或上传至各大平台。其次,AVI格式通常具有较好的兼容性,能够避免格式转换过程中…

模拟信号转RS-485/232,数据采集A/D转换模块 YL21

特点: ● 模拟信号采集,隔离转换 RS-485/232输出 ● 采用12位AD转换器,测量精度优于0.1% ● 通过RS-485/232接口可以程控校准模块精度 ● 信号输入 / 输出之间隔离耐压3000VDC ● 宽电源供电范围:8 ~ 32VDC ● 可靠性高&…

CPN tools学习——可执行的 PN

目录 1添加令牌 2.转换防护Guard 1添加令牌 左侧新建颜色集和变量的声明定义: 为库所分配颜色集:左键tab键 P1处:添加多重集合,表示添加了两个令牌,第一个令牌值为A,第二个为B。 P2处:表示…

VMware清理拖拽缓存

磁盘空间越用越小,如何快速解决磁盘空间的问题,甩掉烦恼 安装VM tools之后可以通过拖拽的方式把文件拉入虚拟机之中。但每一次拖拽,其实都是现在cache文件夹里面生成一个同样的文件,并使用cp拷贝的方式将其拷贝到拖拽放置的目录中…

云平台DNS故障导致网站访问卡顿异常排查过程,wireshark、strace等工具在实际问题排查过程中的应用方法

一、问题现象 项目上使用华为私有云,前段时间华为升级云平台后,云上用户反馈业务系统出现卡顿,之前几秒可以刷新出来的页面现在需要几十秒。提供了一个比较明显的url和curl调用方法。 10.213.x.xxx:8082/files/login curl -H "Content-…

泰迪智能科技携手广西科技大学理学院共建“上进双创工作室”

6月12日,广东泰迪智能科技股份有限公司携手广西科技大学理学院在泰迪智能科技产教融合实训中心举行“上进双创工作室”签约揭牌仪式,标志“泰迪科技广西科大上进双创工作室”的正式启动。 仪式由泰迪智能科技运营中心总监翁梦婷主持。广西科技大学理学院…

使用 Elasticsearch 设计大规模向量搜索

作者:Jim Ferenczi 第 1 部分:高保真密集向量搜索 简介 在设计向量搜索体验时,可用选项的数量之多可能会让人感到不知所措。最初,管理少量向量很简单,但随着应用程序的扩展,这很快就会成为瓶颈。 在本系列…