如何思考生成式人工智能著作权案件中的救济问题
迄今为止,在16起指控OpenAI和其他生成人工智能(AI)技术开发商侵犯版权的诉讼中,最引人注目的指控是,为了训练生成人工智能模型而复制受版权保护的作品侵犯了版权。
一些评论员相信,这些训练数据声明肯定是赢家;其他人同样确信使用作品来训练基础模型是合理使用,特别是如果数据集由开放互联网上发现的作品的数字副本组成。法院可能需要数年时间才能在这些诉讼中对这些和其他索赔作出裁决。
但假设至少有一个原告成功地提出了训练数据版权索赔。然后会发生什么?到目前为止,评论员们几乎没有注意到在生成人工智能版权投诉中寻求的补救措施。这篇《法律讲话》专栏将为你揭开他们的秘密。
实际上,所有的投诉都要求赔偿实际损害赔偿金、分配侵权利润、判决前利息、律师费和诉讼费。大多数人要求禁令救济和法院认为公正的任何其他救济。在这些方面,抱怨是很正常的。
但有三种类型的救济请求值得特别注意:法定损害赔偿请求;法院命令销毁受过侵权作品训练的模特儿;最奇怪的是,法院命令建立一个监管制度来监督生成式人工智能系统的运作。
法定损害赔偿的两种类型
大多数生成式人工智能版权投诉包括对法定损害赔偿的索赔。根据美国法律,这种赔偿是对侵犯版权的实际损害赔偿和利润赔偿的替代救济。
版权所有人通常喜欢要求法定损害赔偿,因为这些损害赔偿不必与侵权造成的实际损害或利润的大小挂钩。在版权案件中,这种类型的裁决最初的理由是,当证明他们因侵权而遭受的实际损害过于困难或昂贵时,允许权利人获得一些赔偿。法院有时判决法定损害赔偿近似于实际损害赔偿。当侵权行为是不计后果或故意的,赔偿额可能会合理地设定为实际损害赔偿的适度倍数。但是相关法规并不要求这样的约束。
在生成式人工智能投诉中,两种类型的法定损害索赔是显而易见的。一种类型是用于错误地删除或更改作为训练数据的作品副本中的版权管理信息(CMI)。(也就是说,在收集或管理数据集或训练模型的过程中,最初附加到训练数据集中作品的CMI可能不再与训练模型中的那些作品相关联。)第二种类型的法定损害索赔是针对版权侵权的。一些生成式人工智能投诉要求两种法定损害赔偿,而另一些则只要求一种法定损害赔偿。
美国最高法院裁定,版权诉讼当事人享有宪法赋予的权利,有权由陪审团决定应判给的法定损害赔偿金额。
法定损害赔偿
违反CMI规则的法定损害赔偿范围从每次违规2500美元起,每次违规最高可达25000美元。h(法规中没有标准来指导在该范围内应授予何种损害赔偿金额。)CMI原告不需要向美国版权局登记他们的版权主张,就有资格获得CMI法定损害赔偿。
大多数生成式人工智能投诉都没有估计原告所寻求的CMI法定损害赔偿金额。一个例外是Doe对GitHub的投诉。它声称代码补全工具Copilot违反了CMI规则,因为它在向用户推荐有用的计算机代码时没有遵守开源许可归属要求。copilot是GitHub和OpenAI的合资企业,它借鉴了Codex,后者是OpenAI的大型语言模型(LLM),经过50亿行开源软件代码的训练。(同样是被告的还有GitHub的母公司微软,该公司对OpenAI进行了大量投资。)
以下是GitHub投诉对CMI法定损害赔偿的解释:
原告估计,仅被告直接违反[CMI规则]的法定损害赔偿就将超过90亿美元。这一数字代表了微软在2022年6月报告的120万副驾驶用户中每人三次遭受的最低法定损害赔偿(2500美元)。每次Copilot提供非法输出,即违反[CMI规则]三次(分发许可材料时没有:归属、版权声明和许可条款)。因此,如果每个用户在使用Copilot的过程中(最早的用户最多15个月)只收到一次违反[CMI规则]的输出,那么GitHub和OpenAI已经违反了[CMI规则]360万次。按每次违规最低2500美元的法定损害赔偿计算,相当于90亿美元。
这类违反CMI的指控是否最终会成功是值得怀疑的。所有三位考虑过在生成人工智能案件中驳回CMI索赔动议的法官都驳回了这些动议,包括GitHub案件中的法官,尽管他们有权修改。仅仅删除或修改CMI本身并不违反这些规则。删除或修改必须“诱导、允许、便利或隐瞒”侵犯版权构成侵权。
1998年,国会将违反CMI的法定损害赔偿范围定得相当高(最低2500美元),因为它担心篡改CMI会使受保护作品的精确副本受到广泛侵犯。除非系统经过训练,否则生成式人工智能输出不太可能产生这种结果。目前部署的模型,如GPT4或Claude,很少产生作为输入的作品的精确副本的输出,甚至基本上与它们相似。然而,如果模型已经“记住”了该内容,那么有时有决心的用户可能会提示模型产生可能侵权的输出
版权法定损害赔偿
一些生成人工智能投诉要求对版权侵权进行法定损害赔偿。版权所有人必须在侵权行为开始前登记他们的版权主张,才有资格获得这些法定损害赔偿。三家人工智能原告——即《纽约时报》、康科德音乐公司和盖蒂图片社——只要他们定期注册他们的作品,就有资格获得这些损害赔偿。作家协会对OpenAI的集体诉讼将假定的类别限制为及时注册作品的作者。大多数集体诉讼的原告都不具备获得版权法定损害赔偿的资格,尽管有些人还是提出了索赔。
著作权法定损害的范围比CMI侵权更广。每件侵权作品的最低奖金为750美元,普通侵权作品的最低奖金为3万美元。然而,如果侵权行为是故意的,每件侵权作品最高可获得15万美元的赔偿。版权法提供的唯一指导是,这种裁决应该是“公正的”。
主张版权法定损害赔偿的生成式人工智能原告毫不奇怪地声称被告的侵权行为是“故意的”,从而宣布他们有权获得每件侵权作品的最高法定损害赔偿。
如果原告成功地声称将作品用作训练数据侵犯了版权,那么版权法定损害赔偿几乎肯定会大得惊人,因为可能有数百万件作品被用作训练数据。
在生成人工智能案例中,巨额的法定损害赔偿似乎很难证明是合理的,因为用于大多数生成人工智能系统的训练数据集主要来自开放互联网上的副本,尽管有时来自暗网。为模型训练目的而使用基于互联网的作品所造成的实际损害可能微乎其微或根本不存在,尽管生成式人工智能原告辩称,产出可能会减少对原件的需求。
然而,生成人工智能版权原告所要求的法定损害赔偿可能会使大多数生成人工智能公司破产,尽管可能不会像Alphabet、Meta和微软这样大的公司。这些公司也有能力支付相当可观的授权费用;许多初创公司和非营利性的生成式人工智能开发者可能做不到。
模型的破坏
在16起生成式人工智能版权投诉中,有4起明确要求法院命令生成式人工智能被告销毁根据其作品进行培训的模型。长期以来,美国版权法允许扣押和销毁侵权物品以及在制作侵权复制品过程中使用的材料。其他生成人工智能版权原告可能最终会修改他们的投诉,要求获得这种补救。或者他们可以要求扣押和销毁作为请求禁令的一部分。
《纽约时报》对OpenAI和微软的投诉在寻求破坏模型作为补救措施方面走得最远。它要求法院下令销毁“所有包含时报作品的GPT或其他法学硕士模型和训练集”,尽管OpenAI和微软是该诉讼中仅有的被告。然而,对这些被告来说,破坏模型的威胁是非常真实的。
《纽约时报》和其他模型破坏说法的一个潜在问题是,训练数据集与生成式人工智能模型是截然不同的实体。准备训练数据集的实体不一定与使用数据集训练模型的实体相同。(例如,Stability AI用于生成图像的Stable Diffusion模型是在德国非营利研究实体LAION准备的数据集上进行训练的。该数据集由指向互联网上图像的链接组成,而不是图像本身的副本。)
一旦模型被训练,训练过程中使用的数据集可能不再具有任何效用。或者数据集可能只用于再训练、微调或其他目的。由于训练过程改变了这些作品中的数据在模型中的表示方式,因此模型通常不包含来自对模型进行训练的版权作品的可识别表达式。
训练数据集和模型的独立存在意味着使用作品作为训练数据可能会侵犯版权,但模型可能不会。到目前为止,法院一直不愿意采用“毒树之果”理论来解释版权责任,当对受保护作品的预先使用侵犯了版权,但部分源于先前使用的后续产品却没有侵权。《纽约时报》和其他生成式人工智能版权案件的原告可能会试图说服法院采用这一理论,这样,受过侵权数据训练的模型开发者就不会因此而逃避责任。
生成式人工智能模型破坏声明的第二个问题与开源训练数据集和模型有关。例如,Stability AI在LAION的开源训练数据集上建立了Stable Diffusion的模型。它声称已经在互联网上广泛传播的开源软件中体现了稳定扩散。正因为如此,即使盖蒂说服法院下令销毁该模型,只要它是在盖蒂的图像上训练的,稳定可能无法销毁所有的稳定扩散模型的副本。虽然Stability不可能追踪到这个开源软件的每一个副本,但法院可以命令Stability销毁其拥有的Stable Diffusion的副本,并停止进一步使用Stable Diffusion。
生成式人工智能版权销毁请求的第三个问题是,扣押和销毁侵权材料是酌情采取的补救措施。也就是说,原告可以要求法院下令采取此类补救措施。然而,法院可以拒绝给予这些救济,就像他们有自由裁量权不对实际或可能侵权的调查结果发布禁令一样。
可能不利于发布此类命令的考虑因素包括训练数据集中存在非侵权材料,对训练模型的大量投资,以及此类命令对公众的负面影响。
新规定怎么样?
由几位匿名的集体代表提起的针对Alphabet的集体诉讼,包含了16起投诉中最新颖的补救请求。
以下是本投诉的前三项补救要求:
1.建立一个由思想领袖组成的独立机构(“AI委员会”),负责在产品被部署用于上述用途之前(而不是之后)批准产品的使用;
2.实施问责协议,要求被告对产品的行为和产出负责,并禁止被告在产品没有能力遵循类似人类的道德原则和指导准则以及尊重人类价值和权利的情况下进行进一步的商业部署,直到原告和集体成员就产品所依赖的被盗数据获得公平赔偿为止;[和]
3.实施AI委员会确定的产品的有效网络安全保障措施,包括充分的协议和实践,以保护通过用户在产品中输入该等信息以及通过被告的大规模网络抓取收集的用户个人信息,并符合行业标准、适用法规以及联邦、州和/或地方法律
该诉状还要求法院命令Alphabet设立一个货币基金,以补偿集体成员过去和正在进行的不当行为,“由产品总收入的一定比例提供资金”,由法院指定的官员管理。
对于这个请求,我只能说:“祝你好运。”应该由立法机构来建立针对Alphabet的投诉所提议的那种监管机制。
结论
除了一起以外,所有关于人工智能的版权诉讼都可能需要数年才能最终解决。然而,汤森路透(Thomson Reuters)起诉罗斯情报公司(Ross Intelligence)使用Westlaw的标题作为罗斯生成式人工智能系统的训练数据,用于分析法律问题,该诉讼定于2024年8月底开庭审理。罗斯声称,它只是合理地使用了标题。初审法院驳回了当事人要求即决判决的交叉动议,认为侵权和合理使用主张存在可审判的事实问题。
汤森路透(Thomson Reuters)是生成式人工智能(generative AI)的原告之一,他们要求法院下令销毁基于侵权数据训练的生成式人工智能模型。因此,我们可能会在一年内知道法院在生成人工智能案件中对此类补救请求的接受程度。(我觉得罗斯的合理使用辩护很有说服力。如果罗斯获胜,我们对生成式人工智能案例可能采取的补救措施的了解将不会比今天多。)
没有一项关于生成式人工智能版权的投诉明确要求法院命令生成式人工智能开发者从版权清算中心(copyright Clearance Center)等收集机构获得许可,允许他们使用有版权的作品作为训练数据,并为过去和未来使用有版权的作品来训练人工智能模型提供补偿。
美国作家协会(Authors Guild)是一起集体诉讼的主要原告,它支持采用集体许可的方式,授权将有版权的作品作为训练数据使用。由于没有任何现有的版权收集协会获得所有受影响的版权所有者的许可来授予这种集体许可,因此法院的这种命令似乎是不合适的。
2023年8月下旬,美国版权局发布了一份询问通知,征求意见,其中包括是否应该建议国会为生成式人工智能的培训和部署建立一个集体许可制度。它关于这个和其他生成人工智能版权相关问题的报告可能会在2024年下半年发布。
对于生成人工智能使用版权作品的集体许可制度是一个好主意(如一些人所认为的)还是一个坏主意(如其他人所认为的),这取决于个人的观点。正确处理经济问题绝非易事。生成人工智能诉讼的结果可能会影响关于生成人工智能版权问题的立法(如果有的话)最终被提出和颁布。