“尽管制定了购买和使用个人信息的协议,但被告采取了不同的方法:窃取。”近日,一家律师事务所用一份长达157页的诉讼将OpenAI告到法庭,指控其在利润的驱使下,窃取大量个人信息来训练人工智能模型。
起诉书称,OpenAI对数据的抓取规模是前所未有的,该公司从互联网上窃取了约3000亿字的内容,其中包括书籍、文章、网站和帖子,甚至还包括未经同意的个人信息。这一数据窃取行为的受害人预计有数百万,潜在损失达30亿美元,违反了服务协议条款以及州和联邦的隐私和财产法。
“通过收集数百万人以前模糊的个人数据,并将其挪用,进而开发不稳定的、未经测试的技术,OpenAI将每个人置于不可估量的风险之中,但无论采取任何负责任的数据保护和使用措施,都是不可接受的。”该律师事务所的一位合伙人Timothy K.Giordano表示。
因此原告诉求则是,要求法院暂时冻结OpenAI产品的商业访问和进一步开发。包括允许人们选择退出数据收集,并防止其产品超越人类智能并对他人造成伤害。除了OpenAI,其背后的主要支持者微软也被列为被告。
OpenAI并不是唯一一家借助互联网获取大量数据来训练AI模型的公司,谷歌、Meta、微软和越来越多的其他公司都在做同样的事情。但该律师事务所的一位合伙人表示,他们之所以决定追击OpenAI,是因为去年OpenAI通过ChatGPT刺激了更大的竞争对手推出自己的人工智能产品,因此他们自然是第一目标。
随着以数据为基石的大模型百花齐放,数据安全问题正变得越来越重要。因此,OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中“偶然”包含的个人信息,可能是该起诉讼的争议焦点所在。
这波未平,那波又起。据路透社报道,又有两名作者在美国旧金山联邦法院起诉OpenAI,他们认为OpenAI滥用其作品来训练ChatGPT,在未经许可的情况下挖掘了数千本书的数据,侵犯了作者的版权。
公开资料显示,今年3月,在ChatGPT被接连发现意外泄露用户聊天记录后,意大利数据保护局于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。
今年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。一时之间,围绕OpenAI的训练数据问题不断被暴露。
以大模型原理构建的生成式人工智能产品,是算力与数据加持下的“暴力美学”,数据是门槛,语料库海量数据存在高度的数据合规风险,拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲。
然而,这并不是OpenAI这家公司、ChatGPT这个产品的个例,其暴露出的隐私泄露、存储敏感信息、未授权访问等数据安全问题是大模型产品落地应用后可能普遍面临的问题。自ChatGPT发布后,中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型,在接下来商用过程中如何做到数据合规,已经成为每一个产品需要面对的“必答题”。
总结
AI的浪潮不会停歇,如何掌好前行的船舵,在企业生存与合规生产间找到平衡向前,已经成为第四次工业革命下的时代命题。对于已经发布或即将发布基础大模型的企业来说,确保数据合规将成为他们必须应对的问题之一。