AI专家被指在法庭文件中引用虚假学术文章
亚马逊支持的Anthropic公司的一位AI专家被指控在法庭文件中引用了一篇伪造的学术文章,该文件旨在为公司辩护,反驳其未经许可使用受版权保护的歌词训练AI模型的指控。
该文件由Anthropic数据科学家Olivia Chen提交,是公司对环球音乐集团、Concord、ABKCO等主要出版商提起的7500万美元诉讼的法律回应的一部分。出版商在2023年的诉讼中指控Anthropic非法使用了包括碧昂斯、滚石乐队和海滩男孩在内的数百首歌曲的歌词来训练其Claude语言模型。
据路透社报道,Chen的声明中引用了《美国统计学家》的一篇文章,旨在支持Anthropic的论点,即Claude仅在罕见和特定条件下复制受版权保护的歌词。在圣何塞的听证会上,原告律师Matt Oppenheim称该引用为“完全捏造”,但他表示不相信Chen是故意编造的,而是可能使用了Claude本身来生成该来源。
Anthropic的律师Sy Damle告诉法庭,Chen的错误似乎是引用错误,而非捏造,同时批评原告在诉讼后期才提出这一问题。美国地方法官Susan van Keulen表示,这一问题引发了“非常严重和严肃”的担忧,并指出“引用错误与AI生成的幻觉之间存在天壤之别”。她拒绝了立即质询Chen的请求,但命令Anthropic在周四前正式回应这一指控。
Anthropic没有立即回应Decrypt的评论请求。针对Anthropic的诉讼于2023年10月提起,原告指控Anthropic的Claude模型在大量受版权保护的歌词上进行了训练,并按要求复制了这些歌词。他们要求赔偿、披露训练集并销毁侵权内容。
Anthropic在2024年1月回应,否认其系统设计用于输出受版权保护的歌词。它称任何此类复制为“罕见错误”,并指责出版商没有提供典型用户遇到侵权内容的证据。2024年8月,该公司再次被起诉,这次是作家Andrea Bartz、Charles Graeber和Kirk Wallace Johnson,他们指控Anthropic在盗版书籍上训练Claude。
此案是越来越多针对生成式AI公司的反弹的一部分,这些公司被指控未经同意将受版权保护的材料输入训练数据集。OpenAI正面临喜剧演员Sarah Silverman、作家协会和《纽约时报》的多起诉讼,指控该公司未经许可或授权使用受版权保护的书籍和文章来训练其GPT模型。Meta也卷入了类似的诉讼,原告指控其LLaMA模型在未经许可的文学作品上进行了训练,这些作品来自盗版数据集。
与此同时,今年3月,OpenAI和谷歌敦促特朗普政府放宽AI训练中的版权限制,称这些限制是创新的障碍,并在即将出台的美国“AI行动计划”正式提案中提出了这一要求。在英国,一项允许人工智能公司在未经许可的情况下使用受版权保护作品的政府法案本周遇到了障碍,上议院支持一项修正案,要求AI公司披露其模型中使用的受版权保护的材料。