社交平台 Reddit 近日对 Perplexity AI 提起诉讼,指控其在“工业规模”范围内盗用用户数据。Reddit 表示,Perplexity 及其合作伙伴未经许可收集平台内容,用于训练人工智能系统,此举侵犯了用户隐私和知识产权。随着 AI 技术快速发展,这起案件不仅引发加密社区和科技界关注,也再次将数据合规、用户权益保护与人工智能训练伦理推向风口浪尖,可能成为未来数字平台与 AI 公司博弈的重要案例。
简而言之
● 社交媒体平台Reddit起诉了Perplexity AI,指控该公司采取“工业规模”的计划来抓取其用户生成的内容。
● Reddit声称,数十亿个搜索页面是通过绕过其和谷歌保护措施的工具抓取的。
● 该诉讼将Perplexity、SerpApi、Oxylabs和AWM Proxy列为被告。
社交媒体平台Reddit周三在联邦法院起诉Perplexity AI,指控该人工智能公司及其数据合作伙伴策划了一项“工业规模”计划来抓取该平台的用户生成内容。
Reddit声称其他被告:SerpApi、Oxylabs和AWM Proxy开发并销售专门用于破坏保护其内容的安全措施的工具,从而能够从搜索结果中大规模抓取Reddit数据。
据称,这些工具的目的是绕过两层保护:首先,逃避Reddit自己的反抓取系统;其次,绕过谷歌的控制,直接从其搜索引擎结果中提取Reddit内容。
诉讼副本写道,这些数据公司以“数据抓取服务提供商”的身份运营,“规避了谷歌的技术控制措施,未经授权自动访问了近30亿个搜索引擎结果页面”。
Reddit声称,即使在2024年5月收到停止侵权函后,Perplexity仍将这三家公司的数据用于其答案引擎。
Perplexity的一位代表做出了回应,并在Reddit上分享了完整的回复。
Perplexity故意在Reddit上发布其回应“以说明一个简单的观点:这是一个任何人都可以访问的公共Reddit链接,但根据Reddit诉讼的逻辑,如果你以任何方式引用它,他们也可能会起诉你,”该代表告诉Decrypt。
Perplexity将这起诉讼描述为“当公共数据成为上市公司商业模式的重要组成部分时会发生的悲惨例子”。
“Reddit认为这是他们的权利。但这与开放的互联网背道而驰,”Perplexity表示。
SerpApi的一位代表告诉Decrypt,他们没有收到有关此事的“Reddit的任何通信或服务”,并补充说他们“强烈反对Reddit的指控”并打算寻求法律途径。
Oxylabs首席治理和战略官Denas Grybauskas在一封电子邮件声明中告诉Decrypt:“任何公司都不应声称拥有不属于自己的公共数据。这可能只是为了以高价出售相同的公共数据。”
格里包斯卡斯表示,Reddit同样“没有尝试与Oxylabs对话”。
Decrypt已联系Reddit、Google和AWM Proxy征求意见,如果他们做出回应,将会更新本文。
法律纠纷
公共事务律师兼视频搜索和内容智能平台Oriane战略合作伙伴总监Andrew Rossow告诉Decrypt,在这种情况下,法院需要首先查看Reddit等平台的服务条款是否“明确涉及人工智能训练、数据抓取和商业用途”。
罗索解释说,如果用户同意“授予平台对其内容的广泛、永久、免版税许可”的条款,该许可“通常会管理用户与平台之间的关系”。
但他补充说,它不会“自动授予人工智能公司许可”来做同样的事情,除非条款允许该平台“为此目的再授权或出售数据”。
他解释说,法院必须“区分用户对其表达(帖子文本)的版权和对内容进行数据挖掘(提取模式、事实和语言模型)的用途”。
尽管如此,罗索认为,LLM(大语言模型)背后的所谓“知识”是“数百万用户的时间、精力和创造性表达的产物”。
Rossow认为:“将人类生成的内容视为免费、原始、无差别的资源是一种劳动剥削,会贬低在线贡献的价值。”他补充说,人工智能公司需要“尊重数字公民身份和社区规范”,因为这些是“他们所摄取的数字公共空间的隐性和显性规则”。