首页 > 新闻中心 > 环球报道

OpenAI回击《纽约时报》起诉，三点分歧浮现

作者: 21财经　日期:2024-01-10 10:02　阅读:0 　来源:21财经　

分享到：

邮箱：news@skykiwi.com

据21财经报道：“《纽约时报》没有讲述完整的故事。”当地时间1月8日，OpenAI在官网发布一篇声明，逐一回击了《纽约时报》最近提起的版权侵权诉讼。

《纽约时报》在去年12月起诉OpenAI及商业合作伙伴微软侵犯版权，指控它们在未经授权的情况下，使用数百万篇《纽约时报》的文章训练GPT大模型。

至此，双方的观点浮出水面，分歧围绕着三个关键词：抄袭、违法使用、删除训练数据。

1、抄袭

在12月的起诉中，《纽约时报》展示了一份引人注目的证据：大模型几乎能一字不差地输出《纽约时报》的报道原文。而且这一输出既没有引用链接，还删除了原文附加的返利链接，《纽约时报》认为直接影响了他们的流量和实际收入。

OpenAI则在声明中反驳，这种大模型“反刍”（Regurgitation）是罕见错误，除非用户故意诱导。

公司随后直接指出，《纽约时报》的证据来自已经在第三方网站流传多年的文章：“他们似乎故意操纵了提示——要么指使模型反刍，要么从多次尝试中精心挑选了示例”、“故意操纵我们的模型来反刍，不是对我们技术的适当使用，也违反了我们的使用条款。”

什么是大模型反刍？北京邮电大学模式识别与智能系统实验室的陈光解释，简单来说，反刍是让大模型复述训练语料的原文，其实这种情况很可能出现。

根据OpenAI的解释，他们在去年7月发现“浏览”功能可能让ChatGPT直接阅读并复述原文时，就下架了该功能。之后他们还采取了诸多技术措施，限制大模型反刍训练数据。

不过OpenAI没有具体说明，GPT模型抵挡“反刍”的能力有多强。最近学术杂志Ieee Spectrum上的一篇文章也质疑了OpenAI说法的可信度，这篇文章展示了在没有明确提示的情况下，包括 DALL-E 3在内的大模型可以反刍训练数据。

有趣的是，文章在开头就提到了《纽约时报》的版权诉讼。作者把这种几乎为逐字复述的输出叫“抄袭输出”，并认为它们有力证明了，即使没有直接指令，一部分大模型也可能产生“抄袭输出”，让用户面临版权侵权索赔。

陈光同样认为，不管有没有诱导，大模型技术上都有可能反刍，但反刍不能简单与法律意义上的抄袭划等号：“复述原文算抄袭，那写出和原文类似的内容算不算抄袭？用类似的文笔写出来的内容算不算抄袭？在AI内容生成领域，只有完全不把内容当做训练语料，才能避免这种嫌疑。”陈光告诉21记者。

2、合理使用

合理使用是AI版权问题的核心，它允许在特定情况下，使用作品不用征求版权人的许可。

《纽约时报》并不认可OpenAI构成合理使用。《纽约时报》的大部分报道需要付费阅读，在它看来，大模型在未经许可或授权的情况下使用文章，削弱了《纽约时报》与读者的关系，影响了订阅、许可、广告等实际收入。

“在不付费的情况下使用《纽约时报》的内容来替代它、抢走观众，这没有什么创新性而言。” 而且，“模型的输出与用于训练它们的输入竞争并密切模仿，因此为此目的复制《纽约时报》的作品并不属于合理使用。”《纽约时报》这样表示。

OpenAI自然不同意这一观点。公司在博文中重申，使用公开的互联网材料训练AI模型，这种合理使用长期存在并有广泛的先例支持。而且，公司去年向媒体提供了退出机制，爬虫已经不再抓取《纽约时报》的网页内容。

“合理使用的原则对创造者公平，对创新者必要，对美国竞争力至关重要。”OpenAI强调。公司最近也表达了类似观点，如果不使用受版权保护的内容，就不可能训练当今领先的人工智能模型。

在此前的采访中，浙江垦丁律师事务所主任律师张延来曾告诉21记者，结合美国关于合理使用的立法和司法实践，很难说OpenAI这次能得到司法支持。“除非美国司法完全站在推动人工智能技术发展的角度，做出突破性的认定。”

这似乎也是OpenAI的战略之一。

3、删除训练数据

综合以上提到的依据，《纽约时报》认为OpenAI和微软应该为非法使用，以及“价值数十亿美元的法定和实际损失”负责。此外，两家公司应该销毁任何使用到《纽约时报》版权材料的模型和训练数据。

删除版权材料显然不是OpenAI能接受的——删除训练数据，好比要从做好的蛋糕里分离出蛋黄和蛋清。不但实施成本高，还意味着几乎要重新训练。

OpenAI给出的回应是保持合作，具体方案包括在 ChatGPT 的实时内容中显示来源。不过这一解决方案似乎已经失败了，根据OpenAI的说法，他们在12月19日就这一问题跟《纽约时报》沟通，自认为取得了不小进展，但一周后被对方告上了法庭。而《纽约时报》也表示，他们花了几个月的时间谈判，但没有获得一个公平的条款。

作为参考，可以看看此前OpenAI与美联社、Politico 和 Business Insider等媒体签署的许可协议。据外媒the Information的消息，该公司支付给媒体的版权训练费每年在100-500万美元之间。OpenAI的年收入，据称在16亿美元左右。

目前尚不清楚OpenAI是否已在法庭上正式回应《纽约时报》的诉讼。毕竟对于OpenAI，这只是面临的一系列知识产权诉讼中的一起：1月5日，两位作家在一项集体诉讼中起诉OpenAI和微软，指控将他们的书用于训练大模型；去年9月，包括《权力的游戏》作者在内数十位作家也提起了版权诉讼。

不过毫无疑问的是，2024年围绕人工智能的版权争论只会更加白热化。