OpenAI回击《纽约时报》起诉,三点分歧浮现

作者: 21财经   日期:2024-01-10 10:02 阅读:0  来源:21财经  
分享到:
邮箱:

据21财经报道:“《纽约时报》没有讲述完整的故事。”当地时间1月8日,OpenAI在官网发布一篇声明,逐一回击了《纽约时报》最近提起的版权侵权诉讼。

《纽约时报》在去年12月起诉OpenAI及商业合作伙伴微软侵犯版权,指控它们在未经授权的情况下,使用数百万篇《纽约时报》的文章训练GPT大模型。

至此,双方的观点浮出水面,分歧围绕着三个关键词:抄袭、违法使用、删除训练数据。

1、抄袭

在12月的起诉中,《纽约时报》展示了一份引人注目的证据:大模型几乎能一字不差地输出《纽约时报》的报道原文。而且这一输出既没有引用链接,还删除了原文附加的返利链接,《纽约时报》认为直接影响了他们的流量和实际收入。 

OpenAI则在声明中反驳,这种大模型“反刍”(Regurgitation)是罕见错误,除非用户故意诱导。

公司随后直接指出,《纽约时报》的证据来自已经在第三方网站流传多年的文章:“他们似乎故意操纵了提示——要么指使模型反刍,要么从多次尝试中精心挑选了示例”、“故意操纵我们的模型来反刍,不是对我们技术的适当使用,也违反了我们的使用条款。”

什么是大模型反刍?北京邮电大学模式识别与智能系统实验室的陈光解释,简单来说,反刍是让大模型复述训练语料的原文,其实这种情况很可能出现。 

根据OpenAI的解释,他们在去年7月发现“浏览”功能可能让ChatGPT直接阅读并复述原文时,就下架了该功能。之后他们还采取了诸多技术措施,限制大模型反刍训练数据。

不过OpenAI没有具体说明,GPT模型抵挡“反刍”的能力有多强。最近学术杂志Ieee Spectrum上的一篇文章也质疑了OpenAI说法的可信度,这篇文章展示了在没有明确提示的情况下,包括 DALL-E 3在内的大模型可以反刍训练数据。

有趣的是,文章在开头就提到了《纽约时报》的版权诉讼。作者把这种几乎为逐字复述的输出叫“抄袭输出”,并认为它们有力证明了,即使没有直接指令,一部分大模型也可能产生“抄袭输出”,让用户面临版权侵权索赔。

陈光同样认为,不管有没有诱导,大模型技术上都有可能反刍,但反刍不能简单与法律意义上的抄袭划等号:“复述原文算抄袭,那写出和原文类似的内容算不算抄袭?用类似的文笔写出来的内容算不算抄袭?在AI内容生成领域,只有完全不把内容当做训练语料,才能避免这种嫌疑。”陈光告诉21记者。 

2、合理使用

合理使用是AI版权问题的核心,它允许在特定情况下,使用作品不用征求版权人的许可。 

《纽约时报》并不认可OpenAI构成合理使用。《纽约时报》的大部分报道需要付费阅读,在它看来,大模型在未经许可或授权的情况下使用文章,削弱了《纽约时报》与读者的关系,影响了订阅、许可、广告等实际收入。

“在不付费的情况下使用《纽约时报》的内容来替代它、抢走观众,这没有什么创新性而言。” 而且,“模型的输出与用于训练它们的输入竞争并密切模仿,因此为此目的复制《纽约时报》的作品并不属于合理使用。”《纽约时报》这样表示。

OpenAI自然不同意这一观点。公司在博文中重申,使用公开的互联网材料训练AI模型,这种合理使用长期存在并有广泛的先例支持。而且,公司去年向媒体提供了退出机制,爬虫已经不再抓取《纽约时报》的网页内容。

“合理使用的原则对创造者公平,对创新者必要,对美国竞争力至关重要。”OpenAI强调。公司最近也表达了类似观点,如果不使用受版权保护的内容,就不可能训练当今领先的人工智能模型。

在此前的采访中,浙江垦丁律师事务所主任律师张延来曾告诉21记者,结合美国关于合理使用的立法和司法实践,很难说OpenAI这次能得到司法支持。“除非美国司法完全站在推动人工智能技术发展的角度,做出突破性的认定。”

这似乎也是OpenAI的战略之一。

3、删除训练数据

综合以上提到的依据,《纽约时报》认为OpenAI和微软应该为非法使用,以及“价值数十亿美元的法定和实际损失”负责。此外,两家公司应该销毁任何使用到《纽约时报》版权材料的模型和训练数据。 

删除版权材料显然不是OpenAI能接受的——删除训练数据,好比要从做好的蛋糕里分离出蛋黄和蛋清。不但实施成本高,还意味着几乎要重新训练。

OpenAI给出的回应是保持合作,具体方案包括在 ChatGPT 的实时内容中显示来源。不过这一解决方案似乎已经失败了,根据OpenAI的说法,他们在12月19日就这一问题跟《纽约时报》沟通,自认为取得了不小进展,但一周后被对方告上了法庭。而《纽约时报》也表示,他们花了几个月的时间谈判,但没有获得一个公平的条款。

作为参考,可以看看此前OpenAI与美联社、Politico 和 Business Insider等媒体签署的许可协议。据外媒the Information的消息,该公司支付给媒体的版权训练费每年在100-500万美元之间。OpenAI的年收入,据称在16亿美元左右。

目前尚不清楚OpenAI是否已在法庭上正式回应《纽约时报》的诉讼。毕竟对于OpenAI,这只是面临的一系列知识产权诉讼中的一起:1月5日,两位作家在一项集体诉讼中起诉OpenAI和微软,指控将他们的书用于训练大模型;去年9月,包括《权力的游戏》作者在内数十位作家也提起了版权诉讼。

不过毫无疑问的是,2024年围绕人工智能的版权争论只会更加白热化。

 

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

新闻评论须知

· 请您文明上网、理性发言

· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任

· 您的留言只代表个人意见,不代表本站立场

· 天维网拥有管理笔名和留言的一切权利

· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用

· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容

· 参与本留言即表明您已经阅读并接受上述条款

验证码:
×

查看所有评论  共( 条)

Click here

Advertising With Us