首页 > 新闻中心 > 环球报道

兵马俑跳“科目三”刷屏，2024将是AI视频之年？

作者: 21财经　日期:2024-01-11 19:47　阅读:0 　来源:21财经　

分享到：

邮箱：news@skykiwi.com

据21财经报道，“科目三”的风最终还是吹到了考古圈——近日，一段兵马俑跳网红舞“科目三”的视频走红网络，视频中兵马俑跟着魔性的音乐起舞。除了兵马俑，在视频中翩翩起舞的还有拿破仑、奥特曼等众多历史或动漫人物……

实际上，这些视频都是用阿里的“全民舞王”AI生成的。在相关话题中，网友们纷纷发表评论：“自己跳不动，可以让AI帮我实现”“AI治愈了我的四肢不协调”。

2023年年末以来，视频生成模型迎来“爆发期”。业内预测认为，AI视频是大语言模型之后新的基建能力，发展空间远大，而2024年或将成为视频之年。同时，隐私安全、素材版权和伦理道德问题是该领域需重视的合规风险。

刷屏：大模型让照片“舞起来”

据了解，阿里近期在通义千问App中上线了免费功能“全民舞王”。用户仅需上传一张图片，就可以生成一段舞蹈视频。目前，该应用中内置了12种舞蹈模板，除了“科目三”以外，还有DJ慢摇、鬼步舞等网红舞蹈。

该功能的实现离不开阿里研发的Animate Anyone算法。2023年11月，阿里公布了相关的技术论文进行介绍：Animate Anyone是一种将角色图像转换为由姿势序列控制的动画视频的方法。AI视频生成的可控性、逼真度、连贯性是影响模型应用能力的重要因素，先前的模型存在失真、细节处理差、不连贯的问题，而该算法通过引入参考图像特征提取网络ReferenceNet、使用Pose Guider姿态引导器，从而提供更好的时间、空间连贯性，更高的视频质量与更广泛的角色动画功能。

论文发布后随即引起了大量网友的关注，截至目前，该项目在GitHub上的星标量已经达到12.3k。

趋势：多家企业加码布局视频生成模型

AIGC是2023年的一大热词，而AI视频生成模型赛道则是在2023年末渐趋火热。中信建投指出，AI视频是大语言模型之后新的基建能力，发展空间远大。

视频生成模型根据源文件的不同分为多种类型，主要包括文生视频、图生视频、视频生视频三类，而阿里此次发布的模型即为图生视频类型。AI生成视频初进入大众视野，还是在去年2月，乐队Linkin Park推出AI制作的动画MV，而进入下半年，各大科技公司紧锣密鼓布局视频生成模型，新动态频出。

11月3日，Runway的Gen-2发布重大更新，支持生成4K清晰度的视频，根据官方介绍，这“为视频的保真度与连贯性带来重大改进”，一周后又新增画笔功能以强化局部编辑能力。

Meta于11月16日发布的Emu Video则是基于 Emu Edit高精度图像编辑工具，从文字生成图像进而生成视频。与以往的视频生成工具相比，Emu Video这种分解步骤的视频生成方法仅需运用2个扩散模型生成高质量视频，而不需要深度串联多个模型。

11月18日，字节跳动公布了PixelDance模型，其技术创新在于基于文本指导 + 首尾帧图片指导的视频生成方法，能够生成具有复杂场景与动作的视频，从而解决了先前模型生成视频动态性有限的问题。

11月21日，Stability AI推出Stable Video Diffusion，该模型是基于文生图的Stable Diffusion模型开发，可实现图像生成视频，还支持3D合成功能。Stability AI 称，计划继续扩展以其为基础的各种模型，从而形成类似于围绕 Stable Diffusion 建立的生态系统。

11月29日，由两位华人女性创立的AI公司Pika labs发布首个产品Pika 1.0，支持文、图、视频生成视频，并宣布已获得5500万美元融资。该消息还引起了A股市场的一波热潮，信雅达连收6个涨停板，或与Pika创始人之一郭文景为信雅达董事长郭华强的女儿有关。信雅达更是被市场戏称为“女儿概念股”。

“2024年将是视频之年。”英伟达高级科学家Jim Fan预测，AI视频将在未来12个月内迎来突破性发展。包括输入和输出两个方面。

不管是已经火爆出圈的Open AI的GPT-4，还是热度趋增的视频生成模型，本质都属于多模态大模型。多模态是指在一个系统或模型中同时处理多种类型的数据，例如文本、图像、音频等。Meta研究员Martin Signoux 对 2024 年 AI 做出的8大预测中就提到，大型多模态模型（LMMs）将不断涌现，并在争论中取代LLMs（大型语言模型）。

毕马威联合中关村产业研究院发布的《人工智能全域变革图景展望：跃迁点来临（2023）》报告指出，在技术方面，多模态预训练大模型将是人工智能产业的标配。IDC发布的《2024 AIGC应用层十大趋势白皮书》也预测，多模态大模型拓展服务边界、带来更丰富的用户体验是重要趋势。

合规：需关注隐私安全、版权保护等问题

如何统筹发展与安全，是新兴科技落地过程中的必答题。易观分析《AIGC产业研究报告2023——视频生成篇》指出，人工智能技术应用风险是AIGC领域所面临的共性问题，聚焦到视频生成上，比较突出地体现在素材版权问题、隐私安全、伦理道德等方面。

北京大成律师事务所高级合伙人肖飒提示，视频生成模型的合规风险需要关注两个方面，首先，在输入端，此类视频的生成涉及到较多个人信息；其次，在输出端，其生成内容具有较大自由度，容易产生风险。服务提供者在遵守《网络安全法》《数据安全法》及《个人信息保护法》等法律法规中相关要求外，还需特别注意《互联网信息服务深度合成管理规定》与《生成式人工智能暂行管理办法》中的有关规定。

“例如，根据《互联网信息服务深度合成管理规定》第十七条，服务提供者应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况。”肖飒说。

肖飒补充，AI生成视频的深度伪造（Deepfakes）问题也值得关注。随着技术门槛降低，此类应用不仅可能被不法分子利用散播谣言，甚至可能造成人们之间的信任危机，因此也需要防范。

记者查阅阿里《全民舞王功能服务协议》和《全民舞王功能隐私说明》发现，视频生成模型的合规问题已被考虑其中。例如，《全民舞王功能服务协议》提到“您确保，您使⽤本服务制作的信息内容，是您所有或被相关权利⼈授权同意处理的信息，我们根据您的指令分析、处理该等信息内容以及⽣成新的信息内容不会侵犯任何第三⽅的合法权益（包括但不限于⼈格权、著作权、财产权）。”同时，用户不得利⽤该服务编造、传播虚假信息。

“此类《服务协议》属于《民法典》规定的格式条款。AI企业作为提供格式条款的一方，应当遵循公平原则确定当事人之间的权利和义务，并履行提示和明确说明义务。”肖飒指出，相关条款内容一方面可以起到提醒用户避免侵权的作用，另一方面有效降低了在用户利用网络服务侵权的情形下平台服务提供者的法律风险。

肖飒结合民法典“避风港原则”指出，该原则指网络服务提供者只有在明确知道侵权事实后仍不及时采取相关措施，才需要就损害的扩大部分与该网络用户承担连带责任。而作为“避风港原则”的例外，《民法典》还规定了“红旗原则”，指当侵权事实显而易见，像“红旗一样飘扬”时，网络服务提供者不能以不知道侵权为由推脱责任。

“AI企业设置该条款，是其履行合理注意义务的一种体现，能降低平台承担责任的风险。但是，这并不意味着平台不会承担任何侵权责任，若平台提供的服务行为本身涉及侵权，例如平台提供的音乐未经权利人授权，则平台仍需要承担相关责任。”肖飒表示。

肖飒认为，除了服务协议之外，平台还应当根据现行法律法规的规定，健全完善平台责任体系，从前端和后端全过程落实平台义务。具体而言，一是内容安全审查义务，对内容是否涉政、涉黄、涉暴内容进行审查；二是注意义务，主动审查明显的版权侵权情况并采取相应措施；三是通知删除义务，对权利人发出的有效通知所指向的侵权内容采取必要措施。

在个人信息收集和使用方面，《全民舞王功能隐私说明》特别强调，“如您上传的内容涉及第三方的信息（包括但不限于个人信息、肖像等），在上传这些信息之前，您需确保您已经取得合法的授权，避免泄露他人个人信息，侵犯他人权利。”

在数据留存方面，《全民舞王功能隐私说明》提到，“本服务依赖于您输入的照片和视频，即我们需要收集并缓存您上传的人物照片和包含舞蹈动作的视频，以合成与视频舞蹈动作一致的照片人物舞蹈视频。同时，为便于您再次生成视频，我们将留存您近三个月上传的人物照片，为便于您查看历史记录，我们会留存您生成的人物舞蹈视频一年，如您提前手动删除，我们会及时对其进行物理删除。”

确定大模型相关数据的保存期限需要考虑哪些因素？如何平衡数据的安全与利用？

“以算力和数据为依托，大模型具有独特的计算模式、访存模式、数据特征，表现出强大的理解、生成和推理能力。在具有巨大潜力的同时，数据安全问题成为大模型领域老生常谈的难题。”肖飒表示，传统存储技术在处理大模型任务时效率低下，且容错开销大，在给现有的存储能力与存储技术带来压力的同时，进一步加大了数据安全的保护难度。

她指出，确定大模型相关数据的保存期限需要考虑数据安全、存储技术、强制性规定等因素。为平衡数据安全与利用，作为数据处理者的技术公司需根据《数据安全法》等法律法规，加强数据安全合规建设，根据数据分类分级保护制度与重要数据目录，履行相应的数据安全保护义务，加强数据安全风险评估与风险治理能力，应对信息泄露、黑客攻击等风险。