首页 > 新闻中心 > 环球报道

从“抠图”到“抠视频” Meta上新AI工具SAM 2

作者: 21财经　日期:2024-08-01 14:27　阅读:0 　来源:21财经　

分享到：

邮箱：news@skykiwi.com

据21财经报道，继2023年4月首次推出SAM，实现对图像的精准分割后，Meta于北京时间7月30日推出了能够分割视频的新模型SAM 2（Segment Anything Model 2）。SAM 2将图像分割和视频分割功能整合到一个模型中。所谓“分割”，是指区别视频中的特定对象与背景，并可以追踪目标。

SAM 2将图像分割能力泛化到了视频领域，其响应能力和准确度是一代的6倍，也是目前最优秀的视觉分割模型。Meta AI发布此版本时强调：“相信我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。”

同日，扎克伯格在与黄仁勋的对谈中，透露出更多Meta 的AI进展，包括将推出一款基于Llama3.1模型构建的名为AI Studio的新工具，允许用户创建、分享和设计个性化的AI聊天机器人，用户还可以在社交媒体平台上分享他们的人工智能角色。

“细分一切”

SAM 2可以识别视频中的特定对象，并实时实现该对象的追踪与提取，在视频编辑与特效制作中，可以高效辅助工作。该模型也可以根据用户具体诉求，选择分割某个物体或某个区域，使控制更加精准。

与其他模型不同的是，SAM 2拥有对不熟悉物体和图像的零样本泛化能力，无需额外训练，只需单击一帧视频中的任何物体，即可实现对目标对象的实时追踪，快速处理未来每一帧。

除此以外，该模型还可以集成到更大的系统中，它善于从其他智能系统中获取提示，使系统之间完成协作。例如，SAM 2能够在AR/VR穿戴式设备中选择用户注视对象，也可以读取分割对象的边界框提示，完成文本提示到视频图像分割的转化。

为了训练SAM 2，Meta自己建构了一个数据引擎——SA-V数据集，有效收集大量多样化的视频分割数据集并利用其去迭代模型。SA-V数据集包含5.1万个视频和64.3万个时空分割掩码（即masklet），是迄今为止最大的数据集，收集了47个国家/地区地理分布各异的真实世界场景的视频。SAM 2就在Meta开源的SA-V数据集上进行训练，为SAM 2提供的注释包括整个物体、部分物体和物体被遮挡的情况。

SAM 2模型辅助人类标注目标对象的掩码，与此同时，SAM 2将标注的掩码传播到视频其他帧，生成时空掩码，接受提示的SAM 2受益于对象在时间维度上的记忆，生成掩码预测。如此循环往复，使SAM 2得到不断更新。业内观点认为，SAM 2为视觉数据提供更快的注释工具，有望被用来训练下一代计算机视觉系统。

对于视频中的动态物体，SAM 2如何精准识别呢？Meta为SAM引入了一种记忆机制。对于视频，记忆组件可以存储对象的有关交互信息和之前处理过的信息，使SAM 2能够在整个视频中实现预测行为。根据其提示式设计理念，如果在其他帧上提供了相关提示，SAM 2还可以根据存储的对象记忆上下文（前后帧）有效地纠正其预测，显著减少人工标注时间。

Meta官网提供了一个例子，目标对象被遮挡或从视野中消失。为了向模型解释这种新的模式，在SAM 2里新应用了“遮挡头”模型，用于预测当前帧中是否存在目标对象，判断物体是否可见，即使在物体暂时被遮挡时也有助于分割物体，使SAM 2能够有效地处理遮挡。

不过，当遇到长时间遮挡或者场景中有多个相似对象等情况时，SAM 2可能会丢失对物体的跟踪或是混淆物体。但同时，以上情况可以通过人为干预提供细化提示来解决。

尽管Meta自曝了SAM 2的不足，用户对该模型的未来依然寄予厚望。

在以往的视频编辑技术中，视频抠图需要一帧一帧地编辑。比如，国内明星真人秀节目数次遇到的“因某明星个人危机，需重新剪辑全部画面”问题，可能不再需要视频剪辑通宵达旦、连续加班。

SAM 2的应用范围广泛，在许多需要实时反馈的应用场景中将发挥其作用，包括自动驾驶、医学、视频拍摄剪辑、监控等。比如，捕捉动态对象实现实时交互，提高车载计算机视觉系统的敏锐性；在辅助医学治疗中，定位腹腔镜摄像机锚定的区域；在追踪摄影中，帮助无人机镜头跟随追踪濒危动物；在机场、车站人流密度大的区域实时监控人群，预警异常情况；也为视频内容博主提供了更多视频创意创作的可能性。