生数科技CEO唐家渝:视频生成尚处早期,有技术瓶颈待突破
作者: 澎湃新闻 日期:2024-09-14 11:15 阅读:0 来源:澎湃新闻
据澎湃新闻报道,“用AI做叙述类影片,可能废片的比率会是50:1,即生成50张图片,其中只有一张才可能符合这类叙述创作。”9月11日,在北京生数科技有限公司(以下简称生数科技)举办的媒体开放日活动上,一名影视创作者在分享时作出上述表述。
伴随着大模型生成技术的发展,越来越多的影视创作者开始尝试将AI技术用于创作之中,但就目前看来,还存在很多痛点。
“AI生成视频不可控,元素一旦多就无法理解多个角色和空间场景。”来自AI影视创作者Vicky表示。来自海内外多位AI影视创作者表示,在实际创作过程中,普遍存在的核心问题即可控性不足或一致性不足,尤其当涉及复杂场景和交互场景时。
尽管AI视频模型在遵循指令方面表现出色,但输出结果仍有不确定性,可能需要多次尝试才能生成较为满意的画面。另外,AI生成模型在运镜、光影效果和细节处理方面仍然存在限制,难以做到完全精细地控制。
生数科技于今年7月30日正式上线了AI生成视频大模型,为了帮助创作者提升效率,该公司日前将视频模型Vidu的功能进行了新升级,发布了“主体参照”功能,该功能即针对一致性问题进行的开发,它可以实现对任意主体的一致性生成,让视频生成更加稳定、可控。
“主体参照”功能允许用户上传任意主体的一张图片,Vidu能够锁定该主体形象,通过描述词任意切换场景,输出主体一致的视频。
9月11日,澎湃科技(www.thepaper.cn)记者登录生数科技官网Vidu平台尝试视频生成。分别上传了一张美国影星莱昂纳多·迪卡普里奥的三维图片,并输入“蓝天”、“酒杯”、“敬酒”等关键词;
输入词:“蓝天”、“酒杯”、“敬酒”等
用Vidu生成后的图像如下:
上传一张日本动漫《跃动青春》女主角的二维截图,并输入“跑步”、“迟到”、“早晨”等关键词后
用Vidu生成后的图像如下:
生数科技联合创始人兼CEO唐家渝在接受采访时表示,Vidu“主体参照”功能是目前全球首个具备一致性生成能力的技术。生数科技的核心任务是构建多模态大模型,AI视频生成目前还处于早期阶段,还有更多技术瓶颈有待未来突破。他认为,AI视频技术不会一直是小众人群的工具,预估今年年底,AI视频技术能普及到大众,用户可以轻松使用。
生数科技成立于2023年3月,核心团队成员来自清华大学人工智能研究院,首席科学家朱军为清华大学教授,联合创始人兼CEO唐家渝是清华大学自然语言处理实验室硕士,曾任瑞莱智慧副总裁、腾讯优图实验室高级产品经理。
版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
版权声明
1.
未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
- 厦门大学管理学院原院长翁君奕教授辞世,享年70岁
- 人社部:养老金最低缴费年限提高至20年,2030年开始实施
- 填补空白!特应性皮炎治疗领域首个“中国新药”上市
- 铁路中秋旅客运输明日启动,全国预计发送旅客7400万人次
- 8月新增社融3.03万亿元,M1同比下降7.3%持续回落
- 中外药械企业集体亮相服贸会,多个全球首创、首款产品展出
- 歌尔股份拟分拆子公司歌尔微港股上市,上半年曾终止创业板上市
- 计算科学与视觉科学领域两名科学家获2024世界顶科协奖
- OpenAI发布新模型 “能像人类一样思考”
- 中国延迟退休来了!明年开始实施
· 请您文明上网、理性发言
· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任
· 您的留言只代表个人意见,不代表本站立场
· 天维网拥有管理笔名和留言的一切权利
· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用
· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容
· 参与本留言即表明您已经阅读并接受上述条款
查看所有评论 共( 条)