英伟达对外展示了一款模型,可以生成音乐和音频

作者: 澎湃新闻   日期:2024-11-29 17:37 阅读:0  来源:澎湃新闻  
分享到:
邮箱:

据澎湃新闻报道,当地时间11月25日,芯片巨头英伟达展示了一款用于生成音乐和音频的人工智能模型Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布Fugatto技术。有业内人士对澎湃科技表示,音频模型是AI的常规应用,英伟达推出这一模型更多得是为了展示AI的能力,从而促进其显卡得销售。

据了解,新模型面向音乐、电影和游戏制作商。它可以改变录音的口音和情绪,将钢琴演奏转换成人声歌唱,具体来讲,Fugatto可以分离歌曲中的人声,添加乐器,将钢琴换成歌剧歌手来改变旋律。英伟达表示,新模型可以创造出“从未听过的声音”,比如可以使小号吠叫或者萨克斯发出猫叫声。

Fugatto建立在英伟达团队此前在语音建模、音频编码和音频理解等领域的工作基础上,完整版本使用25亿参数。新模型根据开源数据在包含32个英伟达H100 Tensor Core GPU的NVIDIA DGX超级计算机系统上进行训练。

英伟达表示,为了构建Fugatto模型,研究人员收集数百万个音频样本的数据集并创建指令,扩展了模型可以执行的任务范围,同时实现了更准确的性能,并在不需要额外数据的情况下完成新任务。在推理过程中,模型使用一种称为ComposableART的技术来组合仅在训练期间单独看到的指令,例如提示词组合可以要求用法国口音讲述悲伤的文字,实现用户对文本指令的精细控制。

“如果我们回想一下过去50年的合成音频,现在的音乐听起来不同了,因为有了电脑和合成器。”英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)说,生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来新的能力。

有网友询问何时能使用该模型,但同时也有网友表示担忧,并表示“这是重罪”,“参与这项研究的每个人都应该被关进监狱,原因很明显。不要扰乱艺术、音乐和媒体。”

英伟达表示目前仍在讨论是否以及如何将其公开发布。生成式AI模型的创造者尚未确定如何防止滥用该技术,例如用户生成错误信息或生成受版权保护的角色来侵犯版权。“任何生成技术都会带来一些风险,因为人们可能会用它来生成我们不希望他们使用的东西。”卡坦扎罗表示,因此需要对此保持谨慎,“这就是为何我们没有立即发布这款模型。”

值得注意的是,除英伟达的Fugatto以外,来自Stability AI、OpenAI、谷歌DeepMind等公司也开发了人工智能音频工具,但其他公司都没有声称能够创造出全新的和闻所未闻的声音。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼。

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

新闻评论须知

· 请您文明上网、理性发言

· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任

· 您的留言只代表个人意见,不代表本站立场

· 天维网拥有管理笔名和留言的一切权利

· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用

· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容

· 参与本留言即表明您已经阅读并接受上述条款

验证码:
×

查看所有评论  共( 条)

Click here

Advertising With Us