GPT-4o模仿人声说“不”,无意的语音生成仍是模型弱点

作者: 澎湃新闻   日期:2024-08-16 12:38 阅读:0  来源:澎湃新闻  
分享到:
邮箱:

据澎湃新闻报道,在OpenAI提供的案例中,AI模型发出“No”的声音,后用一种与“红队”(OpenAI雇佣进行对抗性测试的人)相似的声音继续说话。数据科学家评价称“OpenAI刚刚泄露了《黑镜》下一季的剧情”。

和机器人对话,机器人突然开始用你的声音和你说话,这并非科幻剧情,而是OpenAI披露的GPT-4o的诡异行为。

当地时间8月8日,OpenAI公开了ChatGPT背后的新型人工智能模型GPT-4o的安全报告,详细说明模型限制和安全测试程序。评估的风险包括说话人身份识别、未经授权的语音生成、潜在的版权内容生成、无根据的推理和不允许的内容。在大模型的高级语音模式中,用户可与人工智能助手进行语音对话,报告显示,在测试过程中的极少数情况下,高级语音模式在未经允许的情况下会模仿用户的声音。

OpenAI提到,一个嘈杂的输入会以某种方式促使模型突然模仿用户的声音。在OpenAI提供的无意的语音生成例子中,AI模型发出“No”的声音,后用一种与“红队”(OpenAI雇佣进行对抗性测试的人)相似的声音继续说话。新闻网站BuzzFeed的数据科学家马克斯·伍尔夫(Max Woolf)在社交媒体上对此评价,“OpenAI刚刚泄露了《黑镜》下一季的剧情。”

GPT-4o可以在232毫秒内响应音频输入,平均时间为320毫秒,这与人类在对话中的响应时间相似。它可以合成训练数据中发现的几乎任何声音,包括声音效果和音乐。

OpenAI披露的实例反映了AI聊天机器人的安全架构越来越复杂。在未经授权的语音生成示例中,来自用户的音频噪声混淆了模型,并作为一种无意的提示注入攻击,将系统提示中的授权语音样本替换为来自用户的音频输入。目前尚不清楚嘈杂的音频究竟是如何导致这种情况的,但音频噪音可能被转化为随机的token,从而引发模型中的意外行为。

目前OpenAI设计了安全措施来防止模型模仿用户声音的情况,OpenAI提供授权的语音样本供模型模仿,也用另一种系统检测模型是否产生了未经授权的音频。“我们只允许模型使用某些预先选择的声音,并使用输出分类器来检测模型是否偏离了这些声音。”OpenAI表示,他们发现,未经授权的语音生成的剩余风险很小,在内部评估中目前系统100%捕捉到与系统声音有意义的偏差。

“虽然无意的语音生成仍然是模型的一个弱点,但我们使用二级分类器来确保发生这种情况时对话将被中断,从而使无意的语音生成风险降到最低。”但OpenAI也表示,当对话语言不是英语时,可能会导致模型过度拒绝。

对于说话人身份的识别,OpenAI对GPT-4o进行了后期训练,让它拒绝根据输入音频中的声音来识别某人,但可以识别与名言相关的人。同时训练GPT-4o拒绝输出版权内容,建立了过滤器来检测和阻止音乐输出。

据Ars Technica报道,独立人工智能研究员西蒙·威尔森(Simon Willison)表示,虽然GPT-4o语音合成能力的潜力目前受OpenAI的限制,但随着时间的推移,类似的技术可能会从其他来源出现。“ElevenLabs已经可以为我们克隆声音了,大约明年我们就可以在自己的机器上运行这样的模型了。”

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

新闻评论须知

· 请您文明上网、理性发言

· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任

· 您的留言只代表个人意见,不代表本站立场

· 天维网拥有管理笔名和留言的一切权利

· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用

· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容

· 参与本留言即表明您已经阅读并接受上述条款

验证码:
×

查看所有评论  共( 条)

Click here

Advertising With Us