Resemble AI 的下一代人工智能音频检测模型 Detect-2B 准确率高达 94

不要错过 OpenAI、雪佛龙(Chevron)、英伟达(Nvidia)、凯撒医疗集团(Kaiser Permanente)和 Capital One 领导人在 VentureBeat Transform 2024 上的精彩演讲。在为期三天的独家活动中,您将获得有关 GenAI 的重要见解,并拓展您的人际网络。了解更多信息
语音克隆公司 Resemble AI 发布了下一代深度伪造检测模型,其准确率约为 94%。
Detect-2B 使用一系列预先训练好的子模型和微调来检查音频片段,并确定其是否由人工智能生成。
“DETECT-2B 建立在原有 Detect 模型的坚实基础之上,在模型架构、训练数据和整体性能方面实现了重大飞跃。其结果是建立了一个极其强大和准确的深度假货检测模型,在对大量真实和虚假音频片段数据集进行评估时,该模型的性能达到了非凡的水平,”该公司在一篇博文中说。
据 Resemble 公司称,Detect-2B 的子模型 “由一个冻结音频表示模型和一个插入其关键层的自适应模块组成”。适配模块将模型的重点转向人工痕迹(或录音中意外留下的声音),而人工痕迹往往能识别真假音频。大多数人工智能生成的音频片段可能听起来 “太干净”。Detect-2B 可以预测有多少音频是人工智能制作的,而无需在每次监听新片段时重新训练模型。子模型也是在大型数据集上训练出来的。
2024 年 VB 变革倒计时
7月9日至11日,在旧金山与企业领袖们一起参加我们的人工智能旗舰活动。与同行交流,探索生成式人工智能的机遇和挑战,了解如何将人工智能应用集成到您的行业中。立即注册
Detect-2B 将其预测分数汇总并与 “精心调整的阈值 “进行比较,然后确定录音的真假。Resemble表示,其研究人员构建Detect-2B的方式使其能够快速训练,而不需要如此强大的计算能力来部署。
随机架构更易于处理音频信号
该模型的架构基于 Mamba-SSM 或状态空间模型,不依赖于静态数据或重复出现的模式。取而代之的是一种随机或随机概率模型,它能更好地应对不同的变量。Resemble 说,这种架构能很好地进行音频检测,因为它能捕捉音频片段中的不同动态,在音频信号的不同状态之间进行调整,即使录音质量很差,也能继续执行。
为了评估该模型,Resemble 说它让 Detect-2B 通过了一个测试集,其中包括未见过的扬声器、深度伪造的音频和不同的语言。该公司表示,该模型能正确检测出六种不同语言的深度伪造音频,准确率至少达到 93%。
Detect-2B 的跨语言检测性能
Detect-2B 在预测六种语言的深度伪造音频方面得分很高。来源:Resemble AI Resemble AI
Resemble 于今年 4 月推出了人工智能语音平台 Rapid Voice Cloning。Detect-2B 将通过 API 提供,并可集成到不同的应用程序中。
识别深度伪造变得更加重要
在2024年美国总统大选即将到来之际,识别人工智能生成的声音或视频变得更加重要。人工智能声音可能更容易误导选民和传播错误信息。人们对人工智能深度伪造的担忧,无论是伪造政客的声音、在歌曲中假扮名人,还是仅仅使用人工智能来说明某些事情,都削弱了人们对品牌的信任。
像Detect-2B这样的工具在帮助识别和证明深度伪造之前可以发挥很大作用。当然,Resemble 并不是唯一一家致力于检测人工智能克隆的公司。McAfee 于今年 1 月启动了 “知更鸟计划”(Project Mockingbird),以检测人工智能音频。另一方面,Meta 公司正在开发一种为人工智能生成的音频添加水印的方法。
“但我们的工作远未结束。随着人工智能生成能力的不断进步,我们的检测能力也必须与时俱进。我们计划了几个令人兴奋的研究方向,以进一步改进 DETECT-2B,重点关注表征学习、高级模型架构和数据扩展等领域,”Resemble 说。