微软神经网络定制声音
Speech Studio – 神经网络定制声音 – 概述 (microsoft.com)
欢迎使用神经网络定制声音门户
神经网络定制声音(CNV)允许你创建自然音效的合成语音,该合成语音经过人工录音训练。定制声音可以适应各种语言和说话风格,非常适合为文本转语音解决方案添加独一无二的语音。详细了解神经网络定制声音。
语音录制和脚本
按神经网络定制声音训练
品牌合成语音
了解神经网络定制声音的工作原理转到项目查看脚本
了解用于创建神经网络定制声音的不同选项
使用神经网络定制声音(CNV),可以创建两种类型的项目: 精简版 和 专业版。下表总结了 CNV 精简版和 CNV 专业版项目类型之间的主要差异。
项目类型 | 精简版 | 专业版 |
---|---|---|
最适用于 | 在不到一小时的时间内创建自己的合成语音; 非常适合测试和评估 | 基于专业录制的声音样本,设计和创建一流的品牌合成声音; 非常适合现实场景 |
声音质量 | 中等质量 | 高度自然的声音类似于发音人的口音和语调 |
语音示例(默认中性风格) | 精简版、男性、英语(英国)使用在线录制的 40 个语音示例进行训练原始声音录制使用 CNV 精简版训练 | 专业版、男性、英语(英国)使用 300 个专业录音室录制的声音样本进行训练原始声音录制使用 CNV 专业版训练 |
训练要求 | 发音人创建自己的合成语音脚本Microsoft 在屏幕上提供的录制脚本录制设置在计算机上的 CNV 精简版项目中在线录制语音所需样本大小20 到 50 个录制的语句发音人同意部署时需要发音人的同意声明录音训练训练时间少于一个计算小时数** 计算小时是用于计算神经网络定制声音训练成本的单位。通常,在训练语音时,两个计算任务并行执行。 | 发音人招聘符合你设计的角色的专业语音人士脚本编写自己的脚本以匹配用例或使用我们的 GitHub 上的示例脚本录制设置使用专业录制设备进行专业语音录制所需样本大小300 到 2000 个录制的语句发音人同意需要发音人的同意声明录音。了解更多训练训练一个单一风格的声音需要 20 到 40 个计算小时数*,训练一个多风格的声音需要 90 个计算小时数*。 |
说话风格 | 不可用 | 使语音能够以多种情感风格说话,而无需额外的风格训练数据使用自己的训练数据创建自己定制的风格查看多风格语言专业版、女性版、英语(美国)使用 500 个专业录音室录制的样本进行训练中立愤怒愉悦兴奋友好期待悲伤喊叫恐惧不友好低语原始声音录制 |
跨语言适应 | 不可用 | 是的; 让你的语音使用其他语言说话,无需额外的训练数据。查看跨语言适配语言专业版、女性版、英语(美国)使用 500 个专业录音室录制的样本进行训练英语(美国)法语(法国)德语(德国)葡萄牙语(巴西)中文(普通话,简体)韩语(韩国)日语(日本)原始声音录制 |
训练数据支持的语言 | 17 语言查看精简版语言列表 | 63 语言查看专业版语言列表 |
可用性 | 可通过 Azure 语音标准(S0)资源使用自己的语音试用 | 访问受限 以支持 Microsoft 负责任 AI 原则; 申请完全访问权限以创建专业版语音。在此处 详细了解访问要求 |
定价 | 对于语言训练,每单位(计算小时)价格相同地适用于精简版和专业版,请在此处查看定价详细信息。 | 每单位(计算小时)价格同样适用于精简版和专业版,请在此处查看定价详细信息。 |
负责任地使用神经网络定制声音
为了支持 Microsoft 负责任 AI 原则,神经网络定制声音是受限的。作为 Microsoft 负责任 AI 承诺的一部分,我们正在设计和发布神经网络定制声音,其目的是保护个人和社会的权利,促进透明的人机交互,并应对有害深层攻击和误导性内容的危害。要访问某些功能,需要注册用例。只有由 Microsoft 管理的客户(即直接与 Microsoft 客户团队合作的客户)才有资格访问。了解如何申请完全访问权限
如何创建专业神经网络定制声音
1. 申请访问了解对 AI 的负责任使用,并根据用例申请对 CNV 的完全访问权限申请访问
2. 设计语音开发一个语音角色,该角色定义用例的整体声音和情绪声调设计语音
3. 准备脚本为用例准备脚本或利用示例脚本准备脚本
4. 录制语音在专业录音工作室录制示例和发音人声明录制语音
5. 训练声音创建专业版项目,上传录音和脚本,训练、测试和部署声音创建专业版项目
6. 集成将应用中的语音与语音 SDK 配合使用,或使用有声内容创作工具来创建内容查看快速入门