摘要:文字转语音技术概览、测评、供应商列举。
它是什么?
TTS ( Text-To-Speech ) 即文字转语音,是将一般语言的文字转换为语音的技术,也被称为语音合成。
TTS 语音技术主要分为通用 TTS 和个性化 TTS,通用 TTS 适用于导航、语音播报、智能客服和大多数语音交互场景,个性化 TTS 则主要应用于对声音质量较高的教育,长音频、直播以及影视游戏配音等场景当中。
基本原理:TTS 技术内部分为前端和后端,其中前端主要负责文本的语言解析和处理,其处理内容主要包括语种、分词、词性预测、多音字处理、韵律预测、情感等。前端把文本上的发音的这些信息都预测出来之后,将信息送给 TTS 的后端系统,后台声学系统融合这些信息之后,将内容转化为语音。
技术发展历程
TTS 语音合成模型当前大致演进到第三代,纵观其发展历程:
第一代:基于语料库拼接合成
- 技术原理:要一个大规模的真人音库,音库内容按照音素和不同特征进行标注,合成时根据语言学特征寻找符合的音素,拼接起来完成合成。
- 优点:真人发音,运算量低
- 缺点:语音不连贯,依赖音库、需要人工介入,制作成本高
第二代:基于深度学习参数合成
- 技术原理:通过深度学习构建文本特征和音库之间的映射关系,构建参数合成模型,当输入一个语言学特征时,基于神经网络给出声频特征,后通过声码器合成语音波形
- 优点:音库数量要求不多,合成语音连接平稳,质量高
- 缺点:对声码器依赖程度高,同时由于传统参数系统建模时存在信息损失,语音表现力不强
第三代:基于神经网络端到端合成
- 技术原理:直接输入文本或者注音字符,通过文本或者文本特征和语音直接建模,跳过声码器阶段,减少了对声码器的依赖,弱化前端概念
- 优点:降低对语言学知识的要求,语音自然程度高
- 缺点:运算量大,无法人工调优
在文章开头,“云希” 即是微软 Azure 利用第三代神经网络技术训练得到的 TTS 服务。
如何评价效果
现阶段,业内较为认可的主观评价标准为平均主观意见分(Mean Opinion Score,Mos)值测试。
Mos 测试值评价会邀请业内专家,从音质、流畅程度、正确性、自然度、分词与停顿、音色 6 个方面,根据专家主观意见,对合成语音进行打分。再根据打分的平均值得到合成语音的最终评分。
这里 以 微软 Azure 文本转语音为例,演示不同风格、情感下,分角色朗读一篇民事案例解析的效果,可以体验打分:
有哪些供应商
除了效果之外,价格、稳定性、技术支持也是实际应用时的重要参考指标,可以根据使用场景和预算综合比较。
以下是一些典型 TTS 供应商的免费体验网址,可以采用相同语料测试效果、价格:
1、科大讯飞:https://www.xfyun.cn/services/online_tts
2、阿里巴巴:https://ai.aliyun.com/nls/tts
3、百度:https://ai.baidu.com/tech/speech/tts
4、腾讯:https://cloud.tencent.com/product/tts
5、京东:https://neuhub.jd.com/ai/api/speech/tts
6、微软:https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/#features