AI 技术测评 · TTS文字转语音

摘要：文字转语音技术概览、测评、供应商列举。

它是什么？

TTS ( Text-To-Speech ) 即文字转语音，是将一般语言的文字转换为语音的技术，也被称为语音合成。

TTS 语音技术主要分为通用 TTS 和个性化 TTS，通用 TTS 适用于导航、语音播报、智能客服和大多数语音交互场景，个性化 TTS 则主要应用于对声音质量较高的教育，长音频、直播以及影视游戏配音等场景当中。

基本原理：TTS 技术内部分为前端和后端，其中前端主要负责文本的语言解析和处理，其处理内容主要包括语种、分词、词性预测、多音字处理、韵律预测、情感等。前端把文本上的发音的这些信息都预测出来之后，将信息送给 TTS 的后端系统，后台声学系统融合这些信息之后，将内容转化为语音。

TTS 语音合成模型当前大致演进到第三代，纵观其发展历程：

在文章开头，“云希” 即是微软 Azure 利用第三代神经网络技术训练得到的 TTS 服务。

现阶段，业内较为认可的主观评价标准为平均主观意见分（Mean Opinion Score，Mos）值测试。

Mos 测试值评价会邀请业内专家，从音质、流畅程度、正确性、自然度、分词与停顿、音色 6 个方面，根据专家主观意见，对合成语音进行打分。再根据打分的平均值得到合成语音的最终评分。

这里以微软 Azure 文本转语音为例，演示不同风格、情感下，分角色朗读一篇民事案例解析的效果，可以体验打分：

除了效果之外，价格、稳定性、技术支持也是实际应用时的重要参考指标，可以根据使用场景和预算综合比较。

以下是一些典型 TTS 供应商的免费体验网址，可以采用相同语料测试效果、价格：