0%

AI 技术测评 · TTS文字转语音

摘要:文字转语音技术概览、测评、供应商列举。

它是什么?

TTS ( Text-To-Speech ) 即文字转语音,是将一般语言的文字转换为语音的技术,也被称为语音合成。

TTS 语音技术主要分为通用 TTS 和个性化 TTS,通用 TTS 适用于导航、语音播报、智能客服和大多数语音交互场景,个性化 TTS 则主要应用于对声音质量较高的教育,长音频、直播以及影视游戏配音等场景当中。

基本原理:TTS 技术内部分为前端和后端,其中前端主要负责文本的语言解析和处理,其处理内容主要包括语种、分词、词性预测、多音字处理、韵律预测、情感等。前端把文本上的发音的这些信息都预测出来之后,将信息送给 TTS 的后端系统,后台声学系统融合这些信息之后,将内容转化为语音。

技术发展历程

TTS 语音合成模型当前大致演进到第三代,纵观其发展历程:

第一代:基于语料库拼接合成

  • 技术原理:要一个大规模的真人音库,音库内容按照音素和不同特征进行标注,合成时根据语言学特征寻找符合的音素,拼接起来完成合成。
  • 优点:真人发音,运算量低
  • 缺点:语音不连贯,依赖音库、需要人工介入,制作成本高

第二代:基于深度学习参数合成

  • 技术原理:通过深度学习构建文本特征和音库之间的映射关系,构建参数合成模型,当输入一个语言学特征时,基于神经网络给出声频特征,后通过声码器合成语音波形
  • 优点:音库数量要求不多,合成语音连接平稳,质量高
  • 缺点:对声码器依赖程度高,同时由于传统参数系统建模时存在信息损失,语音表现力不强

第三代:基于神经网络端到端合成

  • 技术原理:直接输入文本或者注音字符,通过文本或者文本特征和语音直接建模,跳过声码器阶段,减少了对声码器的依赖,弱化前端概念
  • 优点:降低对语言学知识的要求,语音自然程度高
  • 缺点:运算量大,无法人工调优

在文章开头,“云希” 即是微软 Azure 利用第三代神经网络技术训练得到的 TTS 服务。

如何评价效果

现阶段,业内较为认可的主观评价标准为平均主观意见分(Mean Opinion Score,Mos)值测试。

Mos 测试值评价会邀请业内专家,从音质、流畅程度、正确性、自然度、分词与停顿、音色 6 个方面,根据专家主观意见,对合成语音进行打分。再根据打分的平均值得到合成语音的最终评分。

image-20220311100454119

这里 以 微软 Azure 文本转语音为例,演示不同风格、情感下,分角色朗读一篇民事案例解析的效果,可以体验打分:

有哪些供应商

除了效果之外,价格、稳定性、技术支持也是实际应用时的重要参考指标,可以根据使用场景和预算综合比较。

以下是一些典型 TTS 供应商的免费体验网址,可以采用相同语料测试效果、价格:

1、科大讯飞:https://www.xfyun.cn/services/online_tts

2、阿里巴巴:https://ai.aliyun.com/nls/tts

3、百度:https://ai.baidu.com/tech/speech/tts

4、腾讯:https://cloud.tencent.com/product/tts

5、京东:https://neuhub.jd.com/ai/api/speech/tts

6、微软:https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/#features