XML在语音合成中的应用
用声音交流信息的手段,并不是一个新事物,它是一种交流方式,我们已经使用了数千年,这并不是一个新的发明从计算机接收电话,语音技术已经走出来的路从传真机、自动拨号集成语音应答系统(IVR)。电话,当然,是其最常见的应用。
传统的语音系统使用预先录制的样本,字典和音素创造我们听到声音。然而,有此记录的使用方法很多问题,其中最常见的问题是缺乏连贯性和变化。如果只有一个录音版本,每个单词或声音只有一个样本,它是计算机的问题,疑问句用不同的语调很难。也很难让计算机知道何时使用一定的语调和语气,语调应使用。
为了帮助解决语音合成问题,W3C为语音合成标记语言创建了一个新的工作草案,这种新的XML词汇表使语音开发人员能够控制语音合成器的创建。例如,开发人员可以在音量中包含命令,并在语音模式合成时使用该命令。
的中国规范是基于早期的太阳公司的研究工作称为jspeeck标记语言(JSML)。JSML是基于java语言的API标记语言。现在中国是W3C语音研究团队的工作草案。
对中国语言的基本目标是一个文本到语音处理器(语音)。TTS引擎集合文本转换成语音。有几个TTS的应用,如电话语音应答系统,和更先进的系统,为盲人设计的一组特定的。文本语音固有的不确定性是一个面对存在的TTS系统存在的主要问题,其他问题都集中在单词速记(如HTML),拼写和发音不同的单词(如传票)。
对中国语言的基本元素指定文本的格式,比如HTML,SSML语言提供的一个段落元素和越走越远,因为它也提供了句子成分。通过指定一个句子就像一个指定的段地址,包括起始地址和结束地址,TTS引擎可以产生更准确的语音。
除了基本的格式,中国还提供了函数指定如何将一组特定的字或词。这个功能的实现是由称为元素。它在中国很有用。它允许你指定一个模板,描述如何一个词或一组词的发音。通过说的是,我们可以指定如何发音的缩写词,或用不同的拼写和发音指定单词的发音,我们还可以列出的数字和日期之间的差异,称为元素包含电子邮件地址和电话号码,支持钱。
我们也可以为课文提供声调,例如,我们可以指出美国和英国英语中马铃薯单词发音的区别。
几种先进的SSML语言属性可以帮助我们使TTS系统更加人性化。我们可以使用声音元素指定的男性,女性,或中性的声音,我们也可以指定声音的时代,我们可以使用此元素指定了4岁的男孩和75岁女人之间的任何的声音。
我们也可以用强调元素包围那些需要重读或不太重要的文字,我们也可以用中断元素告诉系统声音应该停在某个地方。
一个对中国语言的最先进的功能是它的韵律元素。通过它,我们可以生成一组特定的某个地方类型文本的声音。我们可以指定色调,范围和速度的声音(每分钟的话)。我们甚至可以利用轮廓元素指定更多的细节。轮廓元素融入的音调和语言的速度在一起。通过指定一个文本集的轮廓元素的值,我们可以更准确地定义如何生成语音。