谷歌发布了它所说的关于Translatotron的内容,Translatotron将人们所说的内容翻译成他们的声音,同时保持他们的声音。与现有模型不同,它有望打开语音翻译的未来,作为采用不同端到端模型的革命性系统。
到目前为止,语音翻译采用了扬声器通过自动语音识别改变句子的形式,并通过机器翻译进行了语音输出。结合语音,文本和语音的模型是另一种方法。相比之下,translattron采用端到端的方法,从头到尾以语音翻译结束。由于过程很简单,因此可以比传统方法更快地进行翻译。
Translattron是第一个将语音直接从一种语言翻译成另一种语言的模型。而且,在翻译之后,语音可以保持说话者的声音。根据BLEU评分,translatoltron翻译略低于现有系统,但它比该模型的翻译标准具有更高的准确性。
输入(西班牙语) | |
参考译文(英文) | |
基线级联翻译 | |
TranslateTron翻译 |
机器翻译的端到端模型自2016年首次发布以来一直在研究中,但端到端模型被证明比2017年的先前模型更好.Translattron基于序列到序列网络使用频谱图信息并为目标语言翻译生成频谱。它也是使用Bokker将输出频谱转换为时域波形的功能之一,或者是用于保持扬声器的声音并在转换后合成语音的扬声器编码器。欲了解更多信息,请点击这里 。
Add comment