Google的神经机器翻译存在一个问题,即如果对翻译前的句子进行了微妙的修改,翻译后的句子将发生显着变化。为了克服这一弱点,Google新推出了一种翻译模型,该模型引入了一种算法,该算法通过在图像上放置无法识别的噪声信号来使人感到困惑(参考示例)。
使用Google Transformer模型的神经网络机器翻译需要基于深度神经网络的显式语言规则,并转换为端对端并行语料库。但是,如前所述,神经网络机器翻译的一个缺点是对输入信息的细微变化敏感。如果仅将文本中的一个单词更改为同义词,则翻译可能会完全不同。
一些公司和组织表示,由于缺乏鲁棒性,因此无法将神经网络机器翻译集成到系统中。还指出,由于将许多文本发布到机器翻译中,导致维基百科本身的信誉受到损害。
Google正在研究以解决此问题。其中一种方法是6月发表的论文。它引入了一种称为对抗示例的算法,该算法通过放置人类无法识别的噪声信号来混淆翻译模型。该技术受敌对发电网络GAN的启发,它不依赖鉴别器来确定真实性,而是将敌对情况引入学习中,并使训练集多样化和扩展。
通过对汉英和英德组合进行基准测试,开发团队发现,与现有的转换器模型相比,BLEU分数分别提高了2.8和1.6分。
这项研究结果可以说是有意义的,因为它表明有可能克服现有神经网络机器翻译的缺点,例如缺乏鲁棒性。即使与竞争模型相比,新模型也显示出高性能,因此,预计该转换模型将对将来的下游工作很有用。相关信息可以在这里找到。
Add comment