科技食谱

维基百科,机器翻译和可靠性之间

维基百科有几种语言版本。但是,由于机器翻译,某些英文Wikipedia的翻译版本难以理解,这可能会导致尴尬。

Wikipedia的政策和指南规定,Wikipedia的目标是创建一个质量和数量上最大的百科全书库,作为一个免费,可靠的百科全书库。但是,即使是在特定语言区域中流行的单词,如果在不以母语流行的地方被视为机器翻译,也可能会感到困惑。

维基百科最大的社区是英语。有超过一百万种文字,说出了300种语言中的15种。实际上,互联网上最常用的语言是英语和中文。因此,英语和母语之间的差异可能会很严重。

维基百科表示,它计划与Google翻译合作翻译文章。根据Wikimedia的新闻稿,祖鲁语的使用人数超过1200万人,但是Wikipedia中只有1100种文字。这是一种扩展多种语言的策略。

这是由Google开发的CTT(内容翻译工具)。从7月开始,测试版仅限使用。到目前为止,据说已有40万篇Wikipedia文章通过此工具进行了翻译。该新闻稿明确指出,该测试是使用机器翻译(包括Google翻译)的功能进行翻译的。通过这种方式,可以翻译内容的121种语言。

CTT似乎很方便,但似乎也存在风险。可能会出现问题,例如葡萄牙编辑误解为机器翻译的质量很差,而乡村水泵向乡村投下了炸弹。

在最近的机器翻译中,经常使用术语人类奇偶校验。这意味着翻译的质量因人而异。实际上,人类水平质量的质量通常仅基于极其有限的实验结果,许多语言尚未达到这一水平。

对于Wikipedia中的印度尼西亚语,也有官方要求禁止使用翻译工具。人们担心这个问题是否会损害维基百科的信誉。 Google的翻译质量正在提高,但是按语言翻译的质量似乎仍存在很大差异。专家说,值得讨论的是通过将社区聚集在一起来改善机器学习的努力。这是因为通过诸如机器翻译校正之类的困难方法会损失效率。为了翻译语言或术语,如果您不以文化为背景,那么简单的文字翻译可能会引起问题。因此,小的翻译文档中仍然存在错误。相关信息可以在这里找到。