科技食谱

Facebook开发无英语的100种语言翻译系统

Facebook开发了一种新的机器翻译系统M2M-100,该系统可以使用自动机器翻译将平台上发布的几乎所有内容翻译为用户的语言。 M2M-100是一种机器翻译系统,可以直接翻译100种语言,而不是英语作为中间语言。

Facebook每天仅在News Feed中提供200亿笔翻译。但是,该翻译系统通常使用英语作为中间语言。例如,如果您从中国翻译成法语,则首先要经历将中文翻译成英语,然后再将英文翻译成法语的过程。

之所以使用此方法,是因为英语和其他语言翻译数据集很大。但是,由于英语的介入,翻译的整体准确性下降。 Facebook AI方面指出,世界上有很多地区会说英语以外的其他语言,因此,满足不懂英语的人的需求是机器翻译系统的一项重要任务。在Facebook平台上,每天都会发布数十亿条帖子,但是帖子使用160种语言,其中三分之二以上的语言不是英语。

因此,Facebook开发了M2M-100,这是一种新的机器翻译系统,可以直接翻译两种语言而无需使用英语作为中间语言。 Facebook声称M2M-100是第一个能够以任何方向直接翻译100多种语言的多语言机器翻译模型。

在开发M2M-100时,Facebook建立了100种语言的75亿个句子的庞大数据集。据说文本数据是使用Common Crawl收集的,它将对网页进行爬网,然后使用称为FastText的文本分类系统指定文本语言。

翻译数据通常是使用人工翻译创建的,但要找到会说法语和泰米尔语的翻译员比要会说英语和泰米尔语的翻译员要困难得多。为了获得用于英语以外的其他语言的直接翻译的数据,研究团队使用了一种工具,该工具根据称为LASER(语言不可知的句子表示)的多语言句子的含义进行映射。

Facebook还推出了一种基于语言分类,地理和文化相似性将语言分为14组的策略。属于同一组的语言往往会更频繁地交流,因此有更高质量的交互式翻译数据。当然,并不是所有的语言在Internet上都有很多可用的文本,因此研究团队将重点放在单一语言的数据上。 Facebook方面以中文译成法文为例,目标是将中文译成法文,但是如果由于某种原因而无法获得足够的数据,它会使用法语单语数据进行改进,并颠倒称为法语的系统到中文翻译。培养。例如,维基百科获取所有法语数据并将其翻译成中文。通过将反向翻译获得的新文本添加到数据集中,增加可用于输入和输出的数据,机器翻译系统将变得更加强大。

与使用英语作为中间语言的机器翻译系统相比,以这种方式开发的M2M-100据说在衡量机器翻译准确性的BLEU(双语评估研究)分数上超过10分。当然,M2M-100所不包括的语言仍然很丰富,是否会导致以后可以直接翻译所有语言的系统的开发仍然未知。相关信息可以在这里找到。

lswcap

lswcap

通过每月的AHC PC和HowPC杂志时代,他在网络IT媒体上观看了“技术时代”,如ZDNet,电子报互联网经理,Consumer Journal Ivers的编辑,TechHolic出版商和Venture Square的编辑。 我很好奇这个仍然充满活力的市场。

Add comment

Follow us

Don't be shy, get in touch. We love meeting interesting people and making new friends.

Most discussed

%d 블로거가 이것을 좋아합니다: