微软，对图像的字幕不仅具有人为的准确性…

lswcap

4 년 ago

微软宣布已经建立了一个新的产生字幕的人工智能模型，该模型可以为图像添加比人类更准确的描述。

Microsoft技术研究员CTO Huang Xuedong解释了字幕创建工具，字幕创建系统是启用各种服务的关键计算机视觉功能之一。

Microsoft的新建字幕生成AI模型可通过Azure认知服务计算机视觉产品获得，该产品是Azure AI服务的一部分。开发人员还可以通过使用此功能来改善其服务可访问性。字幕生成AI模型已经包含在Seeing AI中，该视觉应用是由Microsoft开发的，适用于视障人士的摄像头应用程序，并将在2020年末集成到Windows和macOS版本的Microsoft Word，Outlook和PowerPoint中。

Microsoft Caption Generation AI模型可以为任何照片添加字幕，从搜索引擎中显示的图像到PowerPoint中嵌入的照片。微软AI平台小组的软件工程经理Saqib Shaikh表示，使用为照片添加标题以创建包含在网页或文档中的照片描述的功能适用于盲人或弱视人群。解释很重要。

开发团队致力于将字幕生成AI模型集成到Seeing AI中。看到AI会在通过摄像头照明时创建字幕，并通过它帮助盲人了解他面前的事物。理想情况下，可以为文档，网络和社交媒体上的所有图像加上字幕，以使视障人士可以访问所有信息，从而可以像围绕他们一样继续进行对话。不幸的是，它解释说提供图像字幕的应用很重要，因为人们不会全都对每个图像进行解释或添加字幕。

微软实验室经理王丽娟说，照片说明是计算机视觉领域的主要挑战，人工智能需要正确理解和解释图像元素。您需要了解图片中正在发生的事情，以便您可以了解对象与动作之间的关系，并用自然语言句子对其进行概括。

据说，由微软创建的字幕生成AI模型在图像字幕基准nocap中得分等于或高于人类。 Nocaps对未包含在训练数据集中的AI模型字幕图像的准确性进行评分。字幕生成AI模型使用丰富的图像数据集与单词标签组合，以预训练AI模型并加强带有单词标签的特定对象的映射。

Microsoft加强带有单词标签的特定对象的映射的方式类似于教孩子关于猫的知识，例如，使用猫的图片和印有猫的文字的书。预先学习单个单词的AI模型通过使用包含以下字幕的图像数据集进行训练来提高字幕的准确性。这使字幕生成AI可以使用自然词汇为新图像生成准确的字幕。

此外，据说使用行业中广泛使用的其他基准，Microsoft字幕生成AI模型的性能是自2015年以来在Microsoft产品中使用的图像字幕模型的两倍。有关相关信息，请参见此处。

이 글 공유하기: