科技食谱

自然语言处理AI模型“容易被释义”

自然语言处理是一种允许计算机处理人类共同使用的自然语言的技术,被认为是人工智能技术改进的发展领域之一。它用于过滤垃圾邮件中的有害邮件和SNS帖子中的大量文章。此外,它还用于识别假新闻,但指出用于自然语言处理的AI模型容易受到偏执狂攻击。

IBM,亚马逊和德克萨斯大学的研究人员进行的一项研究发现,使用正确的工具将允许恶意攻击者攻击自然语言处理中使用的文本分类算法,并以恶意方式操纵算法行为。攻击这里提到的文本分类算法的方法称为寄生攻击。研究人员解释说,他们改变句子词,使他们只改变AI算法的句子分类,而不改变实际的句子含义。

为了理解寄生攻击结构,研究人员使用AI算法来评估电子邮件或短信,并将其分类为加盖印章。 parry攻击修改垃圾邮件的内容,使句子的含义不会改变,并诱导原始AI判断电子邮件中没有垃圾邮件被判定为垃圾邮件。句子的含义被改变,因此它不会改变。

过去,已经开展了关于如何破解AI模型的研究,例如如何绑架神经网络。然而,攻击原始文本模型比修改计算机视觉或语音识别算法困难得多。

自然语言处理专家表示,语音和视频可以完全区分。例如,如果您有图像分类算法,则可以稍微更改图像像素的颜色以观察AI模型将输出的内容。此方法可以轻松找到AI模型中的漏洞。

但是,文本模型很难设置具有超过10%的图片中句子的相同子句,并且它不包含,包含或分类相同的单词。因此,要有效地找到文本模型的漏洞并不容易。

对文本模型的攻击研究已经成为过去。有一种方法可以改变一个词。这种方法成功地改变了AI算法的输出,但输出通常是一种人为创造的句子。研究人员不仅改变了句子中的单词,还研究了他们是否可以通过使用维持长句子的方法来有意改变文本模型的输出,同时保留单词的解释或语义。

研究人员成功地开发了算法,以找到可能故意操纵自然语言处理模型输出的句子最优变更。该算法的约束是确认修改的句子在语义上是否与原始句子相似。我们开发了一种算法,可以在许多组合中搜索最佳产品,以找到对AI模型输出影响最大的单词或句子范例。

使用团队开发的算法,他们也成功地改变了假新闻过滤器或垃圾邮件过滤器的输出。我觉得同一个句子有点改变同一个句子,但我成功地将AI模型评审从100%正面改为100%负面。

释义攻击的观点是人类没有被察觉,因为它只改变了一些单词,同时保持了原始句子的含义。作为测试人类测试者以评估原始句子和修改的句子的结果,结果发现人们很难识别出算法改变的句子意义差异。

即使当前关于假释攻击的句子中有拼写错误,也没有人认为这是一个安全问题。然而,在不久的将来,可能是时候添加一个设备来攻击这个位置的AI模型并对其进行反击。因为技术公司使用自然语言处理来对内容进行分类,所以它很容易受到像这样的攻击。此类攻击可能导致新的安全风险。

特别地,指出可能发生某个人通过对文本模型的检查以便将他/她的内容批准为攻击,该攻击被改变为公司用于招募的简历处理模型。欲了解更多信息,请点击这里