科技食谱

能够执行各种由语言命令的任务的人工智能

来自 NVIDIA 和华盛顿大学的一组研究人员发布了 CLIPort,这是一种机器学习框架,不仅可以精确操纵机械臂上的特定对象,还可以理解自然语言中的对象抽象。

最近的研究表明,端到端网络可以让人工智能获得需要空间推理的微妙操纵技能。但是,他指出,还有很多东西不能推广应用到新技术上,或者同样的概念可以用现有的方法转移到其他技术上。此外,通过大规模数据学习在学习视觉和语言可概括意义方面取得了重大进展,但这缺乏准确工作所需的空间理解。

研究团队开发了一个名为 Clipport 的框架,它结合了具有空间精度的 Transporter Networks 架构和根据语言理解各种图像含义的 Clip 架构,以实现基于视觉的操作。

此外,结合两种架构来操纵机械臂的想法是基于两条视觉路径的假设(据说是由双流假设触发的。

Clipport 执行自然语言指示的各种任务,无需明确表达,例如面向对象、状态实例分割和语法结构。通过演示,研究小组将布料折叠展开,将散落的物体放入碗中,将指定的物体放入盒子中,移动棋架,放入散落的水,摘下樱桃,放入盒子中,阅读盒子里的字母,把物体放在指定的盒子里据说准备了9个任务,包括按照指示插入和移动绳子,但数据集的数量只有179个。

即使在干扰碗位置的测试中,Clipport 也成功地将碗准确地插入块中。此外,Clipport 用于识别物体的图像识别算法 Clip 可以识别先前学习过的物体以及第一次看到的物体。在将指示的物体放入盒子的测试中,当指令夹放置一个从未见过的蓝色白板标记时,机械臂准确地抓住了标记。据说 Clipport 还能够按照指示移动国际象棋框架,将特定物体放入指定的盒子中,扫咖啡豆,并完成各种任务。相关信息可以在这里找到。

lswcap

lswcap

通过每月的AHC PC和HowPC杂志时代,他在网络IT媒体上观看了“技术时代”,如ZDNet,电子报互联网经理,Consumer Journal Ivers的编辑,TechHolic出版商和Venture Square的编辑。 我很好奇这个仍然充满活力的市场。

Add comment

Follow us

Don't be shy, get in touch. We love meeting interesting people and making new friends.

Most discussed

%d 블로거가 이것을 좋아합니다: