科技食谱

尝试通过AI的重复捉迷藏来创建复杂的策略

OpenAI正在观察机器学习代理,这些代理通过进行简单的隐藏和搜索来发展为使用越来越复杂的工具。 AI重复捉迷藏并自行完善6种策略和对策。 AI独立显示出如此复杂的协作适应性这一事实表明,未来可能会出现更复杂,更智能的运动。

在捉迷藏中,AI既扮演隐藏角色,又扮演幽灵角色。隐藏的角色以蓝色显示,而幻影角色以红色显示。隐藏的作用是从幻影角色的角度看不见的运动,并且幻影的角色移动以了解Xia中隐藏的内容。没有输入有关捉迷藏的详细信息,隐藏了狩猎时反复播放捉迷藏的区域,并放置了一些有用的对象,并且真实地再现了实际的捉迷藏环境。

可以测量隐藏角色和重影角色周围的对象之间的距离,并且当重影角色扮演隐藏角色时,凝视像光束一样显示。如果您尝试在没有输入代理的情况下进行隐藏和查找,则它首先会完全随机移动,但是当隐藏和查找命中数达到269万时,隐藏角色将隐藏在对象的阴影中,并且鬼角色跟随隐藏角色。在860万集之后,您可以学习如何操作实体并将其锚定在入口处。另外,对象只能以隐藏角色固定,并且一旦固定的块保留在原处,直到扮演隐藏角色。

如果将对象固定在入口处,则找不到幻影角色。但是,从862万到1,450万,幻影站在捉迷藏期间移动了三角形的柱状对象,并使用坡度发现了房间中的隐藏物。在1450万至4340万次之间隐藏的角色将学习如何隐藏自身,以使幻影角色不使用坡度。

学习如何在几乎没有墙壁的环境中追捕隐藏角色多达2200万次的角色。学生将学习如何使用2200万到8800万次的盘子来形成庇护所。另一方面,幽灵站使用坡度的方法从8800万增加到1.15亿次,固定坡度的方法(一种新的对策)从1.15亿次压缩到3.82亿次。

斜坡是固定的,我认为那是绝望的,但是鬼角色将立方体移到斜坡的侧面,然后骑在斜坡上的立方体上。它骑在立方体上时会移动,并发现其隐藏在避难所内的作用。在这个立方体上冲浪的方式是进行3.86亿到4.58亿次的捉迷藏,而隐藏的作用固定了所有物体并形成了庇护所。当在这种状态下隐藏的角色找到新的方式时,幽灵的角色为此创建了策略并重复执行此策略以创建高级隐藏和查找。

对于代理商来说,在复杂的环境中导航是非常困难的,因为他们必须为AI行为设计和设置很多东西,以使代理商无法做出复杂的动作。但是,可以说,在训练AI模型作为实验的同时,通过分配不同的角色进行竞争,AI可能会产生有用的技能。

Open AI表示,结果使人相信,在更加自由和多样化的环境中使用多种代理的方法非常复杂,并且可能导致与人类有关的行为。相关信息可以在这里找到。