由AI非营利研究机构开放API(API)开发的RND(Random Network Distillation)是一种基于预测的方法,通过根据好奇心搜索环境来学习强化学习代理。然而,Open API表示它已成功学习代理,在游戏Montezuma’s Revenge中使用这样的分数,其表现优于人类平均分数。
RND建议在不熟悉的条件下运行的代理无法预测固定的任意神经网络将如何工作。显然,很难预测在不熟悉的情况下会发生什么,所以奖励更大。
RND也可以应用于任何强化学习算法,其实现简单有效。
使用蒙特萨拉的复仇游戏验证了RND的准确性。选择这款游戏的原因是谷歌开发的游戏学习AI DQN不能超过人类平均得分4,700。在Montesuma的多层1中,有24个房间可用,只有15个DQN可用。
另一方面,通过使用RND学习的AI代理能够搜索级别1的所有24个房间。还可以超过人类平均分数。如果你用各种AI代理玩这个游戏,据说RND超出了人类的平均分数。
Montesuma的报复是DQN的经典游戏,谷歌人工智能,从舞台上掉下来,触及头骨,或主角死亡。
DQN(Deep Q-Network)是由Google下属的人工智能公司Deep Mind开发的。一种基于机器学习和神经科学的通用学习算法。给定最大化游戏屏幕输出信号和分数的简单指令,通过直接玩几次游戏来学习游戏所需的规则。
DQN在几个小时内掌握了Atala 2600游戏的所有49个游戏,其中49个中的43个比AI高,29个比专业游戏玩家高。
然而,这个DQN也在努力报复上面介绍的Montesuma。 DQN在1号和2号房间进行了一亿次练习,找到了一种以不同的动作打破不同模式的房间的方法。因此,它将继续寻找24个中的15个。
出于这个原因,使用DQN测试各种游戏的结果表明,有些游戏可以做得比人类好,但有些东西却没有。如上所述,DQN使用强化学习,一种通过反复试验实现其目标的学习,同时重复几次游戏。通过这种自我学习和知识积累。
在Atari 2600游戏中,当它针对50人时,29人超过了人类,但蒙特苏马的复仇率为0%。
出于这个原因,DeepMind改进了DQN算法,稳定了学习,优先考虑以前的游戏体验,并标准化输出,收集和重新测量。
7月,公开赛人工智能宣布在蒙特苏马的复仇中获得了超过70,000分。 Open AI使用近端策略优化(PPO),这是一种强化学习算法,支持OpenAI Five,一个人类团队在5:5战斗中获胜,如Dota2 ,.这是为了优化游戏得分。
当时,开放的AI必须解决两个学习问题,这些问题需要AI代理搜索一系列导致积极奖励的行为,一系列要记住的行为,以及稍微不同的情况以获得高分。游戏“他说。
当随机工作和奖励时,AI代理可以记住这个动作得到奖励并且可以在实际情况下执行动作。但是,如果你有一个更复杂的游戏,一系列的行动将需要更长的时间来获得奖励,因此这一系列随机工作的概率较低。换句话说,强化学习可能不适合在一系列长任务可能导致奖励的复杂游戏中学习。相比之下,短动作可以在一个简单的游戏中很好地运作,从而获得奖励。
当时,开放API采用了一种方法来了解AI代理在强化学习时如何在演示数据的最近部分中播放。这是重复的,并且代理继续学习玩游戏并且得分高于人类玩家。
然而,逐步学习方法比从一开始学习游戏容易得多,但是存在很多问题。由于任务的随机性,某些动作序列可能无法准确再现。在这方面,我们需要能够概括这种不平等的状态。例如,根据公开的开放时间AI可能很成功在多个Montezuma中其他游戏将应用dwaetdaneun不好(一个开源AI开发时间是github公开的)。
还需要在探索和学习之间取得平衡。如果AI代理的行为过于随机,则可能会出错。相反,如果AI代理人的行为过于确定,他或她将在探索时停止学习。在这方面,我们必须在探索和学习之间找到最佳平衡。随着强化学习的发展,我们可以期待能够响应随机噪声或参数依赖选择的算法。
在这方面,用RND增强的AI代理显示出各种可能性。 AI代理向左或向右移动以获得密钥并推进阶段。不要脱落高,离开脚步,用绳子或步骤移动,不仅仅是收集钥匙,而是收集珠宝以增加你的分数。当你触摸它时,正在消失的门缝会故意消失。它可以像这样打破很多层次。
它不仅打破了游戏,还与舞台上出现的骨架共舞。使用RND学习可以让AI创建具有游戏性的代理,而这些代理甚至没有考虑过。
当DQN和其他人工智能可以执行各种各样的任务时,可以期望将其范围扩展到对社会有益的应用,例如游戏外和医疗保健。