专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
中新经纬  ·  机器人之后,荣耀不止于智能手机制造 ·  17 小时前  
中新经纬  ·  机器人之后,荣耀不止于智能手机制造 ·  17 小时前  
爱可可-爱生活  ·  【[1.8k星]Drawnix:一款一体化开 ... ·  昨天  
爱可可-爱生活  ·  [LG]《General agents ... ·  昨天  
51好读  ›  专栏  ›  AI科技评论

学界 | OpenAI发布开源软件Roboschool,模拟机器人的控制训练

AI科技评论  · 公众号  · AI  · 2017-05-16 20:29

正文

请到「今天看啥」查看全文


agent_zoo 文件夹中,你可以看到三个模拟器的不同训练原则;并在 demo_race 里找到他们三个的跑步比赛视频 demoj 脚本

此前的 OpenAI Gym 模拟器旨在掌握步行控制的要义,只需要学会简单地前进就够了。但实际情况可能复杂许多,且有很多地方尚未被探索过,因此模拟器的单循环策略开始变得不管用, 可能轻轻推模拟器一把,都会让机器人摔个狗啃泥而动弹不得,更不要说完成任务了。

为了解决这一问题,在全新的 Roboschool 中,OpenAI 的研究者设计了两个 3D 类人的模拟器,而在训练任务 HumanoidFlagrun 中,机器人需要朝着不断变动位置的旗子跑去,这一过程能够训练机器人学会放缓速度并转动方向。

而在「困难模式」的 HumanoidFlagrunHarder 中,机器人被赋予「跌倒」的权利,并尝试用双腿站起来。因此,任务的一开始,很可能机器人是躺在地上的。此外,机器人还要抵御不时的「攻击」(见视频),防止因为来自四面八方砸来的小白块而摔倒。

HumanoidFlagrun HumanoidFlagrunHarder 的训练策略也已经在 GitHub 上开源。虽然机器人的步伐看上去并不那么快,形态也不像人般自然,但它所采取的策略已经足以应对非常多的状况,也知道如何控制机器人。我们可以把这个策略当作一个多层感知机,甚于它没有内部状态,我们认为,在某些情况下,智能体应该是采用了自己的手臂存储信息。

就像 AI 科技评论 在前文所提及的一样,Roboschool 致力于让用户在同一模拟器上训练多个智能体,而 RoboschoolPong 就是一个很好的开始,与此同时,还有一大波模拟器正在路上。

通过「左右互博」的乒乓球赛,用户得以在两方同时训练同一个智能体,或是采用同样的算法训练两个不同的智能体,甚至,你也可以让两个独立智能体自行训练(如下面视频所示)。







请到「今天看啥」查看全文