谷歌AI为达目的，把自己的身体改造成了这样……

来源：量子位（QbitAI）强化学习AI打游戏，早就不稀奇了。智能体在虚拟世界里死去活来，慢慢了解怎样的策略能让自己活得更长，得到更多的奖励。但AI可能不知道，游戏打不好，也可能是智能体的身体结构有问题。如果可以一边学策略，一边改身材，或许能成就更伟大的强化学习AI。于是，来自谷歌大脑的David Ha，为自家AI制定了双管齐下的特殊训练计划：智能", "pubDate": "2018-10-15T15:28:13", "upDate": "2018-10-1 发布时间：2018-10-15浏览：3410次

谷歌AI为达目的，把自己的身体改造成了这样……△ 今天的主角，可能是AI界的橡胶果实了　　文/强化栗　　来源：量子位（QbitAI）　　强化学习AI打游戏，早就不稀奇了。　　智能体在虚拟世界里死去活来，慢慢了解怎样的策略能让自己活得更长，得到更多的奖励。　　但AI可能不知道，游戏打不好，也可能是智能体的身体结构有问题。　　如果可以一边学策略，一边改身材，或许能成就更伟大的强化学习AI。　　于是，来自谷歌大脑的DavidHa，为自家AI制定了双管齐下的特殊训练计划：　　智能体不断调整自己的身材，比如腿的长度...

△ 今天的主角，可能是AI界的橡胶果实了

　　文/强化栗

　　来源：量子位（QbitAI）

　　强化学习AI打游戏，早就不稀奇了。

　　智能体在虚拟世界里死去活来，慢慢了解怎样的策略能让自己活得更长，得到更多的奖励。

　　但AI可能不知道，游戏打不好，也可能是智能体的身体结构有问题。

　　如果可以一边学策略，一边改身材，或许能成就更伟大的强化学习AI。

　　于是，来自谷歌大脑的David Ha，为自家AI制定了双管齐下的特殊训练计划：

　　智能体不断调整自己的身材，比如腿的长度，找到最适合当前任务的结构；同时进行策略训练。

△身材修炼前 (左) vs 身材修炼后 (右)：速度明显不一样

　　你看，智能体把腿跑细了，速度也快了许多。

　　除此之外，还可以培养越野能力。

　　在沟壑纵横的旅途中，原始身材的智能体时常翻车。

△ 改造前，翻车日常

　　但炼成优雅身型之后，翻车事件几乎不存在了，策略训练时间也缩减到原来的30%。

　　身材科学了，策略也就好学了。

　　那么，是怎样的婀娜身段，能在降低时间成本的同时提升性能？再看一会儿你就知道了。

　　秀外慧中，有何密方？

　　从前的智能体，形状结构大都是固定的，只关注策略训练。可是，系统预先设定的身材，通常都不是 (针对特定任务) 最理想的结构。

　　因此，如同上文所说，策略要学，身材优化也要一起学。

　　这样一来，只用策略网络的权重参数 (Weight Parameters) 来训练就不够了，环境也要参数化。

　　身体结构特征，比如大腿或小腿的长度、宽度、质量、朝向等等，都是这环境的组成部分。

　　这里的权重参数w，把策略网络参数和环境参数向量结合起来，便可以同时培养身材和技巧。

　　随着权重w的不断更新，智能体会越来越强。

　　身材改造有没有用？只要和仅学策略、不改结构的智能体比一场，如果奖励分有提升，就表示AI找到了更适合这个环境的身型。

　　注意，为了修炼AI的冒险精神，研究人员把高难度动作的奖励扩大，引导智能体挑战自我。

　　身材改造，疗效甚好

　　比赛场地分两大块，一是基于Bullet物理引擎的机器人模拟库Roboschool，二是基于Box2D物理引擎的OpenAI Gym。

　　两类环境都经过了参数化，AI可以学着调整里面的参数。

　　解锁高分姿势

　　首先，来到足球场 (RoboschoolAnt-v1) ，这里的智能体Ant是只四脚怪，每条腿分三截，由两个关节控制。腿是留给AI调节的，球状身躯是不可调节的。

△ 三截腿，最内侧的一截比较不明显

　　任务很简单，跑得越远越好。

　　经过训练 (上图右) ，智能体最明显的变化是腿部更加细长了，且四条腿长短不一，打破了对称性。身材改变之后，步频也加快了许多，长腿怪更早穿过了棕色跑道。

　　看一下奖励分：在100次测试里，原始结构的得分是3447 ± 251，而新结构的得分为5789 ± 479，疗效显著。

△ 左为原始，右为身材训练后 (红线代表激光雷达)

　　然后，进入绿地场景 (BipedalWalker-v2，基于Box2D，属于Gym) 。这里的智能体是两足的，在“激光雷达”的指引下往前走。

　　任务是在规定时间内，穿越一片和平的地形 (这是简单版，充满障碍物的复杂版见下文) 。用分数来看，100次Rollout超过300分就算任务成功。

　　原始身材获得了347分，优化后的身材则有359分。

　　两边任务都成功了，但改造过结构的智能体除了瘦腿之外，两腿四截的长度都有变化，给了AI弹跳前进的新姿势。动作看上去更加轻松，分数也高过从前。

　　好身材，能加速策略学习

　　上文绿地的硬核版 (BipedalWalkerHardcore-v2) 在此：路途崎岖，千山万壑，一不小心就会堕入深渊。

　　David Ha要在此证明，强健的身材能为智能体的策略学习带来加成，而不只是“两门功课同步学”那样粗暴的合体。

　　与之前的全面瘦腿不同，这次智能体的后腿，进化出了厚实的小腿，且长度和沟壑的宽度相近。

△ 红线代表激光雷达

　　这样一来，在跨越鸿沟的时候，后腿就能架起一座桥，保护智能体平稳通过，不翻车。

　　与此同时，前腿承担了“危险探测器”的责任，侦查前方有怎样的障碍物，作为“激光雷达”的辅助，可以给后腿的下一步动作提供依据。

　　重点是，在这副新身材诞生的过程中，AI已学会了通关策略，耗时仅12小时。对比一下，不做身材优化的原始训练方法，用时长达40小时 (前馈策略网络，96个GPU) 。

　　这就是说，优雅的结构加速了智能体的学习过程。

△ 加入身材优化(橙色) ，训练效率明显提升，约1000代达成目标

　　脑洞，并非从天而降

　　第一，David Ha如何能预感到，改善智能体的结构就可以提升训练效率？

　　他说，是从大自然得到了启发。

△ 错误示范

　　有些动物在脑死亡之后，依然可以蹦跳，依然可以游泳。

　　也就是说，生物体的许多行为，并不依赖大脑。

　　有种叫做体验认知 (Embodied Cognition) 的理论认为，认知的许多特征，都不是大脑独自决定：生物体的方方面面，如运动系统、感知系统、生物体与环境的相互作用等等，都会对认知产生影响。

　　比如，运动员在长期训练的过程中，除了身体得到锻炼，某些特定的心理素质也会随之生成。

　　David Ha觉得，这样的现象在AI身上也有可能发生：对躯体进行训练，从而影响认知。

　　第二，通过训练来改变智能体结构的想法，也是来源于自然。

△ 火烈鸟本不是红色，吃了小鱼小虾之类的食物，羽毛才变红

火烈鸟本不是红色，吃了小鱼小虾之类的食物，羽毛才变红

　　中学生物告诉我们，表现型是基因型与环境共同作用的结果。

　　那么，各式各样的虚拟场景，也会让更适应环境的智能体结构脱颖而出。这样，AI便可以借助环境的选择，炼成更加精湛的技能。

　　缘，妙不可言。

新《电商法》将至，朋友圈里的代购们如何“绝地求生” 80后网警受贿2千万:查获源代码交他人开赌场获利2亿

优化型网站建设推荐: 郑州网站建设开封网站建设平顶山网站建设安阳网站建设鹤壁网站建设新乡网站建设焦作网站建设濮阳网站建设许昌网站建设漯河网站建设三门峡网站建设南阳网站建设商丘网站建设信阳网站建设周口网站建设驻马店网站建设上海网站建设广州网站建设深圳网站建设北京网站建设杭州网站建设长沙网站建设苏州网站建设南京网站建设天津网站建设武汉网站建设成都网站建设大连网站建设东莞网站建设佛山网站建设乐清网站建设海南网站建设宁波市网站建设南昌网站建设福州网站建设常州网站建设南通网站建设长春网站建设东营网站建设南宁网站建设青岛网站建设邯郸网站建设保定网站建设安溪网站建设东明网站建设

十年技术深耕细作

谷歌AI为达目的，把自己的身体改造成了这样……