Google AI 有新招：强化学习训练打扫机器人，清桌子又快又乾净！

Google 团队於近期发表了新论文，透过视觉观察和强化学习（Reinforcement learning）并藉轨迹优化机器人动作，达到零样本（zero-shot）前提下让机器人成功擦拭桌面脏污。

像擦桌面、折衣服等重复性高的任务虽然适合交由机器人，但仍颇具挑战性。例如擦桌子的动作，机器人该如何根据图像来规划出最佳解方？该如何擦拭，以避免洒出来的脏污面积扩散开？又该如何在避免撞到附近障碍物的情况下，到达能擦到桌子的位置？

目前像强化学习等技术有望解决这些复杂的任务，但若要应用在机器人上，则须仰赖收集大量的数据，以及运用准确但昂贵的模型。

因此 Google 团队提出方法是在不需特定任务相关的训练数据下，就能基於图像观察规划出有效的强化学习策略，并零样本的转移此方法至硬体设备，促机器人成功擦拭桌子。

团队透过随机微分方程（SDE），生成了一个 SDE 模拟器，共具有四大功能，分别可描述被擦拭动作推动的乾物件，和在擦拭过程中被吸收掉的液体；同时捕捉到桌面上多个独立的脏污；将脏污与机器人互动後的不确定性模组化；模拟的速度比实际时间快。

SDE 模拟器能进而产生大量用於强化学习的训练数据。团队接着再将强化学习的策略，透过能快速计算底座和手臂关节轨迹的优化工具来执行。团队表示此种方法也可以避免碰撞障碍物，并实现在零经验模拟下将策略部属到真实世界，并已在模拟环境中和实际硬体设备上验证了此方法。

资料来源：Google Research

责任编辑：Jocelyn
核稿编辑：Chris

Related Posts