Google 和柏林工业大学(Technical University of Berlin)的 AI 研究人员共同推出多模态视觉语言模型(VLM)PaLM-E。模型共有 5620 亿组参数,因整合了视觉和语言,可用於在模拟情境和现实世界中控制机器人。
此模型是基於 Google 的大型语言模型 PaLM,E 指的是模型「实体化」(embodied)的特点。当接收到指令,例如「从抽屉里拿出一包零食给我」时,PaLM-E 可为具有手臂的移动机器人平台规划行动计划,并让机器人自行完成任务。
PaLM-E 是通过分析机器人镜头的数据来实现自动化, PaLM-E 会将图像或感应器的数据编码成大小和语言标记(token)相同的向量序列,这使 PaLM-E 能如同处理语言一般,去理解这些感官资讯。
机器人也能够针对在任务期间发生的干扰有应对机制,例如一位研究人员从机器人手中抢走了零食并将其放回抽屉,机器人可重新定位零食并再次抓取。
另外,PaLM-E 模型也可控制机器人自主完成原需人类指导的复杂任务。除了机器人技术外,Google 研究人员还观察到使用大型语言模型作为 PaLM-E 核心的几个有趣效果,其中一个是 PaLM-E 能表现出「正向转移」,这意味其可将从一个任务中学到的知识和技能转移到另一个任务中,相较单任务机器人模型能有更好的表现。
Google 研究人员计划未来将探索 PaLM-E 在现实世界中有更多应用,例如家庭自动化或工业机器人,也希望 PaLM-E 能够激发更多关於多模态 AI 的应用。
身为 Google AI 劲敌的微软(Microsoft)近期也发表了「ChatGPT for Robotics」的论文,以类似的方式结合视觉数据和大型语言模型来控制机器人。
资料来源:Ars Technica、Analytics India Mag
责任编辑:Jocelyn
核稿编辑:Chris