AI 攻进实体世界?Google 新语言模型 PaLM-E,可让机器人自动拿取零食

Google 和柏林工业大学共同推出多模态视觉语言模型 PaLM-E,成功控制机器人完成从抽屉拿出零食的任务。

Google 和柏林工业大学(Technical University of Berlin)的 AI 研究人员共同推出多模态视觉语言模型(VLM)PaLM-E。模型共有 5620 亿组参数,因整合了视觉和语言,可用於在模拟情境和现实世界中控制机器人。

此模型是基於 Google 的大型语言模型 PaLM,E 指的是模型「实体化」(embodied)的特点。当接收到指令,例如「从抽屉里拿出一包零食给我」时,PaLM-E 可为具有手臂的移动机器人平台规划行动计划,并让机器人自行完成任务。

PaLM-E 是通过分析机器人镜头的数据来实现自动化, PaLM-E 会将图像或感应器的数据编码成大小和语言标记(token)相同的向量序列,这使 PaLM-E 能如同处理语言一般,去理解这些感官资讯。

机器人也能够针对在任务期间发生的干扰有应对机制,例如一位研究人员从机器人手中抢走了零食并将其放回抽屉,机器人可重新定位零食并再次抓取。

另外,PaLM-E 模型也可控制机器人自主完成原需人类指导的复杂任务。除了机器人技术外,Google 研究人员还观察到使用大型语言模型作为 PaLM-E 核心的几个有趣效果,其中一个是 PaLM-E 能表现出「正向转移」,这意味其可将从一个任务中学到的知识和技能转移到另一个任务中,相较单任务机器人模型能有更好的表现。

Google 研究人员计划未来将探索 PaLM-E 在现实世界中有更多应用,例如家庭自动化或工业机器人,也希望 PaLM-E 能够激发更多关於多模态 AI 的应用。

身为 Google AI 劲敌的微软(Microsoft)近期也发表了「ChatGPT for Robotics」的论文,以类似的方式结合视觉数据和大型语言模型来控制机器人。

资料来源:Ars Technica、Analytics India Mag

责任编辑:Jocelyn
核稿编辑:Chris

红海加速器好用吗

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x