
生成式人工智能在机器人领域已经展现出许多潜力。应用领域包括自然语言交互、机器人学习、无代码编程甚至设计。谷歌的DeepMind机器人团队本周展示了两个领域之间的另一个潜在契合点:导航。
在一篇名为“Mobility VLA: 使用长上下文VLM和拓扑图进行多模态指令导航”的论文中,团队展示了他们如何利用Google Gemini 1.5 Pro教导机器人响应命令并在办公室内导航。当然,自从谷歌去年关闭项目并进行大规模裁员以来,DeepMind使用了一些一直在身边晃悠的《每日机器人》。
在附着在该项目上的一系列视频中,DeepMind员工以智能助手风格的“OK,机器人”,然后要求系统在9,000平方英尺的办公空间中执行不同任务。

在一个示例中,一名谷歌员工要求机器人带他去某个地方画东西。“好的,”机器人戴着一个时髦的黄色领结回答说,“给我一分钟。用Gemini思考…”然后机器人继续引导人类到一个墙大小的白板。在第二个视频中,另一个人告诉机器人按照白板的指示前进。
一个简单的地图向机器人展示如何到达“蓝色区域”。机器人再次思考片刻后,采取了一条漫长的路线,结果证明那里是一个机器人测试区域。“我成功地按照白板上的指示行动了,”机器人宣布,表现出大多数人类只能梦想的自信水平。
在这些视频之前,团队使用他们所称的“展示游 (MINT) 多模式指令导航”让机器人熟悉了办公空间。这实际上意味着在点语言提示下将机器人在办公室中走动。接下来,团队利用分层视觉-语言-动作 (VLA)来“结合环境理解和常识推理能力”。一旦这些过程结合起来,机器人就可以响应书面、绘制的命令以及手势。

谷歌表示,该机器人在与员工进行超过50次交互中成功率约为90%。