主頁 tech 观看一个机器人在谷歌DeepMind办公室中使用Gemini导航

观看一个机器人在谷歌DeepMind办公室中使用Gemini导航

By

極點視野

-

Wednesday, April 16 2025

生成式人工智能在机器人领域已经展现出许多潜力。应用领域包括自然语言交互、机器人学习、无代码编程甚至设计。谷歌的DeepMind机器人团队本周展示了两个领域之间的另一个潜在契合点：导航。

在一篇名为“Mobility VLA: 使用长上下文VLM和拓扑图进行多模态指令导航”的论文中，团队展示了他们如何利用Google Gemini 1.5 Pro教导机器人响应命令并在办公室内导航。当然，自从谷歌去年关闭项目并进行大规模裁员以来，DeepMind使用了一些一直在身边晃悠的《每日机器人》。

在附着在该项目上的一系列视频中，DeepMind员工以智能助手风格的“OK，机器人”，然后要求系统在9,000平方英尺的办公空间中执行不同任务。

图片来源：Google DeepMind

在一个示例中，一名谷歌员工要求机器人带他去某个地方画东西。“好的，”机器人戴着一个时髦的黄色领结回答说，“给我一分钟。用Gemini思考…”然后机器人继续引导人类到一个墙大小的白板。在第二个视频中，另一个人告诉机器人按照白板的指示前进。

一个简单的地图向机器人展示如何到达“蓝色区域”。机器人再次思考片刻后，采取了一条漫长的路线，结果证明那里是一个机器人测试区域。“我成功地按照白板上的指示行动了，”机器人宣布，表现出大多数人类只能梦想的自信水平。

在这些视频之前，团队使用他们所称的“展示游 (MINT) 多模式指令导航”让机器人熟悉了办公空间。这实际上意味着在点语言提示下将机器人在办公室中走动。接下来，团队利用分层视觉-语言-动作 (VLA)来“结合环境理解和常识推理能力”。一旦这些过程结合起来，机器人就可以响应书面、绘制的命令以及手势。

图片来源：Google DeepMind

谷歌表示，该机器人在与员工进行超过50次交互中成功率约为90％。