
谷歌旗下人工智能研究部门Google DeepMind宣布推出新的人工智能模型“ RT-2(Robotics Transformer 2) ”。这是世界上第一个 VLA(视觉-语言-动作)模型,它使用从互联网收集的数据,并通过简单的语言命令实现更好的机器人控制。据该公司称,最终目标是创造一种通用机器人,可以像科幻小说中的虚构机器人一样在人类环境中导航。
该公司表示,训练机器人是“一项艰巨的任务”。这是因为机器人需要接受关于世界上每个物体、环境、任务和情况的数十亿个数据点的训练。但谷歌表示,RT-2具有成为多功能机器人的巨大潜力。
当人类尝试学习一项任务时,我们经常阅读或观察。同样,RT-2 使用基于在线文本和图像训练的大型语言模型 (LLM)。RT-2 使用这些信息来识别模式并执行操作,即使机器人没有经过专门训练来执行该任务。
例如,RT-2机器人无需特殊训练即可识别并处理垃圾。RT-2 了解垃圾是什么、通常如何处理垃圾并指导其行动。尽管存在潜在的歧义,RT-2 甚至认为废弃的食品包装和香蕉皮也属于垃圾。

RT-2 可以执行的常见机器人技能的示例,即使它不在机器人数据中。RT-2 从网络上的数据抓取中了解到了这种行为
另一个例子是,《纽约时报》报道称,当谷歌工程师要求“捡起一种灭绝的动物”时,RT-2机器人在桌子上的三个小雕像中搜索恐龙,我被告知我被选中了。
这个能力值得注意。这是因为机器人通常是根据大量手动获取的数据进行训练的,要覆盖所有可能的场景是一个漫长、昂贵且困难的过程。简而言之,现实世界处于动态混乱状态,物体的情况和配置不断变化。实用的机器人助手需要能够以无法明确编程的方式即时适应。
将 Transformer 应用于现实世界
通过 RT-2,Google DeepMind 采用了一种策略,利用其 Transformer AI 模型的优势,该模型以其泛化信息的能力而闻名。RT-2利用了 Google 之前的人工智能研究,包括Pathways 语言和图像模型 (PaLI-X) 和Pathways 语言模型 Embodied (PaLM-E) 。此外,RT-2 与其前身模型 (RT-1) 的数据进行了共同学习。RT-1 是由 13 个机器人在 17 个月的时间里在“办公室厨房环境”中收集的。
RT-2 的架构涉及使用机器人技术和网络数据微调预先训练的 VLM 模型。因此,该模型会处理机器人的相机图像并预测机器人应该执行的动作。

RT-2 架构和训练:使用机器人和网络数据协同微调预训练的 VLM 模型。
由于 RT-2 使用语言模型来处理信息,因此 Google 选择将动作表示为标记(传统上是单词片段)。“为了控制机器人,需要对其进行训练以输出动作。”该公司表示。
在开发 RT-2 时,研究人员使用了与第一个版本的机器人 RT-1 相同的方法,将机器人的运动分解为更小的部分。通过将这些动作转化为一系列符号或代码(“字符串”表示),他们可以使用与处理网络数据相同的学习模型来教授机器人新技能。发现这是可以做到的。
该模型还利用思想链推理,允许多阶段推理,例如选择替代工具(一块石头作为临时锤子)或为疲倦的人选择最好的饮料(能量饮料)。

思想链推理允许学习独立的模型,可以规划长期技能序列并预测机器人行为
谷歌表示,在 6000 多次试验中,RT-2 在一项名为“seen”任务的预训练任务上的表现与其前身 RT-1 一样好。然而,当在新的“隐形”场景中进行测试时,RT-2 的性能几乎是 RT-1 32% 的两倍,达到 62%。

该公司对 RT-2 所释放的可能性感到兴奋,但表示还需要做大量工作才能使机器人在以人为中心的环境中发挥作用。据 Google DeepMind 称,最终,VLA 模型将催生通用物理机器人,它们可以推理、解决问题和解释信息以执行现实世界的任务。
RT-2 是机器人技术的一大进步,但宣称终结者机器人已经到来是不公平的。该模型仍然需要人工输入和监督,并且在实际的机器人操作中具有显着的技术限制。
但希望我们会看到一些有趣的机器人完成以前不可能或容易的任务。
评论留言