看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

来源：联合早报中文网作者：邵湖心更新时间：2020-09-04 20:08:03阅读：

本篇文章3052字，读完约8分钟

雷锋。(公开号码:雷锋。机器学习可以让机器人学习复杂的技能，比如抓住把手和开门。然而，要学习这些技能，在机器人开始优化之前，有必要手动编写一个奖励函数。相反，人类可以通过观察其他人的实践来理解任务的目标，或者他们只能通过被告知目标是什么来完成任务。目前，谷歌希望教机器人理解语义概念，这样机器人就可以从人类演示中学习动作，理解物体的语义概念，完成抓取动作。

以下是雷科技评论编辑的谷歌博客的一部分。

人类与机器人的不同之处在于，我们可以在不写目标函数的情况下完成许多复杂的任务。我们能做到这一点是因为我们利用了我们对世界的先验知识:当我们看到有人在切苹果时，我们知道我们的目标是切两片苹果，不管它是什么苹果，也不管它用什么工具切苹果。同样，如果我们被告知去摘苹果，我们知道我们应该抓住具体的物体“苹果”，而不是梨或桃子，因为我们可以理解环境中的“苹果”这个词:我们知道这个词的意思。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

这些都是语义概念:例如，将两个苹果切片切割成重要事件，单词“苹果”代表对象类别。那么，我们能教机器人理解语义概念，并让他们通过对象类别标签或用户提供的例子来实现简单的命令吗？在这篇文章中，谷歌研究人员讨论了他们最近在机器人学习方面的一些工作，这些工作结合了机器人收集的经验和人工标注的数据。其中，机器人收集的数据丰富，但缺少人工提供的标签，人工标注的数据可以使机器人更好地理解语义。同时，本文还描述了机器人如何利用自己的经验来理解手动演示中的重大事件，以及理解“玩具”和“笔”等语义类别，从而根据用户命令拾取物体。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

通过深度视觉特征理解人类演示在第一组实验中，研究人员介绍了他们论文的内容:“模拟学习的未保存感知奖励”。目标是使机器人能够理解一项任务，比如打开一扇门，只需要一些没有标记的人类演示。通过分析这些演示，机器人必须了解哪些语义上重要的事件可以使任务成功，然后使用强化学习来执行这些重要的事件。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

左:人类演示右:相应的机器人模拟

对非常小的数据集进行无监督学习是机器学习中最具挑战性的场景之一。为了使这种方法可行，研究人员使用在来自imagenet的图像识别中训练的大型网络的深度视觉特征。这种深度视觉特征对语义概念非常敏感，能够很好地提取语义概念，避免外观和光照等变量的干扰。研究人员使用这些函数来解释用户提供的演示，结果表明，无需额外的训练，就可以在无人监督的情况下从几个演示中学习到奖励函数。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

在通过观察学习了奖励功能之后，研究人员用它来指导机器人学习开门的任务，并且只使用图像来评估奖励功能。在初始动作演示的帮助下，机器人有10%的时间可以成功开门，在机器人使用学习奖励功能继续学习后，准确率可以提高到100%。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

学习过程

在《时间对比网络:多视角观察下的自我监控学习》一文中，谷歌研究人员提出了一种新的从观察中学习世界的方法，并通过自我监控姿态模拟实验证明了该方法的可行性。这种方法主要依赖于时间和空.之间的同时性通过训练区分视频不同时期的帧，这种方法学会将现实分解和组织成有用的抽象表示。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

在姿势模拟等任务中，不同维度的抽象表示可能会对人体或机器人身体的不同关节进行编码。研究人员让机器人以端到端的方式模仿学习，而不是手动定义人和机器人关节之间的映射(由于人和机器人之间的生理差异，这通常是模糊的)。当模型同时被人和机器人观察训练时，即使没有提供对应关系，模型也能自然地找到人和机器人之间的对应关系。因此，通过这种方法可以得到一个机器人，它可以模仿人的姿势，而不需要人和机器人之间的对应关系。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

机器人的自监督人体行为模拟

上面显示的多对一和高度非线性的联合映射是端到端学习的有力证明。在这个例子中，人的上下运动涉及许多关节，而机器人只需要一个关节。结果显示，机器人不使用任何清晰的人类姿势信息，并且它自己也发现了这种高度复杂的映射

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

上述实验展示了人类如何通过演示来设定机器人的目标。在这种情况下，机器人必须解释任务的语义:重大事件和与姿势相关的特征。如果你没有向机器人展示设定目标的任务，而只是告诉机器人如何设定目标呢？这要求机器人理解语义，以便识别世界上哪些对象对应于用户指定的语义类别。在“语义抓取的端到端学习”一文中，谷歌研究人员研究了如何将人工标记的数据和机器人自动收集的数据结合起来，用于执行语义抓取任务。机器人必须从盒子里捡起用户指定的物体，如“橡皮”或“玩具”。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

为了学习如何执行语义捕获，机器人首先尝试自动拾取各种对象，并收集大量的捕获数据集。数据本身可以让机器人拾取对象，但它不能让机器人理解如何将对象与其语义标签相关联。为了理解语义，研究人员再次使用适度的人工监督。每当机器人成功捕捉到一个物体时，它就会给这个物体拍照，如下图所示。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

然后，这些图像中的一些被手动标记。由于所呈现的图像显示了在抓取姿态下物体的标准外观，因此很容易在标记图像上训练分类器，并将这些标记转移到剩余的未标记图像上。然后，标记的表示图像可以告诉机器人哪个物体实际上已经被拾取。之后，当机器人从盒子中拿起物体时，在抓取过程中观察到的图像可以与标签相关联。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

利用这个标记的数据集，谷歌研究人员训练了一个双流模型，该模型根据当前图像和机器人将要采取的行动来预测应该抓取哪个物体。研究人员采用的双流模型受到了在人类视觉皮层中观察到的背腹分解的启发，其中腹侧流负责推理对象的语义类别，而背侧流负责推理抓取的几何结构。至关重要的是，腹侧流可以包含由对象的标签图像组成的辅助数据(不一定来自机器人)，而背侧流可以包含没有语义标签的辅助数据，从而允许整个系统更有效地使用更多不同类别的标签数据。这样，有限数量的手动标记可以与大量自动收集的机器人数据相结合，根据所需的语义类别抓取对象，如以下视频所示:

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

youtu.be/wr5wukxuq8u

未来工作:实验表明，有限的语义标签数据可以与机器人自动收集和标记的数据相结合，这样机器人就可以理解重大事件、对象类别和用户演示。未来，机器人系统可以通过结合用户标注的数据和不断增加的独立采集的数据集进行训练，从而提高机器人的能力，减轻设计自主机器人的工程负担。此外，随着机器人系统在现实世界中收集越来越多的自动标记数据，这些数据不仅可以用于改进机器人系统，还可以用于改进其他系统，如计算机视觉、语音识别和自然语言处理系统，所有这些都可以从这样大的辅助数据中得到改进。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

当然，这不是研究人员第一次考虑机器人语义学。关于自然语言理解、机器人感知、抓取和模仿学习的广泛研究工作考虑了如何在机器人系统中结合语义和行为。然而，上面由谷歌研究人员讨论的这些实验可能会为结合自我监控和人工数据标注的自主机器人系统的未来工作指明一个可行的方向。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度

谢谢:本文的实验由皮埃尔·塞马奈、许开文、科里·林奇、许嘉敏、埃里克·张、苏德伦德拉·维贾亚南·拉汉、彼得·帕斯托尔、朱利安·伊巴尔兹和谢尔盖·莱文主持。与此同时，我要感谢mrinal kalakrishnan、Ali Yahya和yevgen chebotar在开门任务中开发了学习框架，并感谢john-michael burke在语义抓取实验中的实验设计。

看一遍人类动作就能模仿，能理解语义的谷歌机器人登上无监督学习的新高度