联系我们 contact us
地址:北京市朝阳区汤立路
   218号明天·STUDIO·A座
010-84678879

您当前所在位置:主页>技术共享>物联世界>

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术
时间:2017-07-23 08:00 作者:佚名 点击:

近日,谷歌官方博客上发表了一篇题为《Teaching Robots to Understand Semantic Concepts》的文章,探讨了在机器人学习(robotic learning)方面的一些最新进展。机器人学习是指通过机器人自动收集的数据(量很大,但是缺乏标签)与人类的标注数据结合起来从而允许其理解语义概念。通过深度视觉特征(deep visual features),机器人在人类演示中借助其数据理解显性事件,模仿人类的行动,理解语义概念比如「玩具」和「钢笔」从而根据用户指令捡起物体。这次的实验可能为未来在自动机器人系统中结合自监督数据和人类标注数据的工作指出了一条新的道路。

机器学习可以使机器人具备复杂技能,比如抓取和开门。但是,学习这些技能需手动编程机器人试图优化的奖励函数。与之相反,人类可以通过观察别人理解任务目标,或者被简单地告知目标是什么。人类能够做到这点是因为有这个世界的背景知识:当我们看到一个人切苹果时,我们明白目标是切成两半,而不管苹果是什么种类的,或者切苹果的工具是什么样的。相似地,如果我们被告知捡起苹果,我们可以通过语境确定哪个物体是苹果,因为我们知道苹果的意义是什么。

这就是语义概念:切成两半这种显性事件(salient event)和单词所指称的物体概念比如苹果。我们可以教会机器人理解语义概念、并使其遵循通过类别标签或用户提供的实例指定的简单命令吗? 在本文中,我们探讨了在机器人学习(robotic learning)方面的一些最新进展,机器人学习把机器人自动收集的数据(量很大,但是缺乏标签)与人类的标注数据结合起来从而允许其理解语义概念。我们将会描述机器人如何在人类提供的演示中通过其数据理解显性事件,模仿人类的行动,理解语义概念比如「玩具」和「钢笔」以根据用户指令捡起物体。

通过深度视觉特征理解人类的演示

在第一组实验中,我们的目标是帮助机器人通过仅仅观看若干个无标注的人类演示来理解一个任务,比如开门。通过分析这些演示,机器人必须先从语义上理解显性事件,这对任务的成功很重要,接着运用强化学习来执行任务。

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

  人类演示(左)与机器人模仿(右)

小数据集上的无监督学习是机器学习中最具挑战性的场景之一。为了使之可行,我们使用了深度视觉特征(deep visual feature),它来自一个被训练用来参加 ImageNet 图像识别竞赛的大型网络。深度视觉特征对语义概念非常敏感,同时保持对诸如外观和光线的滋扰变量(nuisance variables)的不变性。我们使用这些功能阐释用户提供的演示,结果证明以非监督的形式从少许演示中学习奖励函数确实是可能的,并且无需再训练。

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

  仅仅通过观察开门任务来学习奖励函数的实例。随着任务的完成,奖励函数从零增加到最大值。

在仅通过观察学习了奖励函数之后,我们使用它去指导机器人学习开门任务(仅通过图像评估奖励函数)。借助于大约 10% 时间的初始动作演示,机器人通过已学习的奖励函数把精度提升到了 100%。

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

  学习的进程。

通过自监督和模拟来赶超人类动作

  在《时间对比网络:多视角观察的自监督学习》(Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation)(https://sermanet.github.io/tcn/)中,我们提出了一种通过观察理解世界的全新方法,并借助自监督姿态模仿对其进行了演示。我们的方法主要依赖于监督的时空同现:通过训练来区分来自视频不同时段的帧,从而学习解开现实并将其组织为有用的抽象表征。

以姿态模仿任务为例,表征的不同维度也许编码一个人类或机器人身体的不同关节。我们没有手动定义人与机器人关节之间的映射(由于生理差异这首先是含糊不清的),而是让机器人以端到端的形式学习模仿。当我们的模型同时在人与机器人的观察中被训练,即使没有提供对应关系,它也自然地会发现两者的这种关系。因此我们无须给出人与机器人之间的对应就获得了模仿人类姿态的机器人。

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

  机器人的自监督式人类姿态模拟。

端到端学习的好处的一个有力证据是上述的多对一和高度非线性节点映射。在这个实例中,上下的动作需动用人类的很多关节,而机器人只需动用一个就够了。我们表明机器人已经自己发现了高度复杂的映射,而无须任何明确的人类姿态信息。

利用物体的语义类别进行抓取

上述实验说明人如何通过实例演示使机器人理解任务的语义——显性事件及动作的相关特征,进而给机器人设定具体目标。如果人类不向机器人演示任务,仅仅告诉它怎么做,又会怎么样呢?这仍然需要机器人理解语义,以识别用户指定的语义类别所对应的实物。在《语义抓取的端到端学习》(End-to-End Learning of Semantic Grasping)一文中,我们研究了如何使用人工标注数据和自动收集数据来执行语义抓取任务,该任务中机器人必须从一个塞满的箱子里抓取用户指定类别标签的物体,如「橡皮」或「玩具」。

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

  在我们的语义抓取实验设置中,机器臂的任务是抓取用户指定语义类别的物体(如乐高玩具)。

为了学习如何执行语义抓取任务,机器人首先通过自动抓取多种物体来收集抓取数据集。这些数据可以使机器人抓取物体,但无法让它理解如何将物体与语义标签对应起来。为了使机器人理解语义,我们又进行了少量的人类监督。机器人每成功抓取到一个物体,都会以一个固定姿势将物体放到摄像机前面,如下图所示。

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

  机器人在抓取成功后,将物体放置在摄像机前面。这些图像可用于标注抓取物体的类别。

网站地图 | RSS订阅 | RSS地图 | 网站首页 | 关于我们 | 技术共享 | 产品中心 | 成功案例 | 加盟我们 | 客户服务 | 联系我们 |
工况监测
    地址:北京市朝阳区汤立路218号明天·STUDIO·A座
    电话:0086-10-8467  8879      TEL:0086-133  6699  5587   (电话推销勿扰)
    版权所有:新企力(北京)检测服务有限公司   工作时间:(周一至周五  8:30-17:30)
    邮箱:web#xqili.com   京ICP备15050323号  
关闭