> 文章列表 > 教授人工智能以连接视觉和触觉等感官

教授人工智能以连接视觉和触觉等感官

教授人工智能以连接视觉和触觉等感官

在加拿大作家玛格丽特·阿特伍德的著作“盲刺客”她说:“身体接触的眼前,演讲前。它是第一种语言,也是最后一种语言,它总是说实话。“

虽然我们的触觉给了我们一个感受物理世界的通道,但我们的眼睛帮助我们立即理解这些触觉信号的全貌。

已被编程为看到或感觉到的机器人不能互换地使用这些信号。为了更好地弥合这种感觉差距,来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种预测性人工智能(AI),可以通过触摸学会看到,并通过观察来学习感受。

团队的系统可以从视觉输入创建逼真的触觉信号,并直接从那些触觉输入预测哪个对象和哪个部分被触摸。他们使用KUKA机器人手臂和一个名为GelSight的特殊触觉传感器,由麻省理工学院的另一个小组设计。

该团队使用简单的网络摄像头记录了近200件物品,如工具,家用产品,织物等,触摸次数超过12,000次。将这12,000个视频片段分解为静态帧,该团队编制了“VisGel”,这是一个包含300多万个视觉/触觉配对图像的数据集。

“通过观察现场,我们的模型可以想象触摸平坦表面或锋利边缘的感觉”,CSAIL博士学生和主要作者Yunzhu Li在一篇关于该系统的新论文中说。“通过盲目地触摸,我们的模型可以纯粹从触觉中预测与环境的相互作用。将这两种感官结合在一起可以增强机器人的能力并减少我们在涉及操纵和抓取物体的任务时可能需要的数据。“

最近为机器人配备更具人性的物理感觉的工作,例如麻省理工学院2016年使用深度学习来直观地指示声音的项目,或预测物体对物理力的反应的模型,都使用了无法理解相互作用的大型数据集在视觉和触觉之间。

团队的技术通过使用VisGel数据集以及称为生成对抗网络(GAN)的东西来解决这个问题。

GAN使用视觉或触觉图像以其他方式生成图像。他们通过使用相互竞争的“发生器”和“鉴别器”来工作,其中发生器旨在创建真实的图像以欺骗鉴别器。每次鉴别器“捕获”发生器时,它必须暴露出决定的内部推理,这允许发生器反复改进自身。

人类可以通过观察物体来推断物体的感受。为了更好地为机器提供这种能力,系统首先必须定位触摸的位置,然后推断出有关该区域的形状和感觉的信息。

参考图像 - 没有任何机器人 - 对象交互 - 帮助系统编码关于对象和环境的细节。然后,当机器人手臂操作时,模型可以简单地将当前帧与其参考图像进行比较,并且容易地识别触摸的位置和比例。

这可能看起来像是给系统提供计算机鼠标的图像,然后“看到”模型预测应该触摸对象的区域以便拾取 - 这可以极大地帮助机器计划更安全和更有效的操作。

对于触摸视觉,目标是模型基于触觉数据产生视觉图像。该模型分析了一个触觉图像,然后找出了接触位置的形状和材料。然后回顾参考图像以“幻觉”相互作用。

例如,如果在测试期间模型在鞋上输入触觉数据,则可以产生最可能触摸该鞋的位置的图像。

这种类型的能力可能有助于在没有视觉数据的情况下完成任务,例如当灯关闭时,或者一个人盲目地进入一个盒子或未知区域时。

当前数据集仅包含受控环境中的交互示例。该团队希望通过在更多非结构化区域收集数据或使用新的麻省理工学院设计的触觉手套来改善这一点,以更好地增加数据集的大小和多样性。

仍有一些细节可以从切换模式推断出来,例如通过触摸它来告诉对象的颜色,或者告诉沙发在没有实际按压的情况下有多柔软。研究人员表示,这可以通过为不确定性创建更强大的模型来改进,以扩大可能结果的分布。

在未来,这种类型的模型可以帮助实现视觉和机器人之间更加和谐的关系,特别是对象识别,抓取,更好的场景理解,以及帮助在辅助或制造环境中进行无缝的人机器人集成。

“这是第一种可以令人信服地在视觉和触摸信号之间进行转换的方法”,加州大学伯克利分校的博士后安德鲁欧文斯说。“像这样的方法有可能对机器人技术非常有用,你需要回答诸如'这个物体是硬还是软?'之类的问题,或者'如果我用手柄举起这个杯子,我的握力有多好?' 这是一个非常具有挑战性的问题,因为信号是如此不同,这个模型已经证明了它的巨大能力。“