在现实世界中完成任务和任务时,理想情况下,机器人应该能够有效地抓取各种形状和成分的物体。然而,到目前为止,大多数机器人只能抓取特定类型的物体。
中国科学院和北京大学的研究人员最近开发了一种新的机器学习模型,可以帮助提高机器人的抓取能力。该模型发表在IEEETransactionsonCircuitsandSystemsforVideoTechnology中,专门设计用于预测机器人周围物体的抓取情况,以便它们能够设计出抓取这些物体的最佳策略。
“在智能制造、人机交互和家庭服务等现实世界应用中,机器人抓取变得越来越重要,”进行这项研究的研究人员之一JunzhiYu告诉TechXplore。“抓取检测是机器人抓取的关键步骤,需要找到目标物体的最佳抓取。主流的编码器-解码器抓取检测解决方案在准确性和效率方面很有吸引力,但由于解码器中卷积结果的不均匀重叠会产生棋盘失真,因此它们仍然有限。此外,特征表示往往是不够的。
Yu和他的同事最近工作的主要目标是开发一个模型,以克服现有抓取检测框架的局限性。为此,他们创建了一个基于双胞胎反卷积和多维注意力的像素级抓取检测方法,这两种技术通常用于计算机视觉应用。
他们的方法旨在消除所谓的“棋盘伪影”,即在人工神经网络生成的图像中经常观察到的奇怪的棋盘状图案。此外,研究人员还加强了他们的模型优化图像中特定特征的能力。
“所提出的像素级抓取检测网络由编码器、多维注意力瓶颈和基于双反卷积的解码器组成,”Yu解释说。“给定输入图像,通过编码器执行特征提取,并通过我们的瓶颈模块进一步细化获得的特征图,该模块集成了残余多头自注意力(R-MHSA),交叉幅度注意(CAA)和原始补偿,以更好地关注感兴趣的区域。
团队瓶颈模块的三个组件产生三个不同的输出,这些输出在通道中连接并进一步调整以改善特征的表示。然后将生成的、经过改进的“特征图”馈送到模型的解码器(即,将特征图上采样为所需输出的模型)。该解码器通过执行三个所谓的级联孪生反卷积(对特征图进行上采样的过程)来最终预测与输入图像对应的抓取。
“通过我们的瓶颈模块,特征之间的内在关系被挖掘出来,特征从空间和通道维度有效地进行了微调,”Yu说。“特别是,孪生反卷积的引入通过在原始转置卷积分支上添加孪生分支来提供更好的上采样。因此,棋盘格工件的挑战得到了解决。
研究人员开发的方法的一个显着优点是它使用了孪生反卷积,通过它将孪生分支引入原始转置卷积分支,从而提高了模型的原始输出。此方法允许模型从输出中删除不需要的棋盘图案。
“应该注意的是,棋盘伪影源于不同位置卷积结果的不均匀重叠,”Yu说。“在这里,在原始转置卷积分支上平行引入一个孪生分支,以测量不均匀的重叠。更具体地说,孪生分支计算位置之间的相对重叠差异,并利用生成的重叠度矩阵对原始转置卷积的特征图进行重新加权。
在最初的测试中,新的像素级抓取检测方法取得了非常有希望的结果,因为它被发现可以平滑模型的原始输出并消除棋盘伪影。因此,它实现了很高的抓取检测精度。
作为他们研究的一部分,Yu和他的同事还能够将他们的方法扩展到需要像素检测的其他任务。除了可能提高现有和新开发的机器人的抓取技能外,它们的模型还可以很快应用于其他计算机视觉问题。
“在我们的下一个工作中,我们计划将所提出的方法与实际机器人系统中的实例分割相结合,以便更好地进行抓取预测,”Yu补充道。“例如,实例分割可用于生成有关对象配置文件和位置的有价值的信息,这些信息被馈送到解码器的双反卷积中,以进一步提高网络性能。