专利一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221078313 5.4 (22)申请日 2022.06.27 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人于秀丽　董明帅　魏世民　白宇轩　吴澍　 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 7/70(2017.01) (54)发明名称一种适用于物体堆叠杂乱场景的基于 Transformer机制的抓取检测模型 (57)摘要本发明公开了一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，该模型提出使用Tran sformer机制提取输入图像的特征，然后使用全卷积神经网络预测图片中所有可能的抓取位置。通过将Transformer与卷积神经网络结合，该模型同时融合了Transformer机制优秀的全局建模能力和卷积神经网络的归纳偏置能力。从而使得本模型不需要多次下采样操作在模型的初始阶段就能够对输入图像的全局特征进行建模和相关性计算，避免了传统模型由于下采样造成的特征丢失；此外，本模型同时融合了卷积神经网络的归纳偏置能力，降低了模型训练过程中对大尺寸数据集的依赖。因此，本模型能够更好的对杂乱堆叠场景的特征进行建模，并且可以在小规模数据集上训练出令人满意的结果。基于以上优势，本发明提出的模型可以广泛的应用于各种常见的生活场景的抓取检测任务，具有更强的鲁棒性和环境适应性。权利要求书1页说明书5页附图4页 CN 115019147 A 2022.09.06 CN 115019147 A 1.一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，所述方法包括：抓取检测数据集(VMRD抓取检测数据集)的预处理；基于Transformer机制的抓取检测模型的搭建；使用VMRD数据集对模型进行训练及性能测试。 2.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，对抓取检测数据集(VMRD抓取检测数据集)的预处理，具体包括：所述抓取检测数据集为当前已经公开的VMRD数据集，该数据集中的图像包含多个目标物体且物体之间随机的杂乱堆叠摆放。所述对抓取检测数据集的预处理，其中预处理过程包括图像和标签的随机旋转、图像尺寸的随机裁剪、图片亮度的随机调整以及标签的编码操作。 3.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，搭建基于Transformer机制的抓取检测模型，具体包括：所述基于Transformer机制的抓取检测模型为编码器 ‑解码器结构，其中编码器以 Transformer模块为基本单元，对输入图像进行全局的特征提取及特征编码操作；全卷积神经网络为模型的解码器，对编码器生成的特征图进行多尺度特征融合操作，最后根据融合后的特征图预测输入图像中所有可能的抓取位置，以及该抓取位置对应的物体类别。 4.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，其特征在于，使用VMRD数据集对模型进行训练及性能测试，具体包括：所述VMRD数据集为经过数据预处理之后的VMRD抓取检测数据集，并且将数据集按照4: 1的比例随机划分为训练集和测试集。所述对模型进行训练和测试其中模型中以Transformer模块为基本单元的解码器为在 ImageNet数据集上预训练的模型。所述对模型进行训练为使用VMRD数据集中的训练集对模型进行训练，训练过程主要用于微调以Transformer模块为基本单元的编码器参数以及确定解码器参数。所述对模型进行测试为使用VMRD数据集的测试集，验证模型在杂乱场景中对物体抓取检测以及识别等任务上的性能。所述对抓取检测数据集的预处理为对图像进行随机旋转以及裁剪，并且对标定的信息进行转换和编码；所述基于Transformer机制的抓取检测模型的搭建，为使用Transformer 的基本模块作为模型的解码器的基本单元，使用全卷积神经网络并结合多尺度特征融合操作作为模型的解码器，最后通过解码器预测融合后的特征图中每个特征所对应的抓取配置信息以及类别信息；所述使用VMRD数据集对模型进行训练及性能测试，其中训练为使用 VMRD抓取检测数据集训练模型从而对模型的参数进行微调和优化，使其更适应抓取检测任务的需求；测试为使用VMRD的测试集测试模型的性能。权　利　要　求　书 1/1 页 2 CN 115019147 A 2一种适用于物体堆叠杂乱场景的基于 Transformer机制的抓取检测模型技术领域 [0001]本发明涉及深度学习、图像识别以及机器人控制领域，是一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型。背景技术 [0002]抓取操作是机器人的一项基本技能，它是机器人执行许多其他重要任务的基础。然而在物体杂乱且堆叠摆放的日常生活场景中机器人的抓取仍然面临很大的挑战。其中最重要的影响因素是当前机器人对环境的感知能力不足，难以准确的建模工作场景的特征并映射为相应的抓取配置。 [0003]当前在机器人抓取检测领域，基于深度学习的抓取检测方法已经逐渐成为机器人感知环境特征并检测抓取配置的主要方法。传统的基于卷积神经网络(CNNs)的深度学习模型对于单目标场景具有很好的适应性和较高的抓取检测精度，但是对于杂乱且堆叠的多目标场景传统的CNNs模型依然存在特征丢失，全局建模能力不足等问题，难以准确预测每个物体的抓取位置。 [0004]因此，如何提供一种高效的特征提取方法及建模方法，使得机器人能够在杂乱且堆叠的工作场景中准确的检测出不同物体的抓取位置以及抓取位置对应的物体类别，是提升机器人操作过程自主化，智能化过程中亟待解决的问题。发明内容 [0005]有鉴于此，本发明提供了一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型，该模型采用Tr ansformer模块作为主干网络的基本单元提取输入图像的特征并对特征进行编码；编码后的特征经过多尺度特征融合操作后，使用全卷积神经网络对特征进行解码生成抓取位置以及其对应的物体类别，如图1所示。其中， Transformer机制具有很强的全局特征提取能力，因此能够很好的适应杂乱堆叠的复杂工作场景。此外，本发明采用全卷积神经网络作为解码器，在弥补了Tr ansformer机制归纳偏置能力不足的基础上，同时预测每个特征点的抓取位置以及该抓取位置所对应的物体类别。因此，使得机器人在抓取过程中具备很强的自主性，并且可以根据任务需求抓取指定类别的物体，可以有效提高机器人操作的智能化水平。 [0006]一方面，本申请实施例提供的一种适用于物体堆叠杂乱场景的基于Transformer 机制的抓取检测模型，包括： [0007]抓取检测数据集(VMRD抓取检测数据集)的预处理； [0008]进一步地，所述步骤对抓取检测数据集(VMRD抓取检测数据集)的预处理，为对 VMRD抓取检测数据集进行数据增强，特征编码操作。 [0009]进一步地，所述步骤对抓取检测数据集的数据增强操作包括对数据集中图像的裁剪、随机旋转、亮度变化等，从而扩大数据集的规模，增强数据集中不同物体在不同位置、不说　明　书 1/5 页 3 CN 115019147 A 3

专利 一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型

专利一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型