(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221078313 5.4
(22)申请日 2022.06.27
(71)申请人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 于秀丽 董明帅 魏世民 白宇轩
吴澍
(51)Int.Cl.
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 7/70(2017.01)
(54)发明名称
一种适用于物体堆叠杂乱场景的基于
Transformer机制的抓取检测模型
(57)摘要
本发明公开了一种适用于物体堆叠杂乱场
景的基于Transformer机制的抓取检测模型, 该
模型提出使用Tran sformer机制提取输入图像的
特征, 然后使用全卷积神经网络预测图片中所有
可能的抓取位置。 通过将Transformer与卷积神
经网络结合, 该模型同时融合了Transformer机
制优秀的全局建模能力和卷积神经网络的归纳
偏置能力。 从而使得本模型不需要多次下采样操
作在模型的初始阶段就能够对输入图像的全局
特征进行建模和相关性计算, 避免了传统模型由
于下采样造成的特征丢失; 此外, 本模型同时融
合了卷积神经网络的归纳偏置能力, 降低了模型
训练过程中对大尺寸数据集的依赖。 因此, 本模
型能够更好的对杂乱堆叠场景的特征进行建模,
并且可以在小规模数据集上训练出令人满意的
结果。 基于以上优势, 本发明提出的模型可以广
泛的应用于各种常见的生活场景的抓取检测任务, 具有更强的鲁棒 性和环境 适应性。
权利要求书1页 说明书5页 附图4页
CN 115019147 A
2022.09.06
CN 115019147 A
1.一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型, 其特征在
于, 所述方法包括:
抓取检测数据集(VMRD抓取检测数据集)的预处 理;
基于Transformer机制的抓取检测模型的搭建;
使用VMRD数据集对 模型进行训练及性能测试。
2.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓
取检测模型, 其特 征在于, 对抓取检测数据集(VMRD抓取检测数据集)的预处 理, 具体包括:
所述抓取检测数据集为当前已经公开的VMRD数据集, 该数据集中的图像包含多个目标
物体且物体之间随机的杂乱堆叠摆放。
所述对抓取检测数据集的预处理, 其中预处理过程包括图像和标签的随机旋转、 图像
尺寸的随机 裁剪、 图片亮度的随机调整以及标签的编码 操作。
3.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓
取检测模型, 其特 征在于, 搭建基于Transformer机制的抓取检测模型, 具体包括:
所述基于Transformer机制的抓取检测模型为编码器 ‑解码器结构, 其中编码器以
Transformer模块为基本单元, 对输入图像进 行全局的特征提取及特征编码操作; 全 卷积神
经网络为模型 的解码器, 对编码器生成的特征图进行多尺度特征融合操作, 最后根据融合
后的特征图预测输入图像中所有可能的抓取位置, 以及该抓取位置对应的物体 类别。
4.根据权利要求1所述的一种适用于物体堆叠杂乱场景的基于Transformer机制的抓
取检测模型, 其特 征在于, 使用VMRD数据集对 模型进行训练及性能测试, 具体包括:
所述VMRD数据集为经过数据预处理之后的VMRD抓取检测数据集, 并且将数据集按照4:
1的比例随机划分为训练集和 测试集。
所述对模型进行训练和测试其中模型中以Transformer模块为基本单元的解码器为在
ImageNet数据集上 预训练的模型。
所述对模型进行训练为使用VMRD数据集中的训练集对模型进行训练, 训练过程主要用
于微调以Transformer模块 为基本单 元的编码器参数以及确定解码器参数。
所述对模型进行测试为使用VMRD数据集的测试集, 验证模型在杂乱场景中对物体抓取
检测以及识别等任务上的性能。
所述对抓取检测数据集的预处理为对图像进行随机旋转以及裁剪, 并且对标定的信 息
进行转换和编码; 所述基于Transformer机制的抓取检测模型的搭建, 为使用Transformer
的基本模块作为模型的解码 器的基本单元, 使用全卷积神经网络并结合多尺度特征融合操
作作为模型的解码器, 最后通过解码 器预测融合后的特征图中每个特征所对应的抓取配置
信息以及类别信息; 所述使用VMRD数据集对模型进行训练及性能测试, 其中训练为使用
VMRD抓取检测数据集训练模型从而对模型的参数进 行微调和优化, 使其更适应抓取检测任
务的需求; 测试为使用VMRD的测试集测试模型的性能。权 利 要 求 书 1/1 页
2
CN 115019147 A
2一种适用于物体堆叠杂乱场景的基于 Transformer机制的抓
取检测模型
技术领域
[0001]本发明涉及深度学习、 图像识别以及机器人控制 领域, 是一种适用于物体堆叠杂
乱场景的基于Transformer机制的抓取检测模型。
背景技术
[0002]抓取操作是机器人的一项基本技能, 它是机器人执行许多其他重要任务的基础。
然而在物体杂乱且堆叠摆放的日常生活场景中机器人的抓取仍然面临很大的挑战。 其中最
重要的影响因素是当前机器人对环境的感知能力不足, 难以准确的建模工作场景的特征并
映射为相应的抓取配置 。
[0003]当前在机器人抓取检测领域, 基于深度学习的抓取检测方法已经逐渐成为机器人
感知环境特征并检测抓取配置的主要 方法。 传统的基于卷积神经网络(CNNs)的深度学习模
型对于单目标场景具有很好的适应性和较高的抓取检测精度, 但是对于杂乱且堆叠的多目
标场景传统的CNNs模型依然存在特征丢失, 全局建模能力不足等问题, 难以准确预测 每个
物体的抓取位置 。
[0004]因此, 如何提供一种高效的特征提取方法及建模方法, 使得机器人能够在杂乱且
堆叠的工作场景中准确的检测出不同物体的抓取位置以及抓取位置对应的物体类别, 是提
升机器人操作过程自主化, 智能化过程中亟 待解决的问题。
发明内容
[0005]有鉴于此, 本发明提供了一种适用于物体堆叠杂乱场景的基于Transformer机制
的抓取检测模型, 该模型采用Tr ansformer模块作为主干网络的基本单元提取输入图像的
特征并对特征进行编码; 编码后的特征经过多尺度特征融合操作后, 使用全卷积神经网络
对特征进行解码生 成抓取位置以及其对应的物体类别, 如图1所示。 其中, Transformer机制
具有很强的全局特征提取能力, 因此能够很好的适应杂乱 堆叠的复杂工作场景。 此外, 本发
明采用全卷积神经网络作为解码器, 在 弥补了Tr ansformer机制归纳偏置能力不足的基础
上, 同时预测每个特征点的抓取位置以及该抓取位置所对应的物体类别。 因此, 使 得机器人
在抓取过程中具备很强的自主性, 并且可以根据任务需求抓取指定类别的物体, 可以有效
提高机器人操作的智能化水平。
[0006]一方面, 本申请实施例提供的一种适用于物体堆叠杂乱场景的基于Transformer
机制的抓取检测模型, 包括:
[0007]抓取检测数据集(VMRD抓取检测数据集)的预处 理;
[0008]进一步地, 所述步骤对抓取检测数据集(VMRD抓取检测数据集)的预处理, 为对
VMRD抓取检测数据集进行 数据增强, 特 征编码操作。
[0009]进一步地, 所述步骤对抓取检测数据集的数据增强操作包括对数据集中图像的裁
剪、 随机旋转、 亮度变化等, 从而扩 大数据集的规模, 增强数据集中不同物体在不同位置、 不说 明 书 1/5 页
3
CN 115019147 A
3
专利 一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:28:30上传分享