(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210756710.1
(22)申请日 2022.06.30
(71)申请人 中国地质大 学 (武汉)
地址 430000 湖北省武汉市洪山区鲁磨路
388号
申请人 中建三局智能技 术有限公司
中建三局第二建 设工程有限责任公
司
(72)发明人 殷蔚明 彭建铖 罗大鹏 程卓
陈应 黄罗琪 董蓓 柳旭辉
(74)专利代理 机构 武汉知产时代知识产权代理
有限公司 42 238
专利代理师 康靖
(51)Int.Cl.
G06V 20/40(2022.01)G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种多类别建材视频计数方法及系统、 计数
设备
(57)摘要
本发明提供了一种多类别建材视频计数方
法及系统、 计数设备, 所述计数方法包括: 提取机
器人拍摄视频的视频帧; 将待测视频帧输入到
YOLOv4模型中, 提取出待测图像的特征; 对主干
特征提取网络的最后一个特征层进行三次卷积
后, 利用多尺度的最大池化处理, 以分离待测图
像中的上下文特征; 对获取的特征进行多尺度预
测, 经解码获取预测框在待测输入图像中的位
置; 将所有框信息输入到NMS 模块中, 以得到筛选
后的框信息; 将目标检测器输出帧序列中前后帧
的框坐标序列输入sort跟踪模块中, 输 出帧间目
标id。 本发明采用神经网络方法并使用一个多类
别多目标跟踪, 关联视频的帧间信息, 克服目标
遮挡, 最后通过双过线计数算法计算出整个视频
中的建材 数量和种类 。
权利要求书2页 说明书8页 附图7页
CN 115171011 A
2022.10.11
CN 115171011 A
1.一种多类别建材视频计数方法, 应用于工地建材数量的估计, 其特征在于, 所述视频
计数方法包括:
S100: 提取机器人拍摄视频的视频帧;
S200: 将所述拍摄视频中的待测视频帧输入到YOLOv4模型中, 经主干特征提取网络
CSPDarknet53提取出所述待测图像的特 征;
S300: 对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后, 分别
利用多个不同尺度的最大池化方法进 行处理, 以分离出所述待测图像中最显著的上下文 特
征;
S400: 提取完特征后, 采用YOLOv3Head对获取的特征进行多尺度预测, 得到3个有效特征
层的预测结果, 所述3个有效特 征层经解码获取 预测框在待测输入图像中的位置;
S500: 将预测头 输出的所有框信息 输入到NMS模块中, 以得到 筛选后的框信息;
S600: 将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块 中, 所述sort
模块输出帧间目标id;
S700: 通过双过线算法计算出视频中的建材目标 数, 并打印在输出视频中。
2.根据权利 要求1所述的多类别建材视频计数方法, 其特征在于, 在步骤S200中, 所述提
取出所述待测图像的特 征具体操作为:
提取待测图像中的3个有效特征层(76, 76, 256)、 (38, 38, 512)和(19, 19, 1024), 所述3
个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置, 以用于分别检测小、
中和大的待测目标。
3.根据权利 要求1所述的多类别建材视频计数方法, 其特征在于, 在步骤S300中, 将所述
主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_
Leaky卷积后, 分别利用四个不同尺度(13, 13)、 (9, 9)、 (5, 5)和(1, 1)的最大池化核进行处
理, 以改善感受野域尺寸大小, 并分离出最显著的上 下文特征。
4.根据权利 要求1所述的多类别建材视频计数方法, 其特征在于, 在步骤S400中, 所述采
用YOLOv3 Head对获取的特 征进行多尺度预测的具体操作包括:
采用YOLOv3Head对获取的特征进行多尺度预测, 得到3个有效特征层的预测结果, 从而
输出编码后的3个张量值为(19, 19, 33)、 (38, 38, 33)和(76, 76, 33), 并且可以确定三个预测
框的位置;
得到(19*19+38*38+76*76)*3个box的坐标, 其坐标结构为[x,y,w,h,confidence,
class1, class2,…, class N];
其中: x、 y代表每一先验框的左上角坐标, w、 h分别代表先验框的宽度和高度,
confidence代 表网络认定先验框属于 class N的置信度, clas s N表示N个类别。
5.根据权利 要求1所述的多类别建材视频计数方法, 其特征在于, 在步骤S500中, 所述将
预测头输出的所有框信息 输入到NMS模块中, 以得到 筛选后的框信息具体包括:
从yolov4网络中得到的若干框后, 将该包含框信息的数组输入NMS模块中, 进行非极大
值抑制, 输出最后的检测结果。
6.根据权利 要求1所述的多类别建材视频计数方法, 其特征在于, 在步骤S600中, 所述将
目标检测器输出帧序列中前后帧的框坐标序列输入sort模块中, 所述sort模块输出帧间目
标id的具体操作为:权 利 要 求 书 1/2 页
2
CN 115171011 A
2将经过NMS模块筛选过后的框矩阵输入到sort跟踪模块, 所述sort跟踪模块给当前帧
中的所有目标分配一个id, 以用于确定 两帧中的目标 是否为同一个目标。
7.根据权利 要求1所述的多类别建材视频计数方法, 其特征在于, 在步骤S700中, 所述通
过双过线算法计算出视频中的建材目标 数具体包括:
S701: 通过分配的id来锁定前后帧是否为同一个目标;
S702: 将每个目标的当前帧的框中心坐标与上一帧的中心坐标相连 形成向量;
S703: 判断每帧的向量方向, 以确定双过线的计数线是哪一根, 若该向量与计数线相交,
则目标数加一。
8.根据权利要求1所述的多类别建材视频计数方法, 其特征在于, 所述YOLOv3Head网络
的损失函数包括坐标损失coordError, 置信度损失IOUError和类别预测损失classError,
所述YOLOv3 Head网络的损失函数表达式如下:
其中:
表示第i个单元格包含目标,
表示第i个单元格的第j个边界框包含目标,
表示第i个单元格的第j个边界框不包含目标, λcoord表示框回归损失的权重值, λnoobj
表示没有目标的类别所占的权重值,
表示预测目标是第i类的置信度, Ci代表第i类的真
实置信度,
代表预测为第i类的概率, pi(c)代表第i类的真实概率, x,y,w,h分别代表预
测框的中心x,y坐标和框的宽和高。
9.一种多类别建材视频计数设备, 包括: 处理器、 显示器、 存储器及存储在所述存储器
上并可在处理器上运行 的计算机程序指令, 其特征在于, 所述处理器执行所述计算机程序
指令时用于实现如权利要求1至8任一项所述的多类别建材视频计数 方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机
执行指令, 所述计算机执行指 令被处理器执行时用于实现如权利要求 1至8任一项 所述的多
类别建材视频计数 方法。权 利 要 求 书 2/2 页
3
CN 115171011 A
3
专利 一种多类别建材视频计数方法及系统、计数设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:27:32上传分享