(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210714649.4 (22)申请日 2022.06.23 (65)同一申请的已公布的文献号 申请公布号 CN 114782882 A (43)申请公布日 2022.07.22 (73)专利权人 杭州电子科技大 学 地址 310018 浙江省杭州市江干区白杨街 道2号大街1 158号 (72)发明人 王洪波 张新 赵治栋  (74)专利代理 机构 北京恒泰铭睿知识产权代理 有限公司 1 1642 专利代理师 何平 (51)Int.Cl. G06V 20/40(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01)(56)对比文件 CN 110874849 A,2020.0 3.10 CN 113096169 A,2021.07.09 WO 2014107402 A1,2014.07.10 US 2013202173 A1,2013.08.08 US 201717 7975 A1,2017.0 6.22 齐守良等.“面向临床肿瘤诊 疗决策的多 模 态医学影 像融合”. 《中国生物医学工程学报》 .2013,第32卷(第0 3期), Simon Lucey等. “Non-rigid face tracking with enforced co nvexity and local appearance co nsistency co nstraint”. 《Image and Visi on Computi ng》 .2010,第28卷 (第5期), Alec Radford等. “Learning transferable visual models from natural langua ge supervisi on”. 《arXiv:210 3.00020v1》 .2021, 审查员 刘梦晨 (54)发明名称 基于多模态特征融合的视频目标行为异常 检测方法和系统 (57)摘要 本申请涉及智慧城市领域, 更具体地, 涉及 基于多模态特征融合的视频目标行为异常检测 方法和系统, 其使用基于包含音频编码器和视频 编码器的CLIP模型分别对所述视频片段和提取 的所述音频片段进行高维关联特征提取以生成 第一特征向量和第二特征向量。 进一步地, 考虑 到两个特征向量之间在高维空间内的跨模态维 度分布上的差异, 计算两个特征向量的特征流形 的非刚性一致性因数, 以通过所述第一特征向量 与所述第二特征向量的特征分布的平滑过渡来 提高跨模态特征分布所表示的分类矩 阵的编码 语义特征的稠密性, 以提高对于视频目标的异常 性进行准确地判断的准确性。 权利要求书3页 说明书11页 附图2页 CN 114782882 B 2022.12.13 CN 114782882 B 1.一种基于多模态特 征融合的视频目标 行为异常检测方法, 其特 征在于, 包括: 通过部署于智慧城市的摄 像头获取视频片段, 并从所述视频片段中提取音频片段; 将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由 所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP 模型的视频编码器对所述视频片段进行处 理以生成第二特 征向量; 计算所述第 一特征向量与 所述第二特征向量之间的特征流形的非刚性一致性因数, 所 述特征流形 的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分 向量的二范 数与所述第二特 征向量的二范 数来构建; 以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第 一特征向量; 将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特 征矩阵; 以及 将所述分类特征矩阵通过分类器以获得分类结果, 所述分类结果用于表示所述视频片 段中的视频目标 是否存在行为异常; 其中, 将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型 以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述 CLIP模型的视频编码器对所述视频片段进行处 理以生成第二特 征向量, 包括: 所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所 述第一特 征向量; 以及 所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理 以生成所述第二特 征向量; 其中, 计算所述第 一特征向量与 所述第二特征向量之间的特征流形的非刚性一致性因 数, 包括: 以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性 一致性因数; 其中, 所述公式为: 其中V1表示所述第一特征 向量, V2表示所述第二特征 向量, ||·||22表示向量的二范数 的平方, 表示向量的按位置相减。 2.根据权利要求1所述的基于多模态特征融合的视频目标行为异常检测方法, 其中, 所 述音频编码器采用第一卷积神经网络对所述音频片段 的波形图进行处理以生成所述第一 特征向量, 包括: 所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的 卷积处理、 沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层 输出所述第一特征向量, 其中, 所述第一卷积神经网络的第一层的输入数据为所述音频片 段的波形图。 3.根据权利要求2所述的基于多模态特征融合的视频目标行为异常检测方法, 其中, 所 述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成权 利 要 求 书 1/3 页 2 CN 114782882 B 2所述第二特 征向量, 包括: 所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积 核的卷积处理、 沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层 输出所述第二特 征向量, 其中, 所述第二卷积神经网络的第一层的输入为所述视频片段。 4.根据权利要求3所述的基于多模态特征融合的视频目标行为异常检测方法, 其中, 将 所述分类特 征矩阵通过分类 器以获得分类结果, 包括: 所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果, 其中, 所述 公式为: softmax{(Wn,Bn):…:(W1,B1)|Project(F)}, 其中Project(F)表示将所述分类特征 矩阵投影为向量, W1至Wn为各层全连接层的权重矩阵, B1至Bn表示各层全连接层的偏置矩 阵。 5.一种基于多模态特 征融合的视频目标 行为异常检测系统, 其特 征在于, 包括: 片段数据获取单元, 用于通过部署于智慧城市的摄像头获取视频片段, 并从所述视频 片段中提取音频片段; 编码单元, 用于将所述片段数据获取单元获得的所述视频片段和所述片段数据获取单 元获得的所述音频片段通过包含音频编码器和 视频编码器的CLIP模型以由所述CLIP模型 的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编 码器对所述视频片段进行处 理以生成第二特 征向量; 非刚性一致性因数计算单元, 用于计算所述编码单元获得的所述第 一特征向量与 所述 编码单元获得的所述第二特征向量之 间的特征流形的非刚性一致性因数, 所述特征流形的 非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数 与所述第二特 征向量的二范 数来构建; 加权单元, 用于以所述非刚性一致性因数计算单元获得的所述特征流形的非刚性一致 性因数对所述第一特 征向量进行加权以获得加权后第一特 征向量; 分类特征矩阵生成单元, 用于将所述加权单元获得的所述加权后第 一特征向量的转置 与所述加权单 元获得的所述第二特 征向量进行向量相乘以获得分类特 征矩阵; 以及 分类单元, 用于将所述分类特征矩阵生成单元获得的所述分类特征矩阵通过分类器以 获得分类结果, 所述分类结果用于表示所述视频片段中的视频目标 是否存在行为异常; 其中, 所述编码单 元, 进一步用于: 所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所 述第一特征向量; 以及, 所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述 视频片段进行处 理以生成所述第二特 征向量; 其中, 所述非刚性 一致性因数计算单 元, 进一步用于: 以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性 一致性因数; 其中, 所述公式为: 其中V1表示所述第一特征 向量, V2表示所述第二特征 向量, ||·||22表示向量的二范数 的平方。 6.根据权利要求5所述的基于多模态特征融合的视频目标行为异常检测系统, 其中, 所权 利 要 求 书 2/3 页 3 CN 114782882 B 3

.PDF文档 专利 基于多模态特征融合的视频目标行为异常检测方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模态特征融合的视频目标行为异常检测方法和系统 第 1 页 专利 基于多模态特征融合的视频目标行为异常检测方法和系统 第 2 页 专利 基于多模态特征融合的视频目标行为异常检测方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:29:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。