(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210675177.6 (22)申请日 2022.06.15 (71)申请人 大连民族大 学 地址 116600 辽宁省大连市经济技 术开发 区辽河西路18号 (72)发明人 杨大伟 高航 毛琳  (74)专利代理 机构 大连智高专利事务所(特殊 普通合伙) 2123 5 专利代理师 盖小静 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称 少数民族舞蹈视频描述中视觉互参考语义 检测方法 (57)摘要 本发明公开了一种少数民族舞蹈视频描述 中视觉互参考语义检测方法, 其将 输入视觉特征 经过视觉互参考语义检测结构进行处理, 输出表 达能力较强的视频语义信息。 所述视觉互参考语 义检测结构以3D卷积神经网络和2D卷积神经网 络处理得到的视频3D视觉特征和2D视觉特征为 输入, 分别经3D语义检测支路和2D语义检测支路 提取语义特征, 在语义提取过程中将3D视觉 特征 引入2D语义检测支路, 将2D视觉 特征引入3D语义 检测支路, 实现3D和2D信息的交互作用, 同时采 用多阶段迭代操作进一步提升语义特征表达能 力, 将两支路最终输出的3D语义特征和2D语义特 征拼接融合来表达视频语义。 将该语义特征输入 至长短时记忆网络进行解码, 可以得到较准确的 视频文本描述。 权利要求书3页 说明书7页 附图2页 CN 114898280 A 2022.08.12 CN 114898280 A 1.少数民族舞蹈视频描述中视 觉互参考语义检测方法, 其特 征在于, 包括: 将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到3D视觉特征V3D和2D视 觉特征V2D; 所述3D视觉 特征V3D在3D语义检测支路中进行特征提取、 所述2D视觉特征V2D在2D语义检 测支路中进行 特征提取, 分别得到 3D语义特 征Sa1和2D语义特 征Sb1; 将所述3D语义特征Sa1和2D视觉 特征V2D进行拼接融合获取新3D语义特征; 将所述2D语义 特征Sb1和3D视觉特征V3D进行拼接融合获取新2D语义特 征; 在3D语义检测支路中, 对特征提取操作、 拼接融合操作进行多阶段迭代, 得到3D语义特 征SAm; 在2D语义检测 支路中, 对特征提取操作、 拼接 融合操作进行多阶段迭代, 得到2D语义 特征SBm: 在3D语义检测支路中, 对3D语义特征SAm采用语义检测单元End ‑A进行最后一次语义提 取, 获取3D语义特征Send‑A; 在2D语义检测支路 中, 对2D语义特征SBm采用语义检测单元End ‑B 进行最后一次语义 提取, 得到2D语义特 征Send‑B; 将所述3D语义特 征Send‑A和2D语义特 征Send‑B进行拼接融合, 得到语义特 征S。 2.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法, 其特征在 于, 所述3D视觉特征V3D在3D语义检测支路中进行特征提取、 所述2D视觉特征V2D在2D语义检 测支路中进行 特征提取, 具体为: 3D语义检测支路中利用语义检测单元A1提取语义特征, 得到3D语义特征Sa1, 具体操作 如式(1)~(6)所示: 式(1)所示为语义检测单元A1的第1层全连接计算, 其中U1,i是权重U1的每一列向量, 3D 视觉特征V3D与U1,i做向量乘法计算, ⊕表示特征的拼接融合, 得到中间特 征M1; 将所述中间特 征M1与偏置相加, 得到: 其中, D1是常数形式的偏置项, Bro1(·)是广播操作, 通过拓展该常量数字与向量相加, 得到中间特 征N1; 将所述中间特征N1进行非线性激活处理, 当特征中的元素小于或等于1时, 将其置为0, 否则特征元素值不变; 如式(3)所示: 其中, N1,i是N1的每一个特 征元素, 函数AReLU(·)是非线性激活函数, 得到中间特 征W1; 然后进行随机删除神经 元操作, 如式(4)所示: 权 利 要 求 书 1/3 页 2 CN 114898280 A 2其中, 函数 的作用是随机删除神经元操作, 使其中的部分神经元暂时失去作用, 在当前阶段不进行反向传播, k1是保留参数; 得到第1层输出 特征X1; 对第一层输出特征X1提取过程进行多次循环操作, 得到语义检测单元A1的第1层、 第2 层、…、 第n层输出 特征: 对语义检测单 元A1第n层特 征进行Softmax多标签分类操作: 其中, Xn,i是特征Xn的每一个特征元素, 函数exp( ·)是指数函数表达, 通过对该特征进 行Softmax分类处 理, 得到多标签分类形式的语义特 征向量Sa1; 采用上述的处理方式, 2D语义检测支路 中2D视觉特征V2D经过语义检测单元B1处理得到 2D语义特 征Sb1。 3.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法, 其特征在 于, 将所述3D语义特 征Sa1和2D视 觉特征V2D进行拼接融合, 具体为: 其中, SA1为特征向量拼接得到的新3D语义特 征; 将所述2D语义特 征Sb1和3D视觉特征V3D进行拼接融合, 具体为: 其中, SB1为特征向量拼接得到的新2D语义特 征。 4.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法, 其特征在 于, 在3D语义检测支路中, 对特征提取操作、 拼接融合操作进行多阶段迭代, 迭代次数为m, 则该支路逐次输出如下3D语义特 征: 在2D语义检测支路中, 对特征提取操作、 拼接融合操作进行多阶段迭代, 迭代次数为m, 则该支路逐次输出如下2D语义特 征: 5.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法, 其特征在 于, 将所述3D语义特 征Send‑A和2D语义特 征Send‑B进行拼接融合, 得到语义特 征S, 具体为: 权 利 要 求 书 2/3 页 3 CN 114898280 A 3

.PDF文档 专利 少数民族舞蹈视频描述中视觉互参考语义检测方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 少数民族舞蹈视频描述中视觉互参考语义检测方法 第 1 页 专利 少数民族舞蹈视频描述中视觉互参考语义检测方法 第 2 页 专利 少数民族舞蹈视频描述中视觉互参考语义检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。