(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210234257.8
(22)申请日 2022.03.09
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 舒畅 陈又新
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 廖慧贤
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 20/62(2022.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
(54)发明名称
视频和文本相似度确定方法、 装置、 电子设
备、 存储介质
(57)摘要
本发明属于人工智能领域, 提供了一种视频
和文本相似度确定方法、 装置、 电子设备、 存储介
质, 方法包括: 获取视频和对应的文本信息, 并对
视频和文本信息进行编码处理以得到编码特征
信息; 将编码特征信息输入到经过改进的T ‑
Transformer模型, 得到全局 信息和局部信息; 将
全局信息和局部信息分别输入到对应的Attent
i on‑FA模块, 得到全局特征和局部 特征; 将全局
特 征 和 局部 特 征 作为 共同 输 入 , 输 入 到
Contextua l Transformer模型, 通过特征拼接
处理得到视频特征和文本特征; 根据视频特征和
文本特征确定视频和文本信息 之间的相似度。 通
过将视频和文本转换到同一对比空间, 将两个不
同事物进行相似度计算, 从而根据文本匹配得到
目标视频。
权利要求书2页 说明书14页 附图5页
CN 114612826 A
2022.06.10
CN 114612826 A
1.一种视频和文本相似度确定方法, 其特 征在于, 包括:
获取视频和对应的文本信 息, 并对所述视频和所述文本信 息进行编码处理以得到编码
特征信息, 所述编码特征信息包括视频局部编 码信息、 视频全局编 码信息、 文本局部编 码信
息和文本全局编码信息;
将所述编码特征信息输入到经过改进的T ‑Transformer模型, 得到全局信息和局部信
息, 所述改进的T ‑Transformer模型基于动态遮罩注意力网络DMAN、 自注意力网络SAN和前
馈神经网络F FN层叠而成;
将所述全局信息和所述局部信息分别输入到对应的Attention ‑FA模块, 得到全局特征
和局部特征;
将所述全局特征和所述局部特征作为共同输入, 输入到Contextual Transformer模
型, 通过特征拼接处理得到视频特征和文本特征, 所述视频特征与所述视频对应, 所述文本
特征与所述文本信息对应;
根据所述视频 特征和所述文本特 征确定所述视频和所述文本信息之间的相似度。
2.根据权利要求1所述的视频和文本相似度确定方法, 其特征在于, 所述对所述视频和
所述文本信息进行编码处 理以得到编码特 征信息, 包括:
对所述视频和所述文本信息进行分段, 得到N个视频片段和N个文本分段, 每个所述视
频片段与一个所述文本分段相对应, N 为正整数;
分别对所述视频片段和所述文本分段进行编码处理, 得到视频局部编码信 息和文本局
部编码信息;
分别对所述视频和所述文本信 息进行编码处理, 得到视频全局编码信 息和文本全局信
息。
3.根据权利要求2所述的视频和文本相似度确定方法, 其特征在于, 所述对所述视频和
所述文本信息进行分段, 包括:
按照预设 分段方式将所述视频剪辑成N个视频片段;
提取每个所述视频片段中的若干个文本句子, 作为与所述视频片段对应的文本分段。
4.根据权利要求2所述的视频和文本相似度确定方法, 其特征在于, 所述分别对所述视
频片段和所述文本分段进行编码处 理, 得到视频局部编码信息和文本局部编码信息, 包括:
从所述视频片段中提取图像帧, 通过视频编码器对所述图像帧进行编码, 得到所述视
频片段对应的视频局部编码信息;
将与所述视频片段对应的所述文本片段输入到文本编码器中进行编码, 得到所述文本
片段对应的文本局部编码信息 。
5.根据权利要求2所述的视频和文本相似度确定方法, 其特征在于, 所述分别对所述视
频和所述文本信息进行编码处 理, 得到视频全局编码信息和文本全局信息, 包括:
将所述视频输入到 视频编码器中进行编码处 理, 得到视频全局编码信息;
将所述文本信息 输入到文本编码器中进行编码处 理, 得到文本全局编码信息 。
6.根据权利 要求1所述的视频和文本相似度确定方法, 其特征在于, 所述Attention ‑FA
模块包括全局处理模块和局部处理模块; 所述将所述全局信息和所述局部信息 分别输入到
对应的Attention‑FA模块, 得到全局特 征和局部特征, 包括:
将所述全局信息输入到所述全局 处理模块, 得到全局特征, 所述全局特征包括视频全权 利 要 求 书 1/2 页
2
CN 114612826 A
2局特征和文本全局特 征;
将所述局部信息输入到所述局部处理模块, 得到局部特征, 所述局部特征包括视频局
部特征和文本局部特 征。
7.根据权利要求1所述的视频和文本相似度确定方法, 其特征在于, 所述将所述全局特
征和所述局部特征作为共同输入, 输入到Contextu al Transformer模型, 通过特征拼接处
理得到视频特征和文本特 征, 包括:
将所述局部特征作为Local Context输入到预设Transformer模型, 并对输出结果进行
最大池化操作, 得到L ocal特征向量Flocal;
将所述全局特征作为Global Context输入到预设Transformer模型, 得到Global特征
向量Fcross;
对所述Flocal和Fcross进行特征拼接, 得到 视频特征和文本特 征。
8.一种视频和文本相似度确定装置, 其特 征在于, 包括:
获取单元, 用于获取视频和对应的文本信息, 并对所述视频和所述文本信息进行编码
处理以得到编 码特征信息, 所述编 码特征信息包括视频局部编 码信息、 视频全局编码信息、
文本局部编码信息和文本全局编码信息;
第一处理单元, 用于将所述编码特征信息输入到经过改进的T ‑Transformer模型, 得到
全局信息和局部信息, 所述改进的T ‑Transformer模 型基于动态遮罩注意力网络DMAN、 自注
意力网络SAN和前馈神经网络F FN层叠而成;
第二处理单元, 用于将所述全局信息和所述局部信息分别输入到对应的Attention ‑FA
模块, 得到全局特 征和局部特征;
上下文处理单元, 用于将所述全局特征和所述局部特征作为共同输入, 输入到
Contextual Transformer模型, 通过特征拼接处理得到视频特征和文本特征, 所述视频特
征与所述视频对应, 所述文本特 征与所述文本信息对应;
相似度计算单元, 用于根据 所述视频特征和所述文本特征确定所述视频和所述文本信
息之间的相似度。
9.一种电子设备, 包括: 存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项
所述的视频和文本相似度确定方法。
10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序用于
执行如权利要求1至7中任意 一项所述的视频和文本相似度确定方法。权 利 要 求 书 2/2 页
3
CN 114612826 A
3
专利 视频和文本相似度确定方法、装置、电子设备、存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:14上传分享