专利视频和文本相似度确定方法、装置、电子设备、存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210234257.8 (22)申请日 2022.03.09 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人舒畅　陈又新　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师廖慧贤 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/62(2022.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) (54)发明名称视频和文本相似度确定方法、装置、电子设备、存储介质 (57)摘要本发明属于人工智能领域，提供了一种视频和文本相似度确定方法、装置、电子设备、存储介质，方法包括：获取视频和对应的文本信息，并对视频和文本信息进行编码处理以得到编码特征信息；将编码特征信息输入到经过改进的T ‑ Transformer模型，得到全局信息和局部信息；将全局信息和局部信息分别输入到对应的Attent i on‑FA模块，得到全局特征和局部特征；将全局特征和局部特征作为共同输入，输入到 Contextua l Transformer模型，通过特征拼接处理得到视频特征和文本特征；根据视频特征和文本特征确定视频和文本信息之间的相似度。通过将视频和文本转换到同一对比空间，将两个不同事物进行相似度计算，从而根据文本匹配得到目标视频。权利要求书2页说明书14页附图5页 CN 114612826 A 2022.06.10 CN 114612826 A 1.一种视频和文本相似度确定方法，其特征在于，包括：获取视频和对应的文本信息，并对所述视频和所述文本信息进行编码处理以得到编码特征信息，所述编码特征信息包括视频局部编码信息、视频全局编码信息、文本局部编码信息和文本全局编码信息；将所述编码特征信息输入到经过改进的T ‑Transformer模型，得到全局信息和局部信息，所述改进的T ‑Transformer模型基于动态遮罩注意力网络DMAN、自注意力网络SAN和前馈神经网络F FN层叠而成；将所述全局信息和所述局部信息分别输入到对应的Attention ‑FA模块，得到全局特征和局部特征；将所述全局特征和所述局部特征作为共同输入，输入到Contextual Transformer模型，通过特征拼接处理得到视频特征和文本特征，所述视频特征与所述视频对应，所述文本特征与所述文本信息对应；根据所述视频特征和所述文本特征确定所述视频和所述文本信息之间的相似度。 2.根据权利要求1所述的视频和文本相似度确定方法，其特征在于，所述对所述视频和所述文本信息进行编码处理以得到编码特征信息，包括：对所述视频和所述文本信息进行分段，得到N个视频片段和N个文本分段，每个所述视频片段与一个所述文本分段相对应， N 为正整数；分别对所述视频片段和所述文本分段进行编码处理，得到视频局部编码信息和文本局部编码信息；分别对所述视频和所述文本信息进行编码处理，得到视频全局编码信息和文本全局信息。 3.根据权利要求2所述的视频和文本相似度确定方法，其特征在于，所述对所述视频和所述文本信息进行分段，包括：按照预设分段方式将所述视频剪辑成N个视频片段；提取每个所述视频片段中的若干个文本句子，作为与所述视频片段对应的文本分段。 4.根据权利要求2所述的视频和文本相似度确定方法，其特征在于，所述分别对所述视频片段和所述文本分段进行编码处理，得到视频局部编码信息和文本局部编码信息，包括：从所述视频片段中提取图像帧，通过视频编码器对所述图像帧进行编码，得到所述视频片段对应的视频局部编码信息；将与所述视频片段对应的所述文本片段输入到文本编码器中进行编码，得到所述文本片段对应的文本局部编码信息。 5.根据权利要求2所述的视频和文本相似度确定方法，其特征在于，所述分别对所述视频和所述文本信息进行编码处理，得到视频全局编码信息和文本全局信息，包括：将所述视频输入到视频编码器中进行编码处理，得到视频全局编码信息；将所述文本信息输入到文本编码器中进行编码处理，得到文本全局编码信息。 6.根据权利要求1所述的视频和文本相似度确定方法，其特征在于，所述Attention ‑FA 模块包括全局处理模块和局部处理模块；所述将所述全局信息和所述局部信息分别输入到对应的Attention‑FA模块，得到全局特征和局部特征，包括：将所述全局信息输入到所述全局处理模块，得到全局特征，所述全局特征包括视频全权　利　要　求　书 1/2 页 2 CN 114612826 A 2局特征和文本全局特征；将所述局部信息输入到所述局部处理模块，得到局部特征，所述局部特征包括视频局部特征和文本局部特征。 7.根据权利要求1所述的视频和文本相似度确定方法，其特征在于，所述将所述全局特征和所述局部特征作为共同输入，输入到Contextu al Transformer模型，通过特征拼接处理得到视频特征和文本特征，包括：将所述局部特征作为Local Context输入到预设Transformer模型，并对输出结果进行最大池化操作，得到L ocal特征向量Flocal；将所述全局特征作为Global Context输入到预设Transformer模型，得到Global特征向量Fcross；对所述Flocal和Fcross进行特征拼接，得到视频特征和文本特征。 8.一种视频和文本相似度确定装置，其特征在于，包括：获取单元，用于获取视频和对应的文本信息，并对所述视频和所述文本信息进行编码处理以得到编码特征信息，所述编码特征信息包括视频局部编码信息、视频全局编码信息、文本局部编码信息和文本全局编码信息；第一处理单元，用于将所述编码特征信息输入到经过改进的T ‑Transformer模型，得到全局信息和局部信息，所述改进的T ‑Transformer模型基于动态遮罩注意力网络DMAN、自注意力网络SAN和前馈神经网络F FN层叠而成；第二处理单元，用于将所述全局信息和所述局部信息分别输入到对应的Attention ‑FA 模块，得到全局特征和局部特征；上下文处理单元，用于将所述全局特征和所述局部特征作为共同输入，输入到 Contextual Transformer模型，通过特征拼接处理得到视频特征和文本特征，所述视频特征与所述视频对应，所述文本特征与所述文本信息对应；相似度计算单元，用于根据所述视频特征和所述文本特征确定所述视频和所述文本信息之间的相似度。 9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的视频和文本相似度确定方法。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序用于执行如权利要求1至7中任意一项所述的视频和文本相似度确定方法。权　利　要　求　书 2/2 页 3 CN 114612826 A 3

专利 视频和文本相似度确定方法、装置、电子设备、存储介质

专利视频和文本相似度确定方法、装置、电子设备、存储介质