专利多模态数据处理方法、装置、电子设备及可读存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210353816.7 (22)申请日 2022.04.06 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人陈帅　汪琦　冯知凡　柴春光　朱勇　 (74)专利代理机构北京市通商律师事务所 11951 专利代理师姜莹丽 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/783(2019.01) G06F 40/30(2020.01) (54)发明名称多模态数据处理方法、装置、电子设备及可读存储介质 (57)摘要本公开提供了多模态数据处理方法、装置、电子设备及可读存储介质，涉及人工智能技术领域，尤其涉及知识图谱、数据处理等技术领域，可应用于视频理解等场景下。具体实现方案为：获取目标视频的多模态数据；确定多模态数据中至少两种单模态数据的语义信息；基于语义信息的相似性确定多模态数据中的冗余数据。本方案中，能够基于各单模态数据的语义信息的相似性有效确定出多模态数据中存在的冗余数据，为后续对冗余数据进行针对性处理，从而保证对视频内容的理解效果提供了基础。权利要求书3页说明书14页附图4页 CN 114861758 A 2022.08.05 CN 114861758 A 1.一种多模态数据处理方法，包括：获取目标视频的多模态数据；确定所述多模态数据中至少两种单模态数据的语义信息；基于所述语义信息的相似性确定所述多模态数据中的冗余数据。 2.根据权利要求1所述的方法，其中，所述至少两种单模态数据包括目标图像数据以及目标文本数据，所述确定所述多模态数据中至少两种单模态数据的语义信息，包括：确定所述目标图像数据的语义信息与所述目标文本数据的语义信息；所述基于所述语义信息的相似性确定所述多模态数据中的冗余数据，包括：基于所述目标图像数据的语义信息与所述目标文本数据的语义信息的相似性，确定所述目标图像数据中的冗余数据和/或目标文本数据中的冗余数据。 3.根据权利要求2所述的方法，其中，所述确定所述目标图像数据的语义信息与所述目标文本数的语义信息，包括：将所述目标图像数据在语义空间中的第一语义特征确定为所述目标图像数据的语义信息，并将所述目标文本数据在所述语义空间中的第二语义特征确定为所述目标文本数据的语义信息。 4.根据权利要求2所述的方法，其中，所述确定所述目标图像数据的语义信息与所述目标文本数据的语义信息，包括：将所述目标图像数据中识别出的第一实体名称确定为所述目标图像数据的语义信息，并将所述目标文本数据中识别出的第二实体名称确定为所述目标文本数据的语义信息。 5.根据权利要求2 ‑4中任一项所述的方法，其中，所述基于所述目标图像数据的语义信息与所述目标文本数据的语义信息的相似性，确定所述目标图像数据中的冗余数据和/或目标文本数据中的冗余数据，包括：将所述目标图像数据的语义信息与所述目标文本数据的语义信息的相似度大于预设值的目标图像数据和/或目标文本数据确定为冗余数据。 6.根据权利要求2 ‑5中任一项所述的方法，其中，所述目标文本数据包括以下至少一项：所述目标视频的视频标题；从所述目标图像数据中提取出的文本信息；从所述目标视频的目标音频数据中识别出的文本信息。 7.根据权利要求6所述的方法，其中，若所述目标文本数据包括从所述目标视频的目标音频数据中识别出的文本信息，则所述方法还包括：对所述目标音频数据进行语音检测，确定所述目标音频数据是否包含语音数据；若包含，则识别所述语音数据中包含的文本信息。 8.根据权利要求1 ‑7中任一项所述的方法，还包括：基于所述冗余数据对所述多模态数据进行去冗余处理，确定所述多模态数据中的有效多模态数据；对所述有效多模态数据进行多模融合，得到多模融合特征。 9.根据权利要求8所述的方法，其中，所述基于所述冗余数据对所述多模态数据进行去权　利　要　求　书 1/3 页 2 CN 114861758 A 2冗余处理，包括：通过降低所述冗余数据对应的自注意力权重，对所述多模态数据进行去冗余处理。 10.根据权利要求8或9所述的方法，还包括：基于所述多模融合特征对所述目标视频进行视频分类。 11.一种多模态数据处理装置，包括：多模态数据获取模块，用于获取目标视频的多模态数据；语义信息确定模块，用于确定所述多模态数据中至少两种单模态数据的语义信息；冗余数据确定模块，用于基于所述语义信息的相似性确定所述多模态数据中的冗余数据。 12.根据权利要求11所述的装置，其中，所述至少两种单模态数据包括目标图像数据以及目标文本数据，所述语义信息确定模块具体用于：确定所述目标图像数据的语义信息与所述目标文本数据的语义信息；所述冗余数据确定模块具体用于：基于所述目标图像数据的语义信息与所述目标文本数据的语义信息的相似性，确定所述目标图像数据中的冗余数据和/或目标文本数据中的冗余数据。 13.根据权利要求12所述的装置，其中，所述语义信息确定模块在确定所述目标图像数据的语义信息与所述目标文本数的语义信息时，具体用于：将所述目标图像数据在语义空间中的第一语义特征确定为所述目标图像数据的语义信息，并将所述目标文本数据在所述语义空间中的第二语义特征确定为所述目标文本数据的语义信息。 14.根据权利要求12所述的装置，其中，所述语义信息确定模块在确定所述目标图像数据的语义信息与所述目标文本数的语义信息时，具体用于：将所述目标图像数据中识别出的第一实体名称确定为所述目标图像数据的语义信息，并将所述目标文本数据中识别出的第二实体名称确定为所述目标文本数据的语义信息。 15.根据权利要求12 ‑14中任一项所述的装置，其中，所述目标文本数据包括以下至少一项：所述目标视频的视频标题；从所述目标图像数据中提取出的文本信息；从所述目标视频的目标音频数据中识别出的文本信息。 16.根据权利要求15所述的装置，若所述目标文本数据包括从所述目标视频的目标音频数据中识别出的文本信息，则所述装置还包括语音识别模块，所述语音识别模块用于：对所述目标音频数据进行语音检测，确定所述目标音频数据是否包含语音音频数据；若包含，则识别所述语音音频数据中包含的文本信息。 17.根据权利要求1 1‑16中任一项所述的装置，还包括：去冗余模块，用于基于所述冗余数据对所述多模态数据进行去冗余处理，确定所述多模态数据中的有效多模态数据；多模融合模块，用于对所述有效多模态数据进行多模融合，得到多模融合特征。 18.一种电子设备，包括：权　利　要　求　书 2/3 页 3 CN 114861758 A 3

专利 多模态数据处理方法、装置、电子设备及可读存储介质

专利多模态数据处理方法、装置、电子设备及可读存储介质