专利字幕信息检测方法、装置、设备以及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210356087.0 (22)申请日 2022.04.06 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人王洪松　黄珊　 (74)专利代理机构北京市立方律师事务所 11330 专利代理师张筱宁 (51)Int.Cl. G06V 30/40(2022.01) G06V 20/40(2022.01) G06V 20/62(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01)G06F 40/194(2020.01) G06F 40/258(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称字幕信息检测方法、装置、设备以及存储介质 (57)摘要本申请实施例公开了一种字幕信息检测方法、装置、设备以及存储介质，可适用于人工智能、云计算、计算机视觉等领域。该方法包括：确定目标视频的每个视频帧中的各文本框，并确定至少一个文本框序列；确定目标视频对应的每个音频片段对应的文本内容；基于各文本框序列以及对应的第一时间区间、各音频片段对应的第二时间区间和文本内容，确定每个文本框序列与各音频片段的匹配度；基于每个文本框序列与各音频片段的匹配度，从各文本框序列中确定出包括字幕信息的目标文本框序列；基于各目标文本框序列确定目标视频的字幕信息。采用本申请实施例，可提升确定字幕信息的准确率和效率，适用性高。权利要求书3页说明书18页附图11页 CN 114495128 A 2022.05.13 CN 114495128 A 1.一种字幕信息检测方法，其特征在于，所述方法包括：确定目标视频的每个视频帧中的各文本框，基于各所述文本框确定至少一个文本框序列，每个所述文本框序列中的任意两个文本框位于不同的视频帧；确定所述目标视频对应的每个音频片段对应的文本内容；基于每个所述文本框序列以及对应的第一时间区间、各所述音频片段对应的第二时间区间和文本内容，确定每个所述文本框序列与各所述音频片段的匹配度；基于每个所述文本框序列与各所述音频片段的匹配度，从各所述文本框序列中确定出包括字幕信息的目标文本框序列；基于各所述目标文本框序列确定所述目标视频的字幕信息。 2.根据权利要求1所述的方法，其特征在于，所述基于各所述文本框确定至少一个文本框序列，包括：确定各所述文本框中每两个文本框的文本框相似度；基于各所述文本框中每两个文本框的文本框相似度，从各所述文本框中确定出至少一个文本框序列，每个所述文本框序列中的文本框按照所在视频帧的帧序号由小到大的顺序进行排列；其中，对于每个所述文本框序列中任意两个相邻的第一文本框和第二文本框，所述第一文本框之后的所述第二文本框是基于以下方式确定的：确定所述第一文本框所在视频帧之后的第一数量的视频帧中的第一视频帧，每个所述第一视频帧包括与所述第一文本框的文本框相似度大于第一阈值的文本框；将帧序号最小的第一视频帧中与所述第一文本框的文本框相似度最大的文本框确定为所述第二文本框。 3.根据权利要求2所述的方法，其特征在于，对于各所述文本框中的任意两个不相同的第三文本框和第四文本框，确定所述第三文本框和所述第四文本框的文本框相似度，包括：响应于所述第三文本框和所述第四文本框所在视频帧的帧序号差小于或者等于第一数量、且所述第三文本框和所述第四文本框位于不同的视频帧，基于所述第三文本框和所述第四文本框分别对应的文本内容、以及分别在对应视频帧中的第一区域和第二区域，确定所述第三文本框和所述第四文本框的文本框相似度。 4.根据权利要求3所述的方法，其特征在于，所述基于所述第三文本框和所述第四文本框分别对应的文本内容、以及分别在对应视频帧中的第一区域和第二区域，确定所述第三文本框和所述第四文本框的文本框相似度，包括：确定所述第三文本框和所述第四文本框分别对应的文本内容的第一文本相似度；确定所述第三文本框和所述第四文本框分别在对应视频帧中的第一区域和第二区域的交集区域和并集区域，并确定所述交集区域和所述并集区域的区域交并比；基于所述第一文本相似度和所述区域交并比，确定所述第三文本框和所述第四文本框的文本框相似度。 5.根据权利要求1所述的方法，其特征在于，对于每个所述文本框序列和每个所述音频片段，基于该文本框序列以及对应的第一时间区间、该音频片段对应的第二时间区间和文本内容，确定该文本框序列与该音频片段的匹配度，包括：确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间交权　利　要　求　书 1/3 页 2 CN 114495128 A 2集；基于该文本框序列对应的文本内容，确定该文本框序列在所述时间交集内的第一文本内容，基于该音频片段对应的文本内容，确定该音频片段在所述时间交集的第二文本内容；基于所述第一文本内容和所述第二文本内容，确定该文本框序列与该音频片段的匹配度。 6.根据权利要求5所述的方法，其特征在于，所述基于所述第一文本内容和所述第二文本内容，确定该文本框序列与该音频片段的匹配度，包括：确定所述第一文本内容的第一文本长度、以及所述第二文本内容的第二文本长度；确定所述第一文本内容和所述第二文本内容的第二文本相似度；基于所述第二文本相似度、所述第一文本长度以及所述第二文本长度，确定该文本框序列与该音频片段的匹配度。 7.根据权利要求5所述的方法，其特征在于，所述方法还包括：确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间并集；确定所述时间交集和所述时间并集的时间交并比；响应于所述时间交并比大于第二阈值，执行确定所述第一文本内容和所述第二文本内容的步骤。 8.根据权利要求1所述的方法，其特征在于，所述基于每个所述文本框序列与各所述音频片段的匹配度，从各所述文本框序列中确定出包括字幕信息的目标文本框序列，包括：将各所述文本框序列中与至少一个所述音频片段的匹配度满足第一预设条件的第一文本框序列，确定为包括字幕信息的目标文本框序列。 9.根据权利要求8所述的方法，其特征在于，所述方法还包括：确定所述目标视频对应的至少一个第三时间区间，每个所述第三时间区间为所述目标视频对应的完整时间区间中除各所述第一文本框序列对应的第一时间区间之外的一个时间区间；确定每个所述第三时间区间对应的至少一个第二文本框序列，每个所述第二文本框序列为各所述文本框序列中除各所述第一文本框序列之外的、对应的第一时间区间包括该第三时间区间的一个文本框序列；对于每个所述第三时间区间，基于各所述第一文本框序列，从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列。 10.根据权利要求9所述的方法，其特征在于，对于每个所述第三时间区间，所述基于各所述第一文本框序列，从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的目标文本框序列，包括：确定每个所述第一文本框序列中的各文本框在对应视频帧中的第三区域、以及该第三时间区间对应的每个所述第二文本框序列中的各文本框在对应视频帧中的第四区域；对于该第三时间区间对应的每个所述第二文本框序列，基于各所述第一文本框序列对应的第三区域、以及该第二文本框序列对应的第四区域，确定该第二文本框序列与各所述第一文本框序列的文本框序列相似度；将该第三时间区间对应的、与至少一个所述第一文本框序列的文本框序列相似度满足权　利　要　求　书 2/3 页 3 CN 114495128 A 3

专利 字幕信息检测方法、装置、设备以及存储介质

专利字幕信息检测方法、装置、设备以及存储介质