(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210356087.0
(22)申请日 2022.04.06
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 王洪松 黄珊
(74)专利代理 机构 北京市立方律师事务所
11330
专利代理师 张筱宁
(51)Int.Cl.
G06V 30/40(2022.01)
G06V 20/40(2022.01)
G06V 20/62(2022.01)
G06V 30/19(2022.01)
G06K 9/62(2022.01)G06F 40/194(2020.01)
G06F 40/258(2020.01)
G06F 40/30(2020.01)
G06F 40/58(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
字幕信息检测方法、 装置、 设备以及存储介
质
(57)摘要
本申请实施例公开了一种字幕信息检测方
法、 装置、 设备以及存储介质, 可适用于人工智
能、 云计算、 计算机视觉等领域。 该方法包括: 确
定目标视频的每个视频帧中的各文本框, 并确定
至少一个文本框序列; 确定目标视频对应的每个
音频片段对应的文本内容; 基于各文本框序列以
及对应的第一时间区间、 各音频片段对应的第二
时间区间和文本内容, 确定每个文本框序列与各
音频片段的匹配度; 基于每个文本框序列与各音
频片段的匹配度, 从各文本框序列中确定出包括
字幕信息的目标文本框序列; 基于各目标文本框
序列确定目标视频的字幕信息。 采用本申请实施
例, 可提升确定字幕信息的准确率和 效率, 适用
性高。
权利要求书3页 说明书18页 附图11页
CN 114495128 A
2022.05.13
CN 114495128 A
1.一种字幕信息检测方法, 其特 征在于, 所述方法包括:
确定目标视频的每个视频帧中的各文本框, 基于各所述文本框确定至少一个文本框序
列, 每个所述文本 框序列中的任意两个文本 框位于不同的视频帧;
确定所述目标视频对应的每 个音频片段对应的文本内容;
基于每个所述文本框序列以及对应的第 一时间区间、 各所述音频片段对应的第 二时间
区间和文本内容, 确定每 个所述文本 框序列与各所述音频片段的匹配度;
基于每个所述文本框序列与 各所述音频片段的匹配度, 从各所述文本框序列中确定出
包括字幕信息的目标文本 框序列;
基于各所述目标文本 框序列确定所述目标视频的字幕信息 。
2.根据权利要求1所述的方法, 其特征在于, 所述基于各所述文本框确定至少一个文本
框序列, 包括:
确定各所述文本 框中每两个文本 框的文本 框相似度;
基于各所述文本框 中每两个文本框的文本框相似度, 从各所述文本框中确定出至少一
个文本框序列, 每个所述文本框序列中的文本框按照所在视频帧的帧序号由小到大的顺序
进行排列;
其中, 对于每个所述文本框序列中任意两个相邻的第一文本框和第二文本框, 所述第
一文本框之后的所述第二文本 框是基于以下 方式确定的:
确定所述第 一文本框所在视频帧之后的第 一数量的视频帧中的第 一视频帧, 每个所述
第一视频帧包括与所述第一文本 框的文本 框相似度大于第一阈值的文本 框;
将帧序号最小的第一视频帧中与所述第一文本框的文本框相似度最大的文本框确定
为所述第二文本 框。
3.根据权利要求2所述的方法, 其特征在于, 对于各所述文本框中的任意两个不相同的
第三文本 框和第四文本 框, 确定所述第三文本 框和所述第四文本 框的文本 框相似度, 包括:
响应于所述第三文本框和所述第四文本框所在视频帧的帧序号差小于或者等于第一
数量、 且所述第三文本框和所述第四文本框位于不同的视频帧, 基于所述第三文本框和所
述第四文本框分别对应的文本内容、 以及分别在对应视频帧中的第一区域和第二区域, 确
定所述第三文本 框和所述第四文本 框的文本 框相似度。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述第 三文本框和所述第四文本
框分别对应的文本内容、 以及分别在对应视频帧中的第一区域和第二区域, 确定所述第三
文本框和所述第四文本 框的文本 框相似度, 包括:
确定所述第三文本 框和所述第四文本 框分别对应的文本内容的第一文本相似度;
确定所述第三文本框和所述第四文本框分别在对应视频帧中的第一区域和第二区域
的交集区域和并集区域, 并确定所述交集区域和所述并集区域的区域交并比;
基于所述第 一文本相似度和所述区域交并比, 确定所述第 三文本框和所述第四文本框
的文本框相似度。
5.根据权利要求1所述的方法, 其特征在于, 对于每个所述文本框序列和每个所述音频
片段, 基于该文本框序列以及对应的第一时间区间、 该音频片段对应的第二时间区间和文
本内容, 确定该文本 框序列与该音频片段的匹配度, 包括:
确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间交权 利 要 求 书 1/3 页
2
CN 114495128 A
2集;
基于该文本框序列对应的文本内容, 确定该文本框序列在所述 时间交集内的第 一文本
内容, 基于该音频片段对应的文本内容, 确定该音频片段在所述时间交集的第二文本内容;
基于所述第 一文本内容和所述第 二文本内容, 确定该文本框序列与 该音频片段的匹配
度。
6.根据权利要求5所述的方法, 其特征在于, 所述基于所述第 一文本内容和所述第 二文
本内容, 确定该文本 框序列与该音频片段的匹配度, 包括:
确定所述第一文本内容的第一文本 长度、 以及所述第二文本内容的第二文本 长度;
确定所述第一文本内容和所述第二文本内容的第二文本相似度;
基于所述第二文本相似度、 所述第一文本长度以及所述第二文本长度, 确定该文本框
序列与该音频片段的匹配度。
7.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括:
确定该文本框序列对应的第一时间区间和该音频片段对应的第二时间区间的时间并
集;
确定所述时间交集和所述时间 并集的时间交并比;
响应于所述 时间交并比大于第 二阈值, 执行确定所述第 一文本内容和所述第 二文本内
容的步骤。
8.根据权利要求1所述的方法, 其特征在于, 所述基于每个所述文本框序列与 各所述音
频片段的匹配度, 从各 所述文本 框序列中确定出包括字幕信息的目标文本 框序列, 包括:
将各所述文本框序列中与至少一个所述音频片段的匹配度满足第一预设条件的第一
文本框序列, 确定为包括字幕信息的目标文本 框序列。
9.根据权利要求8所述的方法, 其特 征在于, 所述方法还 包括:
确定所述目标视频对应的至少一个第 三时间区间, 每个所述第 三时间区间为所述目标
视频对应的完整时间区间中除各所述第一文本框序列对应的第一时间区间之外的一个时
间区间;
确定每个所述第三 时间区间对应的至少一个第 二文本框序列, 每个所述第 二文本框序
列为各所述文本框序列中除各所述第一文本框序列之外的、 对应的第一时间区间包括该第
三时间区间的一个文本 框序列;
对于每个所述第三时间区间, 基于各所述第一文本框序列, 从该第三时间区间对应的
第二文本 框序列中确定出包括字幕信息的目标文本 框序列。
10.根据权利要求9所述的方法, 其特征在于, 对于每个所述第 三时间区间, 所述基于各
所述第一文本框序列, 从该第三时间区间对应的第二文本框序列中确定出包括字幕信息的
目标文本 框序列, 包括:
确定每个所述第一文本框序列中的各文本框在对应视频帧中的第 三区域、 以及该第 三
时间区间对应的每 个所述第二文本 框序列中的各文本 框在对应视频帧中的第四区域;
对于该第三 时间区间对应的每个所述第 二文本框序列, 基于各所述第 一文本框序列对
应的第三区域、 以及该第二文本框序列对应的第四区域, 确定该第二文本框序列与各所述
第一文本 框序列的文本 框序列相似度;
将该第三时间区间对应的、 与至少一个所述第 一文本框序列的文本框序列相似度满足权 利 要 求 书 2/3 页
3
CN 114495128 A
3
专利 字幕信息检测方法、装置、设备以及存储介质
文档预览
中文文档
33 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:13上传分享