(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221075239 2.1
(22)申请日 2022.06.28
(71)申请人 北京颂泽科技有限公司
地址 100876 北京市海淀区西土城路10号
60号楼12层12 26室
申请人 北京邮电大 学
(72)发明人 宋晴 周杨
(74)专利代理 机构 北京华际知识产权代理有限
公司 11676
专利代理师 钟延珍
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 40/20(2022.01)
G06V 10/22(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于视觉视频分析技术的乒乓球智能导播
技术方法
(57)摘要
本发明公开了基于视觉视频分析技术的乒
乓球智能导播技术方法, 包 括以下步骤: S101、 数
据集构建: S102、 预处理: S103、 构建模型: S104、
测试: S105、 视频逻辑处理, 导播视频结果; 本发
明首次利用深度学习技术实现对乒乓球的智能
导播, 该方法针对智能导播的实时性进行优化,
检测速度快, 针对乒乓球运动进行优化, 其对乒
乓球动作识别率更高, 应用于乒乓球比赛的导播
中可以大幅减少人力, 并且提升导播的速度, 并
且该方法可为其他比赛领域的智能导播提供参
考范式。
权利要求书1页 说明书4页 附图1页
CN 115115987 A
2022.09.27
CN 115115987 A
1.基于视觉视频分析技 术的乒乓球智能导 播技术方法, 其特 征在于, 包括以下步骤:
S101、 数据集构建: 采集截止至当前年份的乒乓球国际比赛与国内比赛中标准多机位
高清转播画 面的特征信息, 基于特征信息中面朝镜头的运动员的回合内挥拍动作进行了标
注, 而后进行收集构成数据集, 并对标注的多机位镜 头数据集进行增强训练;
S102、 预处 理: 将视频转换为20 ‑40s的视频流, 送入特 征提取网络;
S103、 构建模型: 包括特 征提取网络、 时序动作定位和动作识别;
S104、 测试: 采用时序目标定位的多尺度置信度生成和稀疏特征融合技术手段解决短
时动作定位 不准确和高细粒度特 征提取难这两个问题;
S105、 视频逻辑处 理, 导播视频结果。
2.根据权利要求1所述的基于视觉视频分析技术的乒乓球智能导播技术方法, 其特征
在于, 所述S102的具体处 理方法如下:
利用主机位和侧面机位进行动作定位与识别, 将主机位与侧面机位的视频每20 ‑40s送
入网络中, 主机位为运动员背后位斜上方30度, 视角囊括运动员和球桌, 侧面机位为正侧面
斜上方10度, 视角囊括两运动员, 图像为同时上传处理, 同时还有其他机位包括比赛席, 演
播间, 运动员近距离 机位仅作为镜 头切换使用, 不进行识别。
3.根据权利要求1所述的基于视觉视频分析技术的乒乓球智能导播技术方法, 其特征
在于, 所述S10 3的具体步骤如下:
S1301、 用特征提取网络进行 特征提取: 该 特征提取网络采用TSN双流网络进行提取;
S1302、 利用稀疏多 级边界生成器定位视频流中的动作:
基准特征提取模块: 输入TSN的输出 特征, 经过多层卷积输出 经过编码的动作特 征;
起止生成模块: 输入编码特 征, 输出为 起始和终止位置 置信度与BMN中做法相同;
多尺度置信图特征生成模块: 对动作的起止位置特征进行多尺度卷积, 并以首尾Span
形式拼接融合成置信图特 征;
稀疏全局特征融合模块: 该模块输入置信图特征, 通过稀疏视野下的信息融合不同位
置的动作信息, 并对动作中间信息加以区分;
S1303、 输出片段置信度图, 生成的所有动作起始和终止时间及片段置信度图经过S ‑
NMS, 最终生成动作的置信度 序列;
S1304、 将所有置信度超过预设阈值分数的动作送入动作识别网络中, 该网络是简单的
卷积分类器, 生成动作类别, 可生成的类别包括: 背景, 捡球, 发球, 削球, 正手抽球, 反手切
球等10余个动作。
4.根据权利要求1所述的基于视觉视频分析技术的乒乓球智能导播技术方法, 其特征
在于, 所述S10 5的具体操作方法如下:
当检测到特定动作时, 满足切换镜头的需求, 输出镜头会自动切换通道, 镜头切换方式
的优先度排序为: 发球、 庆祝动作 ‑运动员近景镜头>休息、 暂停动作 ‑演播间>捡球动作 ‑侧
面镜头>其他动作 ‑主机位, 输出镜头会送入人工进行审核, 录制到直播过程控制在一分钟
以内。权 利 要 求 书 1/1 页
2
CN 115115987 A
2基于视觉视频分析技术的乒乓球智能导播 技术方法
技术领域
[0001]本发明涉及视频处理技术领域, 特别涉及基于视觉视频分析技术的乒乓球智能导
播技术方法。
背景技术
[0002]随着直播领域的广泛兴起和人们对体育赛事的高度关注, 体育赛事转播的实时化
要求愈发升高, 另外由于赛事内容逐渐广泛, 赛事举 办数量历年增多, 导播对人力资源与导
播水平的要求日益增加, 尤其是体育赛事导播, 如乒乓球赛事中, 镜头切换速度快, 动作频
繁, 给人工导播增加了更大难度。 得益于深度学习领域技术的发展, 尤其是视频 理解领域中
视频动作识别, 时序动作定位等技术的兴起, 给基于人工智能技术的智能赛事导播的出现
打下了基础。 但首先目前时序动作定位技术的速度较慢, 难以满足实时要求, 并且对短时间
动作定位的精度不 足, 其次, 尽管动作检测方案已经逐渐完善, 但目前并没有一套面向体育
赛事导播的完整技 术方法。
[0003]时序动作定位技术是输入完整的视频片段, 通过深度学习技术识别其中动作的位
置信息的技术, 目前流行的主流技术主要有三种, 一种是只判断动作的起始帧和终止帧, 这
种技术的精度一般不够高, 一种是判断动作的起始和终止帧后, 再生成该动作的概率, 以
BMN, BSN++等算法为代表, 这种技术精度高, 但速度较慢, 一种是基于Transformer框架直接
生成候选框的技术, 以TACNet 为代表, 该种技术在速度快的同时精度也达到 保证, 但对训练
数据的数据量有较高的要求, 不利于应用。
[0004]动作识别技术是给定一个动作片段, 通过深度学习方法对该动作进行分类, 确认
动作的类别的技术。 目前动作 识别技术主要分为双流法(构建图像光流信息和图像信息)如
TSN, 3D卷积(在时间上也做计算的CNN技术)如I3D和Transformer框架如 VIVit, 随着深度学
习的发展, Transformer框架的精度和适用率逐渐升高, 已成为动作识别主流的发展方向。
[0005]现有技术无法解决的问题分两个方面, 一方面以乒乓球检测为主体的方案无法适
配不同环境下 的镜头切换, 另一方面只针对完整视频的动作识别进行优化, 但对于实时的
视频流无法处理, 并且完整视频 的处理在视频分段处理任务中速度较慢, 另外目前没有针
对乒乓球比赛 导播技术的深度学习智能化方案 。
发明内容
[0006]本发明的目的在于提供基于视觉视频分析技术的乒乓球智能导播技术方法, 以解
决上述背景技 术中提出的问题。
[0007]为实现上述目的, 本发明提供如下技 术方法:
[0008]基于视觉视频分析技 术的乒乓球智能导 播技术方法, 包括以下步骤:
[0009]S101、 数据集构建: 采集截止至当前年份 的乒乓球国际比赛与国内比赛中标准多
机位高清转播画 面的特征信息, 基于特征信息中面朝镜头的运动员的回合内挥拍动作进 行
了标注, 而后进行收集构成数据集, 并对标注的多机位镜 头数据集进行增强训练;说 明 书 1/4 页
3
CN 115115987 A
3
专利 基于视觉视频分析技术的乒乓球智能导播技术方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:30:45上传分享