专利基于视觉视频分析技术的乒乓球智能导播技术方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221075239 2.1 (22)申请日 2022.06.28 (71)申请人北京颂泽科技有限公司地址 100876 北京市海淀区西土城路10号 60号楼12层12 26室申请人北京邮电大学 (72)发明人宋晴　周杨　 (74)专利代理机构北京华际知识产权代理有限公司 11676 专利代理师钟延珍 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 40/20(2022.01) G06V 10/22(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于视觉视频分析技术的乒乓球智能导播技术方法 (57)摘要本发明公开了基于视觉视频分析技术的乒乓球智能导播技术方法，包括以下步骤： S101、数据集构建： S102、预处理： S103、构建模型： S104、测试： S105、视频逻辑处理，导播视频结果；本发明首次利用深度学习技术实现对乒乓球的智能导播，该方法针对智能导播的实时性进行优化，检测速度快，针对乒乓球运动进行优化，其对乒乓球动作识别率更高，应用于乒乓球比赛的导播中可以大幅减少人力，并且提升导播的速度，并且该方法可为其他比赛领域的智能导播提供参考范式。权利要求书1页说明书4页附图1页 CN 115115987 A 2022.09.27 CN 115115987 A 1.基于视觉视频分析技术的乒乓球智能导播技术方法，其特征在于，包括以下步骤： S101、数据集构建：采集截止至当前年份的乒乓球国际比赛与国内比赛中标准多机位高清转播画面的特征信息，基于特征信息中面朝镜头的运动员的回合内挥拍动作进行了标注，而后进行收集构成数据集，并对标注的多机位镜头数据集进行增强训练； S102、预处理：将视频转换为20 ‑40s的视频流，送入特征提取网络； S103、构建模型：包括特征提取网络、时序动作定位和动作识别； S104、测试：采用时序目标定位的多尺度置信度生成和稀疏特征融合技术手段解决短时动作定位不准确和高细粒度特征提取难这两个问题； S105、视频逻辑处理，导播视频结果。 2.根据权利要求1所述的基于视觉视频分析技术的乒乓球智能导播技术方法，其特征在于，所述S102的具体处理方法如下：利用主机位和侧面机位进行动作定位与识别，将主机位与侧面机位的视频每20 ‑40s送入网络中，主机位为运动员背后位斜上方30度，视角囊括运动员和球桌，侧面机位为正侧面斜上方10度，视角囊括两运动员，图像为同时上传处理，同时还有其他机位包括比赛席，演播间，运动员近距离机位仅作为镜头切换使用，不进行识别。 3.根据权利要求1所述的基于视觉视频分析技术的乒乓球智能导播技术方法，其特征在于，所述S10 3的具体步骤如下： S1301、用特征提取网络进行特征提取：该特征提取网络采用TSN双流网络进行提取； S1302、利用稀疏多级边界生成器定位视频流中的动作：基准特征提取模块：输入TSN的输出特征，经过多层卷积输出经过编码的动作特征；起止生成模块：输入编码特征，输出为起始和终止位置置信度与BMN中做法相同；多尺度置信图特征生成模块：对动作的起止位置特征进行多尺度卷积，并以首尾Span 形式拼接融合成置信图特征；稀疏全局特征融合模块：该模块输入置信图特征，通过稀疏视野下的信息融合不同位置的动作信息，并对动作中间信息加以区分； S1303、输出片段置信度图，生成的所有动作起始和终止时间及片段置信度图经过S ‑ NMS，最终生成动作的置信度序列； S1304、将所有置信度超过预设阈值分数的动作送入动作识别网络中，该网络是简单的卷积分类器，生成动作类别，可生成的类别包括：背景，捡球，发球，削球，正手抽球，反手切球等10余个动作。 4.根据权利要求1所述的基于视觉视频分析技术的乒乓球智能导播技术方法，其特征在于，所述S10 5的具体操作方法如下：当检测到特定动作时，满足切换镜头的需求，输出镜头会自动切换通道，镜头切换方式的优先度排序为：发球、庆祝动作 ‑运动员近景镜头>休息、暂停动作 ‑演播间>捡球动作 ‑侧面镜头>其他动作 ‑主机位，输出镜头会送入人工进行审核，录制到直播过程控制在一分钟以内。权　利　要　求　书 1/1 页 2 CN 115115987 A 2基于视觉视频分析技术的乒乓球智能导播技术方法技术领域 [0001]本发明涉及视频处理技术领域，特别涉及基于视觉视频分析技术的乒乓球智能导播技术方法。背景技术 [0002]随着直播领域的广泛兴起和人们对体育赛事的高度关注，体育赛事转播的实时化要求愈发升高，另外由于赛事内容逐渐广泛，赛事举办数量历年增多，导播对人力资源与导播水平的要求日益增加，尤其是体育赛事导播，如乒乓球赛事中，镜头切换速度快，动作频繁，给人工导播增加了更大难度。得益于深度学习领域技术的发展，尤其是视频理解领域中视频动作识别，时序动作定位等技术的兴起，给基于人工智能技术的智能赛事导播的出现打下了基础。但首先目前时序动作定位技术的速度较慢，难以满足实时要求，并且对短时间动作定位的精度不足，其次，尽管动作检测方案已经逐渐完善，但目前并没有一套面向体育赛事导播的完整技术方法。 [0003]时序动作定位技术是输入完整的视频片段，通过深度学习技术识别其中动作的位置信息的技术，目前流行的主流技术主要有三种，一种是只判断动作的起始帧和终止帧，这种技术的精度一般不够高，一种是判断动作的起始和终止帧后，再生成该动作的概率，以 BMN， BSN++等算法为代表，这种技术精度高，但速度较慢，一种是基于Transformer框架直接生成候选框的技术，以TACNet 为代表，该种技术在速度快的同时精度也达到保证，但对训练数据的数据量有较高的要求，不利于应用。 [0004]动作识别技术是给定一个动作片段，通过深度学习方法对该动作进行分类，确认动作的类别的技术。目前动作识别技术主要分为双流法(构建图像光流信息和图像信息)如 TSN， 3D卷积(在时间上也做计算的CNN技术)如I3D和Transformer框架如 VIVit，随着深度学习的发展， Transformer框架的精度和适用率逐渐升高，已成为动作识别主流的发展方向。 [0005]现有技术无法解决的问题分两个方面，一方面以乒乓球检测为主体的方案无法适配不同环境下的镜头切换，另一方面只针对完整视频的动作识别进行优化，但对于实时的视频流无法处理，并且完整视频的处理在视频分段处理任务中速度较慢，另外目前没有针对乒乓球比赛导播技术的深度学习智能化方案。发明内容 [0006]本发明的目的在于提供基于视觉视频分析技术的乒乓球智能导播技术方法，以解决上述背景技术中提出的问题。 [0007]为实现上述目的，本发明提供如下技术方法： [0008]基于视觉视频分析技术的乒乓球智能导播技术方法，包括以下步骤： [0009]S101、数据集构建：采集截止至当前年份的乒乓球国际比赛与国内比赛中标准多机位高清转播画面的特征信息，基于特征信息中面朝镜头的运动员的回合内挥拍动作进行了标注，而后进行收集构成数据集，并对标注的多机位镜头数据集进行增强训练；说　明　书 1/4 页 3 CN 115115987 A 3

专利 基于视觉视频分析技术的乒乓球智能导播技术方法

专利基于视觉视频分析技术的乒乓球智能导播技术方法