(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210262908.4 (22)申请日 2022.03.17 (71)申请人 北京中科智加科技有限公司 地址 100083 北京市海淀区学院路51号10 层1010、 101 1室 (72)发明人 陈玮 冯少辉 张建业  (74)专利代理 机构 北京天达知识产权代理事务 所(普通合伙) 11386 专利代理师 庞许倩 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/247(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 15/26(2006.01) (54)发明名称 一种文本顺滑方法、 系统和计算机设备 (57)摘要 本发明涉及一种文本顺滑方法、 系统和计算 机设备, 属于语音识别技术领域; 解决了现有技 术中语音转写口语文本的顺滑方法无法满足复 杂场景的需求, 且生成的顺滑后的文本忠诚度和 流畅度不高的问题; 本发明的文本顺滑方法包 括: 通过构造包含伪标签的不顺滑语料对和构造 不包含标签的扩充语料对样本进行扩充, 得到扩 充后的训练样本集合; 利用训练样 本集合对多任 务神经网络模 型进行训练, 并使用损失函数进行 梯度更新, 得到文本顺滑模型; 利用文本顺滑模 型识别待顺滑文本得到顺滑后的文本。 本发明通 过一个网络进行多任务建模, 实现了不流畅文本 检测, 同时输出顺滑后的文本, 提高了口语文本 的可阅读性, 识别文本更加人性 化。 权利要求书3页 说明书14页 附图2页 CN 114611492 A 2022.06.10 CN 114611492 A 1.一种文本顺滑方法, 其特 征在于, 包括以下步骤: 样本构造, 包括: 通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料 对样本进行扩充, 得到扩充后的训练样本集 合; 模型训练, 包括: 利用所述训练样本集合对多任务神经网络模型进行训练, 并使用损失 函数进行梯度更新, 得到文本顺滑模型; 所述文本顺滑模型用于输出当前不顺滑文本的不 顺滑有序标签以及当前 所述不顺滑文本对应的顺滑文本; 顺滑文本识别, 包括: 获取语音识别后的待顺滑文本, 利用所述文本顺滑模型识别得到 顺滑后的文本 。 2.根据权利要求1所述的文本顺滑方法, 其特征在于, 所述文本顺滑模型使用T5 ‑base 的预训练模型作为初始模型, 包括输入层、 编码器 ‑解码器层和输出层; 所述编码器使用T5原生的基于自注意力 机制的编码模型; 根据输入的不顺滑文本得到 具有不流畅文本上 下文表示的隐向量; 所述解码器用于根据编码器隐向量, 通过注意力计算, 得到目标文本单词概 率分布; 所述输出层包括不顺滑标签预测和顺滑文本生成任务; 所述不顺滑标签预测任务, 使 用条件随机场来预测 不顺滑标签序列; 所述顺滑文本生成任务, 采用集束搜索方法搜索出 概率最大化的文本为目标顺滑文本 。 3.根据权利要求2所述的文本顺滑方法, 其特征在于, 所述模型训练过程中, 还包括忠 诚度和流畅度提升策略及抑制重复片段生成策略; 其中, 所述忠诚度和流畅度提升策略包括, 所述解码器在计算目标文本单词概率过程中, 使 用Copy机制, 将解码 器每步生成出的单词概率分布与拷贝原文的单词概率看做一个 混合模 型, 利用注意力得分作为拷贝单词的概 率; 所述抑制重复片段生成策略包括, 所述解码器在注意力 计算过程中, 引用覆盖机制, 将 当前时间步之前的注意力分数求和, 得到覆盖特征向量ct; 将ct作为计算注意力的输入时 有, 其中, ct为当前时间步t之前的所有解码时间步输出的注意力分数之和, at′为在解码过 程中, 第t ’步的注意力分数; 所述解码器采用下述公式计算带覆盖 机制的注意力分布: 其中, v、 Wh、 Ws、 wc、 b为可学习的参数; 为覆盖特 征向量。 4.根据权利要求3所述的文本顺滑方法, 其特征在于, 利用下述公式计算目标文本单词 的概率分布: 权 利 要 求 书 1/3 页 2 CN 114611492 A 2其中, P(w)为最终的目标文本单词 概率分布, pgen为复制输入序列的单词概率, Pvocab(w) 为词汇表中生成的单词概率分布, w为任意一个词, 为输入序列中所有等于当前 时间步t词w所在的位置i对应 的和, at为注意力 分布, 即at=softmax(et), et为归一化之 前的注意力分布; 为编码器的上下文编码向量, hi为编码器隐状态, st为解码 器状态, bptr、 V′、 V、 b、 b′为可学习的参数。 5.根据权利要求2所述的文本顺滑方法, 其特征在于, 所述解码器输出的顺滑序列集 合, 采用集束搜索方法搜索出最优的目标顺滑文本; 搜索的最终目标结果Y={y1,y2……yt} 的概率表示为: 其中, t为结果序列输 出当前时间步, Ty为结果序列的长度; x为源序列输入; 概率最大化 目标结果的概 率表示为: 其中, α 为缓和系数。 6.根据权利要求1所述的文本顺滑方法, 其特征在于, 所述损失函数包括标签序列识别 的损失函数、 目标文本生成的损失函数以及两者结合的损伤函数, 其中; 标签序列识别的损失函数为: SRealPath为输入文本的真实标签路径, 为某个时刻所有标签的 总得分, 是某个时刻标签为i的得分; 指第i个词被标记为zi的概率; 表示从标签zi到zi+1的转移概 率; η为CRF参数; 目标文本生成的损失函数为: λ为平衡参数, δ 为Covera ge的权重参数, 为时间步t时刻的目标词; 两者结合后的损失函数: L(x,y,z| θ )=(1 ‑β )L(x,y| θ )+β L(x,z| θ ) β 为加权因子 。 7.根据权利要求1所述的文本顺滑方法, 其特征在于, 所述构造包含伪标签的不顺滑语 料对, 包括: 构造只包含 “Filter”类别的语料对、 构造只包含 “Restart”类别的语料对和构 造同时包 含“Filter”和“Restart”类别的语料对; 其中,权 利 要 求 书 2/3 页 3 CN 114611492 A 3

.PDF文档 专利 一种文本顺滑方法、系统和计算机设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本顺滑方法、系统和计算机设备 第 1 页 专利 一种文本顺滑方法、系统和计算机设备 第 2 页 专利 一种文本顺滑方法、系统和计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。