专利一种文本顺滑方法、系统和计算机设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210262908.4 (22)申请日 2022.03.17 (71)申请人北京中科智加科技有限公司地址 100083 北京市海淀区学院路51号10 层1010、 101 1室 (72)发明人陈玮　冯少辉　张建业　 (74)专利代理机构北京天达知识产权代理事务所(普通合伙) 11386 专利代理师庞许倩 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/247(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 15/26(2006.01) (54)发明名称一种文本顺滑方法、系统和计算机设备 (57)摘要本发明涉及一种文本顺滑方法、系统和计算机设备，属于语音识别技术领域；解决了现有技术中语音转写口语文本的顺滑方法无法满足复杂场景的需求，且生成的顺滑后的文本忠诚度和流畅度不高的问题；本发明的文本顺滑方法包括：通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充，得到扩充后的训练样本集合；利用训练样本集合对多任务神经网络模型进行训练，并使用损失函数进行梯度更新，得到文本顺滑模型；利用文本顺滑模型识别待顺滑文本得到顺滑后的文本。本发明通过一个网络进行多任务建模，实现了不流畅文本检测，同时输出顺滑后的文本，提高了口语文本的可阅读性，识别文本更加人性化。权利要求书3页说明书14页附图2页 CN 114611492 A 2022.06.10 CN 114611492 A 1.一种文本顺滑方法，其特征在于，包括以下步骤：样本构造，包括：通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充，得到扩充后的训练样本集合；模型训练，包括：利用所述训练样本集合对多任务神经网络模型进行训练，并使用损失函数进行梯度更新，得到文本顺滑模型；所述文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前所述不顺滑文本对应的顺滑文本；顺滑文本识别，包括：获取语音识别后的待顺滑文本，利用所述文本顺滑模型识别得到顺滑后的文本。 2.根据权利要求1所述的文本顺滑方法，其特征在于，所述文本顺滑模型使用T5 ‑base 的预训练模型作为初始模型，包括输入层、编码器 ‑解码器层和输出层；所述编码器使用T5原生的基于自注意力机制的编码模型；根据输入的不顺滑文本得到具有不流畅文本上下文表示的隐向量；所述解码器用于根据编码器隐向量，通过注意力计算，得到目标文本单词概率分布；所述输出层包括不顺滑标签预测和顺滑文本生成任务；所述不顺滑标签预测任务，使用条件随机场来预测不顺滑标签序列；所述顺滑文本生成任务，采用集束搜索方法搜索出概率最大化的文本为目标顺滑文本。 3.根据权利要求2所述的文本顺滑方法，其特征在于，所述模型训练过程中，还包括忠诚度和流畅度提升策略及抑制重复片段生成策略；其中，所述忠诚度和流畅度提升策略包括，所述解码器在计算目标文本单词概率过程中，使用Copy机制，将解码器每步生成出的单词概率分布与拷贝原文的单词概率看做一个混合模型，利用注意力得分作为拷贝单词的概率；所述抑制重复片段生成策略包括，所述解码器在注意力计算过程中，引用覆盖机制，将当前时间步之前的注意力分数求和，得到覆盖特征向量ct；将ct作为计算注意力的输入时有，其中， ct为当前时间步t之前的所有解码时间步输出的注意力分数之和， at′为在解码过程中，第t ’步的注意力分数；所述解码器采用下述公式计算带覆盖机制的注意力分布：其中， v、 Wh、 Ws、 wc、 b为可学习的参数；为覆盖特征向量。 4.根据权利要求3所述的文本顺滑方法，其特征在于，利用下述公式计算目标文本单词的概率分布：权　利　要　求　书 1/3 页 2 CN 114611492 A 2其中， P(w)为最终的目标文本单词概率分布， pgen为复制输入序列的单词概率， Pvocab(w) 为词汇表中生成的单词概率分布， w为任意一个词，为输入序列中所有等于当前时间步t词w所在的位置i对应的和， at为注意力分布，即at＝softmax(et)， et为归一化之前的注意力分布；为编码器的上下文编码向量， hi为编码器隐状态， st为解码器状态， bptr、 V′、 V、 b、 b′为可学习的参数。 5.根据权利要求2所述的文本顺滑方法，其特征在于，所述解码器输出的顺滑序列集合，采用集束搜索方法搜索出最优的目标顺滑文本；搜索的最终目标结果Y＝{y1,y2……yt} 的概率表示为：其中， t为结果序列输出当前时间步， Ty为结果序列的长度； x为源序列输入；概率最大化目标结果的概率表示为：其中， α 为缓和系数。 6.根据权利要求1所述的文本顺滑方法，其特征在于，所述损失函数包括标签序列识别的损失函数、目标文本生成的损失函数以及两者结合的损伤函数，其中；标签序列识别的损失函数为： SRealPath为输入文本的真实标签路径，为某个时刻所有标签的总得分，是某个时刻标签为i的得分；指第i个词被标记为zi的概率；表示从标签zi到zi+1的转移概率； η为CRF参数；目标文本生成的损失函数为： λ为平衡参数， δ 为Covera ge的权重参数，为时间步t时刻的目标词；两者结合后的损失函数： L(x,y,z| θ )＝(1 ‑β )L(x,y| θ )+β L(x,z| θ ) β 为加权因子。 7.根据权利要求1所述的文本顺滑方法，其特征在于，所述构造包含伪标签的不顺滑语料对，包括：构造只包含 “Filter”类别的语料对、构造只包含 “Restart”类别的语料对和构造同时包含“Filter”和“Restart”类别的语料对；其中，权　利　要　求　书 2/3 页 3 CN 114611492 A 3

专利 一种文本顺滑方法、系统和计算机设备

专利一种文本顺滑方法、系统和计算机设备