(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210262908.4
(22)申请日 2022.03.17
(71)申请人 北京中科智加科技有限公司
地址 100083 北京市海淀区学院路51号10
层1010、 101 1室
(72)发明人 陈玮 冯少辉 张建业
(74)专利代理 机构 北京天达知识产权代理事务
所(普通合伙) 11386
专利代理师 庞许倩
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/247(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 15/26(2006.01)
(54)发明名称
一种文本顺滑方法、 系统和计算机设备
(57)摘要
本发明涉及一种文本顺滑方法、 系统和计算
机设备, 属于语音识别技术领域; 解决了现有技
术中语音转写口语文本的顺滑方法无法满足复
杂场景的需求, 且生成的顺滑后的文本忠诚度和
流畅度不高的问题; 本发明的文本顺滑方法包
括: 通过构造包含伪标签的不顺滑语料对和构造
不包含标签的扩充语料对样本进行扩充, 得到扩
充后的训练样本集合; 利用训练样 本集合对多任
务神经网络模 型进行训练, 并使用损失函数进行
梯度更新, 得到文本顺滑模型; 利用文本顺滑模
型识别待顺滑文本得到顺滑后的文本。 本发明通
过一个网络进行多任务建模, 实现了不流畅文本
检测, 同时输出顺滑后的文本, 提高了口语文本
的可阅读性, 识别文本更加人性 化。
权利要求书3页 说明书14页 附图2页
CN 114611492 A
2022.06.10
CN 114611492 A
1.一种文本顺滑方法, 其特 征在于, 包括以下步骤:
样本构造, 包括: 通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料
对样本进行扩充, 得到扩充后的训练样本集 合;
模型训练, 包括: 利用所述训练样本集合对多任务神经网络模型进行训练, 并使用损失
函数进行梯度更新, 得到文本顺滑模型; 所述文本顺滑模型用于输出当前不顺滑文本的不
顺滑有序标签以及当前 所述不顺滑文本对应的顺滑文本;
顺滑文本识别, 包括: 获取语音识别后的待顺滑文本, 利用所述文本顺滑模型识别得到
顺滑后的文本 。
2.根据权利要求1所述的文本顺滑方法, 其特征在于, 所述文本顺滑模型使用T5 ‑base
的预训练模型作为初始模型, 包括输入层、 编码器 ‑解码器层和输出层;
所述编码器使用T5原生的基于自注意力 机制的编码模型; 根据输入的不顺滑文本得到
具有不流畅文本上 下文表示的隐向量;
所述解码器用于根据编码器隐向量, 通过注意力计算, 得到目标文本单词概 率分布;
所述输出层包括不顺滑标签预测和顺滑文本生成任务; 所述不顺滑标签预测任务, 使
用条件随机场来预测 不顺滑标签序列; 所述顺滑文本生成任务, 采用集束搜索方法搜索出
概率最大化的文本为目标顺滑文本 。
3.根据权利要求2所述的文本顺滑方法, 其特征在于, 所述模型训练过程中, 还包括忠
诚度和流畅度提升策略及抑制重复片段生成策略; 其中,
所述忠诚度和流畅度提升策略包括, 所述解码器在计算目标文本单词概率过程中, 使
用Copy机制, 将解码 器每步生成出的单词概率分布与拷贝原文的单词概率看做一个 混合模
型, 利用注意力得分作为拷贝单词的概 率;
所述抑制重复片段生成策略包括, 所述解码器在注意力 计算过程中, 引用覆盖机制, 将
当前时间步之前的注意力分数求和, 得到覆盖特征向量ct; 将ct作为计算注意力的输入时
有,
其中, ct为当前时间步t之前的所有解码时间步输出的注意力分数之和, at′为在解码过
程中, 第t ’步的注意力分数;
所述解码器采用下述公式计算带覆盖 机制的注意力分布:
其中, v、 Wh、 Ws、 wc、 b为可学习的参数;
为覆盖特 征向量。
4.根据权利要求3所述的文本顺滑方法, 其特征在于, 利用下述公式计算目标文本单词
的概率分布:
权 利 要 求 书 1/3 页
2
CN 114611492 A
2其中, P(w)为最终的目标文本单词 概率分布, pgen为复制输入序列的单词概率, Pvocab(w)
为词汇表中生成的单词概率分布, w为任意一个词,
为输入序列中所有等于当前
时间步t词w所在的位置i对应
的和, at为注意力 分布, 即at=softmax(et), et为归一化之
前的注意力分布;
为编码器的上下文编码向量, hi为编码器隐状态, st为解码
器状态,
bptr、 V′、 V、 b、 b′为可学习的参数。
5.根据权利要求2所述的文本顺滑方法, 其特征在于, 所述解码器输出的顺滑序列集
合, 采用集束搜索方法搜索出最优的目标顺滑文本; 搜索的最终目标结果Y={y1,y2……yt}
的概率表示为:
其中, t为结果序列输 出当前时间步, Ty为结果序列的长度; x为源序列输入; 概率最大化
目标结果的概 率表示为:
其中, α 为缓和系数。
6.根据权利要求1所述的文本顺滑方法, 其特征在于, 所述损失函数包括标签序列识别
的损失函数、 目标文本生成的损失函数以及两者结合的损伤函数, 其中;
标签序列识别的损失函数为:
SRealPath为输入文本的真实标签路径,
为某个时刻所有标签的
总得分,
是某个时刻标签为i的得分;
指第i个词被标记为zi的概率;
表示从标签zi到zi+1的转移概 率; η为CRF参数;
目标文本生成的损失函数为:
λ为平衡参数, δ 为Covera ge的权重参数,
为时间步t时刻的目标词;
两者结合后的损失函数:
L(x,y,z| θ )=(1 ‑β )L(x,y| θ )+β L(x,z| θ )
β 为加权因子 。
7.根据权利要求1所述的文本顺滑方法, 其特征在于, 所述构造包含伪标签的不顺滑语
料对, 包括: 构造只包含 “Filter”类别的语料对、 构造只包含 “Restart”类别的语料对和构
造同时包 含“Filter”和“Restart”类别的语料对; 其中,权 利 要 求 书 2/3 页
3
CN 114611492 A
3
专利 一种文本顺滑方法、系统和计算机设备
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:38上传分享