(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210373641.6
(22)申请日 2022.04.06
(71)申请人 携程旅游信息技 术 (上海) 有限公司
地址 201203 上海市浦东 新区张江高科技
园区碧波路518号3 02室
(72)发明人 韩雨 鞠剑勋 李健
(74)专利代理 机构 上海弼兴律师事务所 31283
专利代理师 马涛 罗朗
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 15/26(2006.01)
(54)发明名称
文本纠错模 型生成方法、 纠错方法、 系统、 设
备和介质
(57)摘要
本发明公开了一种文本纠错模 型生成方法、
纠错方法、 系统、 设备和介质, 方法包括: 获取每
个语音样本经过语音识别后的语音识别文本对
应的语音关联参数; 语音关联参数包括语音错误
文本和文本语音向量; 将语音关联参数输入至预
先构建且依次连接的编码层、 向量融合层、 解码
层和输出层中, 训练得到用于输出语音修正文本
的语音识别文本纠错模型。 本发 明中纠错模型的
生成方法增加了文本语音向量, 使得训练得到的
模型能够结合语音和识别文本的多模态的文本
对语音识别后的语音识别文本进行纠错, 从而提
高模型训练精度, 进而提高语音识别文本的纠错
准确率。
权利要求书3页 说明书15页 附图7页
CN 114912441 A
2022.08.16
CN 114912441 A
1.一种语音识别文本纠错模型的生成方法, 其特 征在于, 所述 生成方法包括:
获取每个语音样本经 过语音识别后的语音识别文本对应的语音关联参数;
其中, 所述语音关联参数包括语音错 误文本和文本语音向量;
将所述语音关联参数输入至预先构建且依次连接的编码层、 向量融合层、 解码层和输
出层中训练得到用于 输出语音修 正文本的所述语音识别文本纠错模型;
其中, 所述编码层用于 输出所述语音错 误文本的文本向量;
所述向量融合层用于将同一所述语音错误文本对应的所述文本向量和所述文本语音
向量进行融合, 以输出文本语义向量;
所述解码层用于基于所述文本语义向量输出纠错后语义向量;
所述输出层用于基于所述纠错后语义向量输入和所述输出层上一次输出的所述语音
修正文本输出语音修 正文本。
2.如权利要求1所述的语音识别文本纠错模型的生成方法, 其特征在于, 构建所述编码
层的步骤 包括:
采用双向LSTM, 构建得到所述编码层;
所述将所述语音关联参数输入至预先构建且依次连接的编码层、 向量融合层、 解码层
和输出层中训练得到用于 输出语音修 正文本的所述语音识别文本纠错模型的步骤 包括:
将所述语音错 误文本转换为对应的文本词向量;
采用所述双向LSTM对所述文本词向量进行编码处理, 得到所述语音错误文本的所述文
本向量;
将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、 解码
层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型纠错后语义
向量。
3.如权利要求2所述的语音识别文本纠错模型的生成方法, 其特征在于, 所述将所述文
本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、 解码层和输出层中
训练得到用于 输出语音修 正文本的所述语音识别文本纠错模型的步骤 包括:
对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理, 生成所述语音
错误文本对应的所述文本语义向量;
其中, 所述预设融合方式包括向量 拼接处理或向量相加计算处 理;
将所述文本语义向量和所述文本语音向量输入至预先构建且依次连接的解码层和输
出层中训练得到用于 输出语音修 正文本的所述语音识别文本纠错模型。
4.如权利要求3所述的语音识别文本纠错模型的生成方法, 其特征在于, 所述对所述文
本向量和所述文本语音向量采用预设融合方式进 行融合处理, 生成所述语音错误文本对应
的所述文本语义向量的步骤 包括:
将同一所述语音错 误文本的所述文本向量和所述文本语音向量进行对齐处 理;
将对齐后的同一所述语音错误文本的所述文本向量和所述文本语音向量, 采用所述预
设融合方式进行处 理, 以生成所述语音错 误文本对应的所述文本语义向量。
5.如权利要求4所述的语音识别文本纠错模型的生成方法, 其特征在于, 所述将同一所
述语音错 误文本的所述文本向量和所述文本语音向量进行对齐处 理的步骤 包括:
获取所述语音错 误文本中的每 个文字对应的文字特 征向量和文字语音向量;权 利 要 求 书 1/3 页
2
CN 114912441 A
2将每个所述文字对应的文字特 征向量和文字语音向量进行对齐处 理;
在将所述语音错误文本 中所有文字的所述文字特征向量和所述文字语音向量处理时,
确定完成同一所述语音错 误文本的所述文本向量和所述语音向量的对齐处 理操作。
6.如权利要求5所述的语音识别文本纠错模型的生成方法, 其特征在于, 所述获取所述
语音错误文本中的每 个文字对应的文字特 征向量和文字语音向量 步骤包括:
获取所述语音错 误文本中的每 个所述文字对应的目标语音帧;
将所述目标语音帧转换为对应的所述文字语音向量;
从所述语音错误文本的所述文本向量中提取出每个所述文字对应的所述文字特征向
量;
和/或, 所述将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理的步
骤包括:
采用注意力机制, 将每 个文字对应的文字特 征向量和文字语音向量进行对齐处 理。
7.如权利要求6所述的语音识别文本纠错模型的生成方法, 其特征在于, 获取每个所述
文字对应的目标语音帧的步骤 包括:
计算同一语音样本的所述语音错误文本中的每个所述文字与预设数量的语音帧的相
关度;
选取所述相关度大于设定阈值的第一数量的语音帧; 所述第一数量小于所述预设数
量;
对于每个所述文字, 将对应的所述第一数量的语音帧进行加权求和 处理, 得到一帧语
音帧以作为对应文字的所述目标语音帧。
8.如权利要求3所述的语音识别文本纠错模型的生成方法, 其特征在于, 构建所述解码
层的步骤 包括:
采用双向LSTM, 构建得到所述 解码层;
所述将所述文本语义向量和所述文本语音向量输入至预先构建的解码层和输出层中
训练得到用于 输出语音修 正文本的所述语音识别文本纠错模型的步骤 包括:
将所述语音错 误文本对应的所述文本语义向量输入至所述 解码层中
对所述语音错 误文本进行纠错处 理以得到纠错结果;
对所述纠错结果进行解码处 理, 以输出纠错处 理后的所述纠错后语义向量;
将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音
识别文本纠错模型;
和/或, 所述将所述纠 错后语义向量输入至输出层中训练得到用于输出语音修正文本
的所述语音识别文本纠错模型的步骤 包括:
将所述纠错后语义向量依次输入至全连接层和 Softmax层中训练得到所述语音识别文
本纠错模型。
9.如权利要求1所述的语音识别文本纠错模型的生成方法, 其特征在于, 所述生成方法
还包括:
将任一语音测试样本的测试语音错误文本输入至所述语音识别文本纠错模型, 获取对
应的测试语音修 正文本;
基于同一所述语音测试样本的所述测试语音错误文本对应的所述修正文本与测试语权 利 要 求 书 2/3 页
3
CN 114912441 A
3
专利 文本纠错模型生成方法、纠错方法、系统、设备和介质
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:14上传分享