专利文本纠错模型生成方法、纠错方法、系统、设备和介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210373641.6 (22)申请日 2022.04.06 (71)申请人携程旅游信息技术（上海）有限公司地址 201203 上海市浦东新区张江高科技园区碧波路518号3 02室 (72)发明人韩雨　鞠剑勋　李健　 (74)专利代理机构上海弼兴律师事务所 31283 专利代理师马涛　罗朗 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 15/26(2006.01) (54)发明名称文本纠错模型生成方法、纠错方法、系统、设备和介质 (57)摘要本发明公开了一种文本纠错模型生成方法、纠错方法、系统、设备和介质，方法包括：获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；语音关联参数包括语音错误文本和文本语音向量；将语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中，训练得到用于输出语音修正文本的语音识别文本纠错模型。本发明中纠错模型的生成方法增加了文本语音向量，使得训练得到的模型能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，从而提高模型训练精度，进而提高语音识别文本的纠错准确率。权利要求书3页说明书15页附图7页 CN 114912441 A 2022.08.16 CN 114912441 A 1.一种语音识别文本纠错模型的生成方法，其特征在于，所述生成方法包括：获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；其中，所述语音关联参数包括语音错误文本和文本语音向量；将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；其中，所述编码层用于输出所述语音错误文本的文本向量；所述向量融合层用于将同一所述语音错误文本对应的所述文本向量和所述文本语音向量进行融合，以输出文本语义向量；所述解码层用于基于所述文本语义向量输出纠错后语义向量；所述输出层用于基于所述纠错后语义向量输入和所述输出层上一次输出的所述语音修正文本输出语音修正文本。 2.如权利要求1所述的语音识别文本纠错模型的生成方法，其特征在于，构建所述编码层的步骤包括：采用双向LSTM，构建得到所述编码层；所述将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：将所述语音错误文本转换为对应的文本词向量；采用所述双向LSTM对所述文本词向量进行编码处理，得到所述语音错误文本的所述文本向量；将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型纠错后语义向量。 3.如权利要求2所述的语音识别文本纠错模型的生成方法，其特征在于，所述将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量；其中，所述预设融合方式包括向量拼接处理或向量相加计算处理；将所述文本语义向量和所述文本语音向量输入至预先构建且依次连接的解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。 4.如权利要求3所述的语音识别文本纠错模型的生成方法，其特征在于，所述对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量的步骤包括：将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理；将对齐后的同一所述语音错误文本的所述文本向量和所述文本语音向量，采用所述预设融合方式进行处理，以生成所述语音错误文本对应的所述文本语义向量。 5.如权利要求4所述的语音识别文本纠错模型的生成方法，其特征在于，所述将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理的步骤包括：获取所述语音错误文本中的每个文字对应的文字特征向量和文字语音向量；权　利　要　求　书 1/3 页 2 CN 114912441 A 2将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理；在将所述语音错误文本中所有文字的所述文字特征向量和所述文字语音向量处理时，确定完成同一所述语音错误文本的所述文本向量和所述语音向量的对齐处理操作。 6.如权利要求5所述的语音识别文本纠错模型的生成方法，其特征在于，所述获取所述语音错误文本中的每个文字对应的文字特征向量和文字语音向量步骤包括：获取所述语音错误文本中的每个所述文字对应的目标语音帧；将所述目标语音帧转换为对应的所述文字语音向量；从所述语音错误文本的所述文本向量中提取出每个所述文字对应的所述文字特征向量；和/或，所述将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理的步骤包括：采用注意力机制，将每个文字对应的文字特征向量和文字语音向量进行对齐处理。 7.如权利要求6所述的语音识别文本纠错模型的生成方法，其特征在于，获取每个所述文字对应的目标语音帧的步骤包括：计算同一语音样本的所述语音错误文本中的每个所述文字与预设数量的语音帧的相关度；选取所述相关度大于设定阈值的第一数量的语音帧；所述第一数量小于所述预设数量；对于每个所述文字，将对应的所述第一数量的语音帧进行加权求和处理，得到一帧语音帧以作为对应文字的所述目标语音帧。 8.如权利要求3所述的语音识别文本纠错模型的生成方法，其特征在于，构建所述解码层的步骤包括：采用双向LSTM，构建得到所述解码层；所述将所述文本语义向量和所述文本语音向量输入至预先构建的解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：将所述语音错误文本对应的所述文本语义向量输入至所述解码层中对所述语音错误文本进行纠错处理以得到纠错结果；对所述纠错结果进行解码处理，以输出纠错处理后的所述纠错后语义向量；将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；和/或，所述将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：将所述纠错后语义向量依次输入至全连接层和 Softmax层中训练得到所述语音识别文本纠错模型。 9.如权利要求1所述的语音识别文本纠错模型的生成方法，其特征在于，所述生成方法还包括：将任一语音测试样本的测试语音错误文本输入至所述语音识别文本纠错模型，获取对应的测试语音修正文本；基于同一所述语音测试样本的所述测试语音错误文本对应的所述修正文本与测试语权　利　要　求　书 2/3 页 3 CN 114912441 A 3

专利 文本纠错模型生成方法、纠错方法、系统、设备和介质

专利文本纠错模型生成方法、纠错方法、系统、设备和介质