(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210277185.5 (22)申请日 2022.03.16 (71)申请人 深圳前海微众 银行股份有限公司 地址 518027 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 卢俊羽 连荣忠 姜迪 杨海军  徐倩  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 臧建明 黄健 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/232(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 信息处理方法、 装置、 设备、 存储介质及程序 产品 (57)摘要 本发明公开了一种信息处理方法、 装置、 设 备、 存储介质及程序产品, 该方法包括: 获取用户 的待检测目标句子, 所述待检测目标句子由多个 字符组成; 根据所述多个字符, 通过纠错模型, 确 定纠正后的字符; 所述纠错模型是通过训练预训 练语言模型、 语义聚合层网络以及分类器得到 的, 所述预训练语言模型用于生成字符向量, 所 述语义聚合层网络用于依据字符向量生成纠错 向量, 所述 分类器用于依据纠错向量生成纠正后 的字符; 其中, 所述纠正后的字符组成纠正后的 句子, 用于支持与所述用户语音交互。 本发明能 够解决现有技术的语音纠错方式处理过程复杂 且错误检测的准确率较低的问题。 权利要求书2页 说明书10页 附图2页 CN 114676702 A 2022.06.28 CN 114676702 A 1.一种信息处 理方法, 其特 征在于, 所述方法包括: 获取用户的待检测目标句子, 所述待检测目标句子由多个字符组成; 根据所述多个字符, 通过纠错模型, 确定纠正后的字符; 所述纠错模型是通过训练预训 练语言模 型、 语义聚合层网络以及分类器得到的, 所述预训练语 言模型用于生成字符向量, 所述语义聚合层网络用于依据字符向量生成纠错向量, 所述分类器用于依据纠错向量生成 纠正后的字符; 其中, 所述纠正后的字符组成纠正后的句子, 用于支持与所述用户语音交 互。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述多个字符, 通过纠错模型, 确 定纠正后的字符, 包括: 根据所述多个字符, 通过训练后的预训练语言模型, 得到所述多个字符的原始向量以 及语义向量; 根据所述原 始向量以及所述语义向量, 通过训练后的语义聚合层网络, 确定纠错向量; 将所述纠错向量输入到训练后的分类 器中, 得到纠正后的字符。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个字符, 通过训练后的预 训练语言模型, 得到所述多个字符的原 始向量以及语义向量, 包括: 将所述多个字符输入到预训练语言模型中, 通过预训练语言模型中的字符向量矩阵, 映射得到所述多个字符对应的原 始向量; 根据所述原始向量, 通过所述预训练语言模型中的多层注意力机制, 得到与所述多个 字符上下文相关的语义向量。 4.根据权利要求2所述的方法, 其特征在于, 所述根据所述原始向量以及所述语义向 量, 通过训练后的语义聚合层网络, 确定纠错向量, 包括: 通过训练后的语义聚合层网络, 对所述原始向量以及所述语义向量进行归一化处理, 得到归一 化后的原 始向量以及归一 化后的语义向量; 计算得到所述归一 化后的原 始向量以及所述归一 化后的语义向量的差值向量; 根据归一化后的原始向量所述归一化后的语义向量以及所述差值向量, 通过训练后的 语义聚合层网络, 确定纠错向量。 5.根据权利要求1 ‑4任一项所述的方法, 其特 征在于, 所述方法还 包括: 通过语音内容识别ASR系统, 获取已标注 的历史音频对应的待检测的句子以及所述历 史音频对应的正确的句子; 将所述待检测的句子以及对应的所述正确的句子作为训练样本, 分别训练预训练语言 模型、 语义聚合层网络以及分类器, 得到训练后的训练语言模 型、 训练后的语义聚合层网络 以及训练后的分类 器; 其中, 所述训练后的训练语言模型、 训练后的语义聚合层网络以及训练后的分类器构 成所述纠错模型。 6.根据权利要求5所述的方法, 其特 征在于, 所述获取用户的待检测目标句子, 包括: 获取用户的语音命令; 根据所述用户的语音命令, 通过ASR系统, 得到所述待检测目标句子 。 7.根据权利要求1 ‑4任一项所述的方法, 其特 征在于, 所述方法还 包括: 根据所述纠正后的句子, 搜索所述纠正后的句子对应的应答信息;权 利 要 求 书 1/2 页 2 CN 114676702 A 2显示或语音播报所述应答信息 。 8.一种信息处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取用户的待检测目标句子, 所述待检测目标句子由多个字符组成; 处理模块, 用于根据所述多个字符, 通过纠错模型, 确定纠正后的字符; 所述纠错模型 是通过训练预训练语言模型、 语义聚合层 网络以及分类器得到的, 所述预训练语言模型用 于生成字符向量, 所述语义聚合层 网络用于依据字符向量生成纠错向量, 所述分类器用于 依据纠错向量 生成纠正后的字符; 其中, 所述纠正后的字符组成纠正后的句子, 用于支持与所述用户语音交 互。 9.一种信息处理设备, 其特征在于, 所述信息处理设备包括: 存储器、 处理器及存储在 所述存储器上并可在所述处理器上运行的信息处理程序, 所述信息处理程序被所述处理器 执行时实现如权利要求1 ‑7中任一项所述的信息处 理方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有信息处 理程序, 所述信息处理程序被处理器执行时实现如权利要求1 ‑7中任一项所述的信息处理 方法的步骤。 11.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114676702 A 3

.PDF文档 专利 信息处理方法、装置、设备、存储介质及程序产品

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息处理方法、装置、设备、存储介质及程序产品 第 1 页 专利 信息处理方法、装置、设备、存储介质及程序产品 第 2 页 专利 信息处理方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。