(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210262506.4
(22)申请日 2022.03.17
(71)申请人 平安科技 (深圳) 有限公司
地址 518033 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 姜鹏
(74)专利代理 机构 北京市京大律师事务所
11321
专利代理师 姚维
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 16/31(2019.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)G06K 9/62(2022.01)
G06F 40/126(2020.01)
G06F 40/151(2020.01)
G06F 40/166(2020.01)
G06F 40/253(2020.01)
G06F 40/263(2020.01)
G06F 40/30(2020.01)
(54)发明名称
文本纠错方法、 装置、 设备及存 储介质
(57)摘要
本发明涉及语 言处理技术领域, 公开了一种
文本纠错方法、 装置、 设备及存储介质。 该方法通
过对待纠错文本数据进行预处理, 得到文本信息
后输入至预先训练得到的文本纠错模型进行文
本纠错处理, 得到文本信息对应的文本纠错结
果; 根据最小编辑距离算法, 计算文本信息中包
含的字符和与其对应的文本纠错结果中包含的
字符之间的最小编辑距离; 对文本信息中包含的
字符和与之对应的所述文本纠错结果中包含的
字符按照最小编辑距离进行映射处理, 得到文本
纠错意见; 通过计算最小编辑距离得到本文纠错
意见, 以体现出错误内容与正确内容之间的关
系, 并给出错误内容在文本中的位置, 以便于用
户进行实时调整。
权利要求书3页 说明书15页 附图4页
CN 114611494 A
2022.06.10
CN 114611494 A
1.一种文本纠错方法, 其特 征在于, 所述文本纠错方法包括:
获取待纠错文本数据, 并对所述待纠错文本数据进行 预处理, 得到文本信息;
将所述文本信 息输入至预先训练得到的文本纠错模型进行文本纠错处理, 得到所述文
本信息对应的文本纠错结果, 其中, 所述文本纠错模型中的编码器的架构为Transformer模
型架构, 所述文本纠错模型中的解码器架构为长短时记 忆模型架构;
根据最小编 辑距离算法, 计算所述文本信 息包含的字符串和文本纠错结果包含的字符
串之间的最小编辑距离;
对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑
距离进行映射处 理, 得到文本纠错 意见。
2.根据权利要求1所述的文本纠错方法, 其特征在于, 所述将所述文本信 息输入至预先
训练得到的文本纠错模型进行文本纠错处理, 得到所述文本信息对应的文本纠错结果, 包
括:
将所述文本信息输入至所述预先训练得到的文本纠错模型, 通过采用所述
Transformer模型架构的编码器对所述文本信息进行编码, 得到文本编码;
根据注意力 机制对所述文本编码进行线性变换和投影处理, 计算所述文本编码对应的
注意力值;
根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合, 得到注意力值集
合;
通过长短时记忆模型调用困惑度值计算算法, 对所述注意力值集合中包含的注意力值
进行迭代计算, 得到对应的困惑度;
通过所述长短时记忆模型, 根据所述困惑度对文本编码进行概率预测, 得到概率预测
结果;
通过所述长短时记忆模型, 基于所述概率预测结果对所述文本编码进行解码, 得到文
本纠错结果。
3.根据权利要求1所述的文本纠 错方法, 其特征在于, 所述根据最小编辑距离算法, 计
算所述文本信息包 含的字符串和文本纠错结果包 含的字符串之间的最小编辑距离, 包括:
提取所述文本信息和与之对应的所述文本纠错结果中的所有字符, 形成字符集;
按照预设的拆分方法对所述字符集进行拆分, 形成字符串;
根据所述文本信 息和所述文本纠错结果之间的对应关系, 将所述字符串转换成具有所
述对应关系的字符矩阵, 其中, 所述字符矩阵包 含所述字符串中所有字符的字符特 征值;
根据预设的编辑操作类型, 构建动态规划方程;
基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编 辑距离运算, 得到所
述文本信息包 含的字符串和文本纠错结果包 含的字符串之间的最小编辑距离 。
4.根据权利要求1所述的文本纠错方法, 其特征在于, 所述对所述文本信 息包含的字符
串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理, 得到文本纠错
意见, 包括:
根据所述最小编 辑距离, 对所述文本信 息包含的字符串和所述文本纠错结果包含的字
符串进行映射处理, 得到字符串对应组, 其中, 每一个所述字符串对应组包括一个文本信息
中的字符串和一个文本纠错结果中的字符串;权 利 要 求 书 1/3 页
2
CN 114611494 A
2根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离, 按照把
所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向, 构建编辑
操作序列;
按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序
列, 得到文本纠错 意见。
5.根据权利要求1 ‑4中任一项所述的文本纠错方法, 其特征在于, 在所述获取待纠错文
本数据, 并对所述待纠错文本数据进行 预处理, 得到文本信息之前, 还 包括:
提取Transformer模型框架中的编码器和长短时记 忆模型框架中的解码器;
在所述编码器和所述解码器之间进行嵌入层参数共享, 并对嵌入层参数进行因式分
解, 构建混合架构模型;
从具有纠错信 息的文本数据中构建训练数据集, 基于所述训练数据集对所述混合架构
模型进行 学习训练, 得到初始训练模型;
对所述初始训练模型进行量 化处理, 得到文本纠错模型。
6.根据权利要求5所述的文本纠错方法, 其特征在于, 所述从具有纠错信 息的文本数据
中构建训练数据集, 基于所述训练数据集对所述混合架构模型进行学习训练, 得到初始训
练模型, 包括:
采集文本数据, 按照预设方式构建训练数据集;
通过硬蒸馏的循环方式将所述训练数据集循环输入至混合架构模型, 通过待训练模型
的编码解码运 算, 得到对应的训练结果;
判断所述训练结果是否满足预设的条件;
若是, 则终止循环, 输出初始训练模型。
7.一种文本纠错处 理装置, 其特 征在于, 所述文本纠错处 理装置包括:
预处理模块, 用于获取待纠错文本数据, 并对所述待纠错文本数据进行预处理, 得到文
本信息;
文本纠错处理模块, 用于将所述文本信 息输入至预先训练得到的文本纠错模型进行文
本纠错处 理, 得到所述文本信息对应的文本纠错结果;
最小编辑距离计算模块, 用于计算所述文本信 息和与之对应的所述文本纠错结果之间
的最小编辑距离;
映射处理模块, 用于对所述文本信 息和与之对应的所述文本纠错结果按照所述最小编
辑距离进行映射处 理, 得到文本纠错 意见。
8.根据权利要求7所述的文本纠错处理装置, 其特征在于, 所述文本纠错处理装置还包
括模型训练模块, 其用于:
提取Transformer模型框架中的编码器和长短时记 忆模型框架中的解码器;
在所述编码器和所述解码器之间进行嵌入层参数共享, 并对嵌入层参数进行因式分
解, 构建混合架构模型;
从具有纠错信 息的文本数据中构建训练数据集, 基于所述训练数据集对所述混合架构
模型进行 学习训练, 得到初始训练模型;
对所述初始训练模型进行量 化处理, 得到文本纠错模型。
9.一种计算机设备, 其特征在于, 包括: 存储器和至少一个处理器, 所述存储器中存储权 利 要 求 书 2/3 页
3
CN 114611494 A
3
专利 文本纠错方法、装置、设备及存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:13上传分享