专利一种基于分词增强的中文错字校正方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210448670.4 (22)申请日 2022.04.24 (65)同一申请的已公布的文献号申请公布号 CN 114548080 A (43)申请公布日 2022.05.27 (73)专利权人长沙市智为信息技术有限公司地址 410000 湖南省长沙市高新开发区文轩路27号麓谷钰园E6栋102号第五、六层 (72)发明人李芳芳　单悠然　黄惟　康占英　王青　 (74)专利代理机构长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 专利代理师黄敏华(51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 US 2021319181 A1,2021.10.14 审查员朱江 (54)发明名称一种基于分词增强的中文错字校正方法及系统 (57)摘要发明涉及一种基于分词增强的中文错字校正方法及系统，中文错字校正方法包括以下步骤， S1、获取包含中文错字的原始文本； S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态，并根据所述原始文本的第一隐藏状态预测目标文本的分词结果； S3、利用纠正模块中预先训练的文本编码模型，根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态； S4、利用纠正模块中的纠正网络模块，根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。本方法可预测目标文本的分词结果，在原始文本存在错别字的情况下，能获得正确的分词结果，为纠正过程提供有效信息，确保目标文本的正确性。权利要求书2页说明书11页附图3页 CN 114548080 B 2022.07.15 CN 114548080 B 1.一种基于分词增强的中文错字校正方法，其特征在于，包括以下步骤， S1、获取包含中文错字的原始文本； S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态，并根据所述原始文本的第一隐藏状态预测目标文本的分词结果； S3、利用纠正模块中预先训练的文本编码模型，根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态； S4、利用纠正模块中的纠正网络模块，根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本；所述S3包括：根据原始文本，获得与原始文本对应的字符序列、位置序列；根据分词结果、字符序列、位置序列获取原始文本的第二隐藏状态；将第一隐藏状态与第二隐藏状态相加，获得最终隐藏状态；所述文本编码模型是基于BERT模型继续预训练获得的，训练方法为：以大规模语料为基础，为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表，音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符；为大规模语料中的每一个基础词语生成音近词语初始候选列表；音近词语初始候选列表中的词语为候选词语；计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分，为基础字符生成音近字候选列表、形近字候选列表；计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分，为基础词语生成音近词语候选列表；获取不包含错别字的训练原始文本；使用LAC模型获取训练原始文本的文本分词；在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符；被替换字符包括字符和词语；将被替换字符中的字符与基础字符对应，在相应的音近字候选列表、形近字候选列表中选择候选字符作为替换字符，候选列表中每个候选字符的分数作为其被选中的概率；将被替换字符中的词语与基础词语对应，在相应的音近词语候选列表中选择候选词语作为替换词语，候选列表中每个候选词语的分数作为其被选中的概率；替换前的训练原始文本作为训练目标文本，替换后的训练原始文本作为输入的训练原始文本，由此构成的若干句子对作为训练集；使用替换前的文本分词替换原始BERT模型嵌入层的分段嵌入信息，并进行训练；训练的优化目标是根据输入的训练原始文本预测与之对应的训练目标文本，训练生成文本编码模型。 2.根据权利要求1所述的基于分词增强的中文错字校正方法，其特征在于，所述S2包括，根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列；根据字符序列、分段序列和位置序列计算第一嵌入向量；根据第一嵌入向量抽取文本的语义表示，得到第一隐藏状态。 3.根据权利要求1所述的基于分词增强的中文错字校正方法，其特征在于，按照下述公权　利　要　求　书 1/2 页 2 CN 114548080 B 2式预测分词结果：，式中S为分词结果， H为第一隐藏状态， W1与b1通过训练得到。 4.一种基于分词增强的中文错字校正系统，其特征在于，包括：分词模块，用于根据原始文本预测目标文本的分词结果；纠正模块，用于将分词结果作为额外的信息对原始文本进行纠正，并输出目标文本；第一文本编码模块，用于获取原始文本的第一隐藏状态；分词网络模块，用于根据原始文本的第一隐藏状态，预测目标文本的分词结果；所述纠正模块包括：第二文本编码模块，用于利用预先训练的文本编码模型以分词结果作为额外的信息获取原始文本的第二隐藏状态，并将第一隐藏状态与第二隐藏状态相加，获得最终隐藏状态；纠正网络模块，用于根据最终隐藏状态预测并输出目标文本。 5.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至 3中任一项所述的方法。 6.一种计算机设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求 1至3中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114548080 B 3

专利 一种基于分词增强的中文错字校正方法及系统

专利一种基于分词增强的中文错字校正方法及系统