(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210448670.4
(22)申请日 2022.04.24
(65)同一申请的已公布的文献号
申请公布号 CN 114548080 A
(43)申请公布日 2022.05.27
(73)专利权人 长沙市智为信息技 术有限公司
地址 410000 湖南省长 沙市高新 开发区文
轩路27号麓谷钰园E6栋102号第五、 六
层
(72)发明人 李芳芳 单悠然 黄惟 康占英
王青
(74)专利代理 机构 长沙惟盛赟鼎知识产权代理
事务所(普通 合伙) 43228
专利代理师 黄敏华(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
US 2021319181 A1,2021.10.14
审查员 朱江
(54)发明名称
一种基于分词增强的中文错字校正方法及
系统
(57)摘要
发明涉及一种基于分词增强的中文错字校
正方法及系统, 中文错字校正方法包括以下步
骤, S1、 获取包含中文错字的原始文本; S2、 利用
分词模块中的第一文本编码模块获取原始文本
的第一隐藏状态, 并根据所述原始文本的第一隐
藏状态预测目标文本的分词结果; S3、 利用纠正
模块中预先训练的文本编码模型, 根据所述原始
文本、 分词结果和第一隐藏状态获取最终隐藏状
态; S4、 利用纠正模块中的纠正网络模块, 根据所
述最终隐藏状态对所述原始文本进行纠正得到
目标文本。 本方法可预测目标文本的分词结果,
在原始文本存在错别字的情况下, 能获得正确的
分词结果, 为纠正过程提供有效信息, 确保目标
文本的正确性。
权利要求书2页 说明书11页 附图3页
CN 114548080 B
2022.07.15
CN 114548080 B
1.一种基于分词增强的中文错字校正方法, 其特 征在于, 包括以下步骤,
S1、 获取包 含中文错字的原 始文本;
S2、 利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态, 并根据所述
原始文本的第一隐藏状态预测目标文本的分词结果;
S3、 利用纠正模块中预先训练的文本编码模型, 根据所述原始文本、 分词结果和第一隐
藏状态获取最终隐藏状态;
S4、 利用纠正模块中的纠 正网络模块, 根据所述最终隐藏状态对所述原始文本进行纠
正得到目标文本;
所述S3包括:
根据原始文本, 获得与原 始文本对应的字符序列、 位置序列;
根据分词结果、 字符序列、 位置序列获取原 始文本的第二隐藏状态;
将第一隐藏状态与第二隐藏状态相加, 获得最终隐藏状态;
所述文本编码模型 是基于BERT模型继续预训练获得的, 训练方法为:
以大规模语料为基础, 为大规模语料中的每一个基础字符生成音近字初始候选列表和
形近字初始 候选列表, 音近字符初始候选列 表和形近字符初始 候选列表中的字符为候选字
符; 为大规模语料中的每一个基础词语生成音近词语初始候选列表; 音近词语初始候选列
表中的词语为 候选词语;
计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、
字形综合得分, 为基础字符生成音近 字候选列表、 形近 字候选列表;
计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合
得分, 为基础词语生成音近词语候选列表;
获取不包 含错别字的训练原 始文本;
使用LAC模型获取训练原 始文本的文本分词;
在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符; 被替换字符包括
字符和词语;
将被替换字符中的字符与基础字符对应, 在相应的音近字候选列表、 形近字候选列表
中选择候选 字符作为 替换字符, 候选列表中每 个候选字符的分数作为 其被选中的概 率;
将被替换字符中的词语与基础词语对应, 在相应的音近词语候选列表中选择候选词语
作为替换词语, 候选列表中每 个候选词语的分数作为 其被选中的概 率;
替换前的训练原始文本作为训练目标文本, 替换后的训练原始文本作为输入的训练原
始文本, 由此构成的若干句子对作为训练集; 使用替换前的文本分词 替换原始BERT模型嵌
入层的分段嵌入信息, 并进行训练; 训练的优化 目标是根据输入的训练原始文本预测与之
对应的训练目标文本, 训练生成文本编码模型。
2.根据权利要求1所述的基于分词增强的中文错字校正方法, 其特征在于, 所述S2包
括,
根据原始文本获得与原 始文本对应的字符序列、 分段序列和位置序列;
根据字符序列、 分段序列和位置序列计算第一嵌入向量;
根据第一嵌入向量抽取文本的语义表示, 得到第一隐藏状态。
3.根据权利要求1所述的基于分词增强的中文错字校正方法, 其特征在于, 按照下述公权 利 要 求 书 1/2 页
2
CN 114548080 B
2式预测分词结果:
, 式中S为分词结果, H为第一隐藏状态, W1与b1通过
训练得到 。
4.一种基于分词增强的中文错字校正系统, 其特 征在于, 包括:
分词模块, 用于根据原 始文本预测目标文本的分词结果;
纠正模块, 用于将分词结果作为 额外的信息对原 始文本进行纠正, 并输出目标文本;
第一文本编码模块, 用于获取原 始文本的第一隐藏状态;
分词网络模块, 用于根据原 始文本的第一隐藏状态, 预测目标文本的分词结果;
所述纠正模块包括:
第二文本编码模块, 用于利用预先训练的文本编码模型以分词结果作为额外的信 息获
取原始文本的第二隐藏状态, 并将第一隐藏状态与第二隐藏状态相加, 获得最终隐藏状态;
纠正网络模块, 用于根据最终隐藏状态预测并输出目标文本 。
5.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程
序, 该计算机程序被处 理器运行时执 行如权利要求1至 3中任一项所述的方法。
6.一种计算机设备, 其特征在于, 包括: 处理器和存储器, 所述存储器存储有所述处理
器可执行的机器可读指令, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至3中
任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114548080 B
3
专利 一种基于分词增强的中文错字校正方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:58上传分享