(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210290429.3 (22)申请日 2022.03.23 (65)同一申请的已公布的文献号 申请公布号 CN 114372441 A (43)申请公布日 2022.04.19 (73)专利权人 中电云数智科技有限公司 地址 430058 湖北省武汉市蔡甸区经济技 术开发区人工智能科技园N栋研发楼3 层N3013号 (72)发明人 陈波 龚承启 谢旭阳 吴庆北  (74)专利代理 机构 北京尚钺知识产权代理事务 所(普通合伙) 11723 专利代理师 王海荣 (51)Int.Cl. G06F 40/126(2020.01)G06F 40/232(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113901797 A,202 2.01.07 CN 114065738 A,202 2.02.18 CN 114154486 A,202 2.03.08 审查员 张玉碟 (54)发明名称 一种中文 文本自动纠错方法及装置 (57)摘要 本发明提供一种中文文本自动纠错方法和 装置, 该方法包括: 对待纠错文本进行浅层错误 修正, 得到第一句子序列; 对第一句子序列进行 深度神经网络模型修正, 得到第五句子序列; 对 第五句子序列进行后处理, 得到修正样本; 输出 修正样本和错误信息。 本发明的装置, 包括: 浅层 错误修正模块、 深度神经网络模型修正模块、 后 处理模块和整合输出模块, 其中, 深度神经网络 模型修正模块由等长序列错误修正单元、 字词冗 余错误修正单元、 字词缺失错误修正单元、 语言 模型判断单元和三模型融合单元 组成, 后处理模 块由地名错误检测单元和敏感词错误检测单元 组成。 本发 明可以实现数据集自动生成和深度神 经网络模型修正, 中文纠错范围更加全面, 纠错 效率更加高。 权利要求书2页 说明书8页 附图4页 CN 114372441 B 2022.06.03 CN 114372441 B 1.一种中文 文本自动纠错方法, 其特 征在于, 所述中文 文本自动纠错方法包括: 步骤S1: 对待纠错文本进行浅层错 误修正, 得到第一句子序列; 步骤S2: 对第一句子序列进行深度神经网络模型修 正, 得到第五句子序列; 步骤S3: 对第五句子序列进行后处 理, 得到修 正样本; 步骤S4: 输出修 正样本和错 误信息; 步骤S2中, 对第一句子序列进行深度神经网络模型修 正, 得到第五句子序列, 包括: 步骤S21: 对第一句子序列进行等长序列错 误修正, 得到第二句子序列; 步骤S22: 分别将原句子source和目标句子target作为Encoder ‑Decoder框架的输入和 输出, 采用基于BERT 预训练语 言模型的UNILM模 型对第一句子序列进 行字词冗余错误修正, 得到第三句子序列; 步骤S23: 对第一句子序列进行字词缺失错 误修正, 得到第四句子序列; 步骤S24: 将修正后第二至第 四句子序列的困惑度分别与第一句子序列的困惑度进行 比较, 判断并输出修 正结果; 步骤S25: 以等长序列错误修正结果为基准, 采用最长公共子序列匹配方法, 将经过判 断的修正结果进行对齐匹配输出, 得到融合纠错过后的第五句子序列; 步骤S21中, 对第一句子序列进行等长序列错 误修正, 得到第二句子序列, 包括: 步骤S211: 使用BERT预训练语言模型的Embedding层进行字符编码, 得到待纠错句子的 向量编码序列; 步骤S212: 使用双向循环神经网络BiLSTM学习句子序列的上下文语义信息, 得到融合 上下文语义信息的句子编码序列; 步骤S213: 通过Si gmoid层输出与第一句子序列一一对应的错误概率序列, 错误概率序 列的每个元素表示对应位置i是错别字的概 率; 步骤S214: 将上述错误概率序列的疑似错误位置进行MASK标记, 其它位置保持原有字 符不变, 得到带有MASK标记的待纠错句子序列, 使用BERT  MLM模型对MASK标记位置进行纠 正预测, 输出纠错过后的第二句子序列。 2.根据权利要求1所述的中文文本自动纠错方法, 其特征在于, 步骤S1中, 对待纠错文 本进行浅层错误修正, 得到第一句子序列, 包括: 将待纠错文本的句子序列输入到浅层错误 修正单元, 对半角标点错误和标点匹配错误进行检测和修正, 得到去除标点错误的第一句 子序列。 3.根据权利要求1所述的中文文本自动纠错方法, 其特征在于, 步骤S23 中, 对第一句子 序列进行字词缺失错 误修正, 得到第四句子序列, 包括: 构建包括字符编码层、 全连接层和CRF层三层神经网络的序列标注模型, 对第一句子序 列中的每个字进行标签预测; 字符编码层使用BERT预训练语言模型的Embedding层对输入 句子进行字符编码, 然后使用全连接层 对编码向量进 行聚合, 之后采用CRF层 对标签之间的 关系进行约束, 输出包含正常标签和缺失标签的标签序列, 其中缺失标签表示当前字的前 一个字或词存在缺失; 将上述缺失标签的前一个字或词称为疑似字词缺失位置, 对其进行MASK标记, 并保持 其它位置的原有字符不变, 得到带有MASK标记的待纠错句子序列, 使用BERT  MLM模型对 MASK标记位置进行纠正预测, 输出纠错过后的第四句子序列。权 利 要 求 书 1/2 页 2 CN 114372441 B 24.根据权利要求3所述的中文文本自动纠错方法, 其特征在于, 步骤S24中, 将修正后第 二至第四句子序列 的困惑度分别与第一句子序列 的困惑度进行比较, 判断并输出修正结 果, 包括: 计算第一句子序列、 第二句子序列、 第三句子序列和第四句子序列的困惑度, 将第 二句子序列、 第三句子序列和 第四句子序列的困惑度分别与第一句子序列的困惑度进 行比 较, 当修正后句 子序列的困惑度小于第一句 子序列的困惑度, 将修正后的句 子序列作为修 正结果输出; 当修正后句 子序列的困惑度大于第一句 子序列的困惑度, 放弃对应的修改结 果, 将第一句子序列 作为修正结果输出。 5.根据权利要求4所述的中文文本自动纠错方法, 其特征在于, 步骤S24中, 修正后各句 子序列的困惑度按以下 方法计算: 式中, s表示给定句子序列w1,w2,…,wn,wi(1≤i≤n)表示当前句子序列中位置i上的字 符, n为句子长度, PPL(s)为困惑度。 6.根据权利要求5所述的中文文本自动纠错方法, 其特征在于, 步骤S3中, 对第五句子 序列进行后处理, 得到修正样本, 包括对第五句子序列进行地名错误检测, 地名错误检测具 体包括: 根据省、 市、 区三级 行政区划建立地点匹配表; 获取第五句子序列中的地点信息; 按 照地点匹配表与地 点信息进行 逐级匹配, 得到地 点匹配结果; 步骤S3中, 对第五句子序列进行后处理, 得到修正样本, 还包括对第五句子序列进行敏 感词错误检测, 敏感词错误检测具体包括: 建立敏感词词典; 获取第五句子序列中的敏感词 信息; 使用否定句判别器对第五句子序列进 行语义判别, 当第五句子序列表达肯定语义, 对 相应的敏感词信息进行错误提示; 当第 五句子序列表达否定语义, 取消敏感词信息错误提 示。 7.根据权利要求6所述的中文文本自动纠错方法, 其特征在于, 步骤S4中, 输出修正样 本和错误信息, 包括: 输出修正样本, 同时整合错误信息, 输出对应句 子的错误位置以及修 改建议, 并格式化返回。权 利 要 求 书 2/2 页 3 CN 114372441 B 3

.PDF文档 专利 一种中文文本自动纠错方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文文本自动纠错方法及装置 第 1 页 专利 一种中文文本自动纠错方法及装置 第 2 页 专利 一种中文文本自动纠错方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。