(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210382738.3
(22)申请日 2022.04.13
(71)申请人 贵州大学
地址 550025 贵州省贵阳市花溪区花溪大
道南段2708号
申请人 贵州耕云科技有限公司
(72)发明人 黄瑞章 陈柏霖 王天极 秦永彬
陈艳平
(74)专利代理 机构 哈尔滨市阳光惠远知识产权
代理有限公司 2321 1
专利代理师 刘景祥
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/387(2019.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于ELECTRA-GCNN-CRF模型的中文文
本语法错误检测方法
(57)摘要
本发明是一种基于ELECTRA ‑GCNN‑CRF模型
的中文文本语 法错误检测方法。 本发 明涉及自然
语言处理技术领域, 本发明将文本语 法错误检测
视为序列标注任务, 在输入层使用ELECTRA预训
练语言模型替换BERT模型, 避免预训练阶段与微
调阶段数据不匹配的问题; 通过GCNN获取文本的
局部信息, 减轻语法错误对上下文语义的影响;
通过CRF得到表示文本中包含的语法错误范围和
类型的标签序列,最后输出语法错误检测结果。
本发明通用性较强, 无需人工提取词法句法特
征, 节约了 人力和时间成本, 效果较好, 满足了中
文语法错 误自动检测的需求。
权利要求书1页 说明书4页 附图2页
CN 114840640 A
2022.08.02
CN 114840640 A
1.一种基于ELECTRA ‑GCNN‑CRF模型的中文文本语法错误检测方法, 其特征是: 所述方
法包括:
步骤1: 在输入层使用ELECTRA预训练语言模型替换BERT模型, 取判别器作为最终的
ELECTRA预训练语言模型;
步骤2: 建立GCNN网络, 在卷积网络中添加门控和残差机制, 获取文本的局部信息, 减轻
语法错误对上下文语义的影响;
步骤3: 通过CRF获取文本标签的依赖关系;
步骤4: 输出起始位置, 结束位置和语法错误类型格式的三元组输出语法错误检测结
果。
2.根据权利要求1所述的一种基于ELECTRA ‑GCNN‑CRF模型的中文文本语法错误检测方
法, 其特征是: 所述步骤1具体为:
输入层用于对文本进行向量化处理, 使用ELECTRA模型代替Bert模型以提高模型的语
法检错能力, 所述ELECTRA模 型由生成器和判别器两部分组成, 生 成器是个小型MLM模 型, 负
责对输入的token进 行随机替换, 通过判别器判别生 成器的输出是否发生了替换, 最后取判
别器作为 最终的ELE CTRA预训练语言模型。
3.根据权利要求2所述的一种基于ELECTRA ‑GCNN‑CRF模型的中文文本语法错误检测方
法, 其特征是: 所述步骤2具体为:
将每句话的字所对应的字向量直接作为输入, 给残差门控卷积神经网络进行进一步处
理; 残差门控卷积神经网络由多个GCNN单元组成, 每个GCNN单元包含带 门控机制的卷积核
和残差单 元;
GCNN单元内的操作通过 下式表示:
其中, H表示由输入层 得到的隐藏层向量, Conv表示卷积操作, σ 表示sigmoid激活函数,
表示向量的哈达玛积, C表示经过门控卷积单元的局部特征向量, L ayerNorm表示层归一
化,
表示向量相加, Z表示经 过GCNN得到的文本特 征向量。
4.根据权利要求3所述的一种基于ELECTRA ‑GCNN‑CRF模型的中文文本语法错误检测方
法, 其特征是: 所述步骤3具体为:
CRF层根据提取的文本特征向量输出标签, CRF模型通过特征转移函数计算概率分数,
判断当前位置与相邻位置标签的依赖关系。权 利 要 求 书 1/1 页
2
CN 114840640 A
2一种基于ELECTRA ‑GCNN‑CRF模型的中文 文本语法错误检测
方法
技术领域
[0001]本发明涉及自然语言处理技术领域, 是一种基于ELECTRA ‑GCNN‑CRF模型的中文文
本语法错 误检测方法。
背景技术
[0002]随着互联 网的普及, 中文电子文本的数量呈爆炸式增长。 由于文本质量参差不齐,
语法错误严重影响了人们的阅读效率。 面对海量的中文文本, 如何快速高效地自动检测语
法错误变成了一个亟需解决的问题。 中文语法错误检测(Chinese Grammatical Error
Diagnosis,CGED)的目标是自动检测中文语句中的语 法错误, 如成分缺失或冗余、 语序不当
等。 对于给定的文本, CGED的检测任务一般包括是否有错误、 错误的类型和错误的发生位
置。 中文语法错误检测对于辅助汉语写作和文章校对非常有意义。 在中文辅助写作中, 借助
中文语法错误检测系统, 学习者可以快速定位错误点和类型, 并对文章进 行修改, 提高写作
效率。 此外, 借助中文语法错误检测工具可以让审校人员节省大量时间, 提高出版业校对过
程中的工作效率。
[0003]传统的语法错误检测研究主要集中于英文。 与英文相比, 中文不存在显著词边界,
也没有时态、 单数和复数等识别元素, 语法复杂度高且蕴含的语义信息丰富。 目前, 许多研
究者参考了英文语法纠错方法, 使用生成 式方法直接进 行改错, 跳过了错误检测环节, 只有
少量研究采用序列标注方法进行中文语法错误检测。 然而, 生成式方法往往从全局语义出
发, 忽视了中文文本局部信息对语法检错的帮助, 并存在所需数据量大、 难以训练和可靠性
差等问题, 使其不能很好的适用于中文语法错误检测任务。 因此, 如何在数据有限的情况下
充分利用文本局部信息提高 中文语法错 误检测的效果是 该研究的一个难点。
发明内容
[0004]本发明为突出文本特征, 提高语法错误检测的准确率, 本发明提供了一种基于
ELECTRA‑GCNN‑CRF模型的中文 文本语法错 误检测方法, 本发明提供了以下技 术方案:
[0005]一种基于 ELECTRA‑GCNN‑CRF模型的中文 文本语法错 误检测方法, 所述方法包括:
[0006]步骤1: 在输入层使用ELECTRA预训练语言模型替换BERT模型, 取判别器作为最终
的ELECTRA预训练语言模型;
[0007]步骤2: 建立GCNN网络, 在卷积网络中添加门控和残差机制, 获取文本的局部信息,
减轻语法错 误对上下文语义的影响;
[0008]步骤3: 通过CRF获取文本标签的依赖关系;
[0009]步骤4: 输出起始位置, 结束位置和语法错误类型格式的三元组输出语法错误检测
结果。
[0010]优选地, 所述 步骤1具体为:
[0011]输入层用于对文本进行向量化处理, 使用ELECTRA模型代替Bert模型以提高模型说 明 书 1/4 页
3
CN 114840640 A
3
专利 一种基于ELECTRA-GCNN-CRF模型的中文文本语法错误检测方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:44上传分享