(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210261982.4
(22)申请日 2022.03.17
(71)申请人 平安科技 (深圳) 有限公司
地址 518048 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 李弦 杨翰章 吴育人 庄伯金
(74)专利代理 机构 北京辰权知识产权代理有限
公司 11619
专利代理师 付婧
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种文本纠错方法、 装置、 计算机设备及存
储介质
(57)摘要
本发明涉及人工智能技术领域, 揭露了一种
文本纠错方法、 装置、 计算机设备及存储介质。 该
识别方法包括: 利用文本提取器提取待纠错文本
的文本表 示; 根据预置的形近混淆语料集和音近
混淆语料集构建混淆预料图结构; 将文本中的汉
字分为第一类汉字和第二汉字, 将第一类汉字的
文本表示和 邻接矩阵输入图卷积神经网络模型,
进行图卷积操作与图注意力计算, 图卷积神经网
络模型输出叠加了文义和音近形近相似性的向
量表示组成的特征矩阵; 将特征矩阵输入第一分
类器进行更改处理, 将第二汉字的文本表示输入
第二分类器进行更改处理, 得到目标文本。 本发
明本发明可以解决文本纠错的精确度不高的问
题。
权利要求书3页 说明书11页 附图2页
CN 114676684 A
2022.06.28
CN 114676684 A
1.一种文本纠错方法, 其特 征在于, 包括:
利用文本提取器提取待纠错文本的文本表示;
根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构, 所述混淆预料图
结构以混淆集中的每一个字当作节点, 字与字之间的关系当作边, 构造出邻接矩阵;
将所述文本 中的汉字分为第 一类汉字和第 二汉字, 将所述第 一类汉字的文本表示和所
述邻接矩阵输入图卷积神经网络模型, 进行图卷积操作与图注意力计算, 所述图卷积神经
网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵; 所述第一类汉字
与所述形近 混淆语料集和所述音近 混淆语料集存在匹配项, 所述文本中第一类汉字以外的
其他汉字为第二类汉字;
将所述特征矩阵输入第 一分类器进行更 改处理, 将第 二汉字的文本表示输入第 二分类
器进行更改处理, 得到目标文本 。
2.根据权利要求1所述的文本纠错方法, 其特征在于, 所述利用文本提取器提取待纠错
文本的文本表示, 包括:
训练待纠错文本中的汉字, 得到所述汉字的嵌入向量;
将所述嵌入向量输入自注意力机制和前馈网络层得到每 个汉字的文本表示。
3.根据权利要求2所述的文本纠 错方法, 其特征在于, 所述训练待纠 错文本中的汉字,
得到所述汉字的嵌入向量, 包括:
根据Word2Vec中的Skip ‑Gram神经网络模型训练所述待纠错文本中的汉字, 得到每个
汉子的字向量以及每个汉字的位置向量, 将 每个汉子的字向量和位置向量进 行相加得到所
述嵌入向量。
4.根据权利要求1所述的文本纠错方法, 其特征在于, 所述将第 一类汉字的文本表示和
所述邻接矩阵输入图卷积神经网络模型, 进行图卷积 操作与图注意力计算, 包括:
在图卷积神经网络中, 对任一混淆集的第l层, 按照第一计算公式进行卷积操作, 所述
第一计算公式为:
其中, Ak为所述邻接矩阵, k∈{1,2};
为标准化后的邻接矩阵; H0为第一类汉字的文
本表示, Hl为第l层的输出 结果, 维度为 NxD;
为第l层可训练参数矩阵, 维度为DxD;
在多个混淆集的第l层, 对每一汉字的各图卷积结果根据第 二公式进行加权整合操作,
所述第二公式为:
其中, f1(A1,Hl)i表示音近混淆集第l层图卷积结果的第i行, f2(A2,Hl)i表示形近混淆集
第l层图卷积结果的第i行;
和
分别为音 近混淆集第l层图卷积结果第i 行的注意力权
重系数和 和形近混淆集第l层图卷积结果第i行的注意力权 重系数;
将每一汉字所 得的行向量
拼接得到第l层的加权整合结果矩阵Cl。权 利 要 求 书 1/3 页
2
CN 114676684 A
2按照按照第三公式采用累积式的方法将本层之前所有层的输出结果和本层加权整合
结果加总作为输出结果, 在文义信息的基础上学习和叠加音近和形近混淆信息, 所述第三
公式为:
其中, Cl为多混淆集加权整合结果, Hi为图卷积神经网络第i层的层输出 结果。
5.根据权利要求1所述的文本纠错方法, 其特征在于, 将所述第 一类汉字的文本表示和
所述邻接矩阵输入图卷积神经网络模型之前, 所述方法还 包括:
构建图卷积神经网络模型;
所述图卷积神经网络模型的输入为包含错误文字的训练文本的所述文本表示和所述
邻接矩阵, 所述图卷积神经网络模型的输出为所述特 征矩阵;
根据所述特 征矩阵训练图卷积神经网络模型。
6.根据权利要求4所述的文本纠错方法, 其特征在于, 所述根据 所述特征矩阵训练图卷
积神经网络模型, 具体为:
在每个训练周期, 将由错误语句X和对应的纠错后语句Y构 成的训练集输入待训练的神
经网络模型, 进行图卷积 操作与图注意力计算, 得到该训练周期的训练特 征矩阵;
基于所述训练特 征矩阵和预设损失函数, 计算当前周期的损失值;
根据每个周期的损失值更新神经网络模型, 得到所述图卷积神经网络模型。
7.根据权利要求1所述的文本纠错方法, 其特 征在于, 所述方法还 包括:
获取训练语料, 利用预置的相似度函数计算所述训练语料与 预置的字典中的标准语料
之间的基础字形相似度;
筛选出所述基础字形相似度 大于相似阈值的目标字形相似度, 将所述目标字形相似度
对应的标准语料作为所述训练语料的形近 混淆语料, 将所述训练语料与所述形近混淆语料
组合为形近混淆组合, 通过 所述形近混淆组合 生成形近混淆语料集;
利用预置的模糊匹配算法将所述训练语料转化为语料音标, 筛选出所述语料音标中的
目标音标, 所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为音音近标, 并在所述预置的字典中查询标准音标与 所述音音近标相
同的标准语料, 将所述标准音标与所述音音近标相同的标准语料作为音近混淆语料, 将所
述训练语料与所述音近 混淆语料组合为音近混淆 组合, 通过所述音近 混淆组合生成音近混
淆语料集。
8.一种文本纠错装置, 其特 征在于, 包括:
文本提取 单元, 用于利用文本提取器提取待纠错文本的文本表示;
第一构建单元, 用于根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结
构, 所述混淆预料图结构以混淆集中的每一个字当作 节点, 字与字 之间的关系当作边, 构 造
出邻接矩阵;
第二构建单元, 用于将所述文本中的汉字分为第一类汉字和第二汉字, 将第一类汉字
的文本表示和所述邻接矩阵输入图卷积神经网络模型, 进行图卷积操作与图注意力计算,
所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;
所述第一类汉字与形近 混淆语料集和音近 混淆语料集存在匹配项, 所述文本中第一类汉字权 利 要 求 书 2/3 页
3
CN 114676684 A
3
专利 一种文本纠错方法、装置、计算机设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:34上传分享