专利一种文本纠错方法、装置、计算机设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210261982.4 (22)申请日 2022.03.17 (71)申请人平安科技（深圳）有限公司地址 518048 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人李弦　杨翰章　吴育人　庄伯金　 (74)专利代理机构北京辰权知识产权代理有限公司 11619 专利代理师付婧 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种文本纠错方法、装置、计算机设备及存储介质 (57)摘要本发明涉及人工智能技术领域，揭露了一种文本纠错方法、装置、计算机设备及存储介质。该识别方法包括：利用文本提取器提取待纠错文本的文本表示；根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构；将文本中的汉字分为第一类汉字和第二汉字，将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型，进行图卷积操作与图注意力计算，图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵；将特征矩阵输入第一分类器进行更改处理，将第二汉字的文本表示输入第二分类器进行更改处理，得到目标文本。本发明本发明可以解决文本纠错的精确度不高的问题。权利要求书3页说明书11页附图2页 CN 114676684 A 2022.06.28 CN 114676684 A 1.一种文本纠错方法，其特征在于，包括：利用文本提取器提取待纠错文本的文本表示；根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构，所述混淆预料图结构以混淆集中的每一个字当作节点，字与字之间的关系当作边，构造出邻接矩阵；将所述文本中的汉字分为第一类汉字和第二汉字，将所述第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型，进行图卷积操作与图注意力计算，所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵；所述第一类汉字与所述形近混淆语料集和所述音近混淆语料集存在匹配项，所述文本中第一类汉字以外的其他汉字为第二类汉字；将所述特征矩阵输入第一分类器进行更改处理，将第二汉字的文本表示输入第二分类器进行更改处理，得到目标文本。 2.根据权利要求1所述的文本纠错方法，其特征在于，所述利用文本提取器提取待纠错文本的文本表示，包括：训练待纠错文本中的汉字，得到所述汉字的嵌入向量；将所述嵌入向量输入自注意力机制和前馈网络层得到每个汉字的文本表示。 3.根据权利要求2所述的文本纠错方法，其特征在于，所述训练待纠错文本中的汉字，得到所述汉字的嵌入向量，包括：根据Word2Vec中的Skip ‑Gram神经网络模型训练所述待纠错文本中的汉字，得到每个汉子的字向量以及每个汉字的位置向量，将每个汉子的字向量和位置向量进行相加得到所述嵌入向量。 4.根据权利要求1所述的文本纠错方法，其特征在于，所述将第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型，进行图卷积操作与图注意力计算，包括：在图卷积神经网络中，对任一混淆集的第l层，按照第一计算公式进行卷积操作，所述第一计算公式为：其中， Ak为所述邻接矩阵， k∈{1,2}；为标准化后的邻接矩阵； H0为第一类汉字的文本表示， Hl为第l层的输出结果，维度为 NxD；为第l层可训练参数矩阵，维度为DxD；在多个混淆集的第l层，对每一汉字的各图卷积结果根据第二公式进行加权整合操作，所述第二公式为：其中， f1(A1,Hl)i表示音近混淆集第l层图卷积结果的第i行， f2(A2,Hl)i表示形近混淆集第l层图卷积结果的第i行；和分别为音近混淆集第l层图卷积结果第i 行的注意力权重系数和和形近混淆集第l层图卷积结果第i行的注意力权重系数；将每一汉字所得的行向量拼接得到第l层的加权整合结果矩阵Cl。权　利　要　求　书 1/3 页 2 CN 114676684 A 2按照按照第三公式采用累积式的方法将本层之前所有层的输出结果和本层加权整合结果加总作为输出结果，在文义信息的基础上学习和叠加音近和形近混淆信息，所述第三公式为：其中， Cl为多混淆集加权整合结果， Hi为图卷积神经网络第i层的层输出结果。 5.根据权利要求1所述的文本纠错方法，其特征在于，将所述第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型之前，所述方法还包括：构建图卷积神经网络模型；所述图卷积神经网络模型的输入为包含错误文字的训练文本的所述文本表示和所述邻接矩阵，所述图卷积神经网络模型的输出为所述特征矩阵；根据所述特征矩阵训练图卷积神经网络模型。 6.根据权利要求4所述的文本纠错方法，其特征在于，所述根据所述特征矩阵训练图卷积神经网络模型，具体为：在每个训练周期，将由错误语句X和对应的纠错后语句Y构成的训练集输入待训练的神经网络模型，进行图卷积操作与图注意力计算，得到该训练周期的训练特征矩阵；基于所述训练特征矩阵和预设损失函数，计算当前周期的损失值；根据每个周期的损失值更新神经网络模型，得到所述图卷积神经网络模型。 7.根据权利要求1所述的文本纠错方法，其特征在于，所述方法还包括：获取训练语料，利用预置的相似度函数计算所述训练语料与预置的字典中的标准语料之间的基础字形相似度；筛选出所述基础字形相似度大于相似阈值的目标字形相似度，将所述目标字形相似度对应的标准语料作为所述训练语料的形近混淆语料，将所述训练语料与所述形近混淆语料组合为形近混淆组合，通过所述形近混淆组合生成形近混淆语料集；利用预置的模糊匹配算法将所述训练语料转化为语料音标，筛选出所述语料音标中的目标音标，所述目标音标包括具有易混淆的韵母和/或声母；将目标音标转化为音音近标，并在所述预置的字典中查询标准音标与所述音音近标相同的标准语料，将所述标准音标与所述音音近标相同的标准语料作为音近混淆语料，将所述训练语料与所述音近混淆语料组合为音近混淆组合，通过所述音近混淆组合生成音近混淆语料集。 8.一种文本纠错装置，其特征在于，包括：文本提取单元，用于利用文本提取器提取待纠错文本的文本表示；第一构建单元，用于根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构，所述混淆预料图结构以混淆集中的每一个字当作节点，字与字之间的关系当作边，构造出邻接矩阵；第二构建单元，用于将所述文本中的汉字分为第一类汉字和第二汉字，将第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型，进行图卷积操作与图注意力计算，所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵；所述第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项，所述文本中第一类汉字权　利　要　求　书 2/3 页 3 CN 114676684 A 3

专利 一种文本纠错方法、装置、计算机设备及存储介质

专利一种文本纠错方法、装置、计算机设备及存储介质