专利一种中文拼写纠错方法、装置、设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210504740.3 (22)申请日 2022.05.10 (71)申请人广东外语外贸大学地址 510420 广东省广州市白云大道北2号 (72)发明人蒋盛益　林楠铠　林晓钿　武洪艳　甘诚韬　杨子渝　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师吕金金 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称一种中文拼写纠错方法、装置、设备及存储介质 (57)摘要本发明公开了一种中文拼写纠错方法、装置、设备及存储介质，该方法包括：获取中文文本训练序列；将中文文本训练序列输入至语义表征模型中进行语义特征提取，以得到每个所述汉字的字向量表示；将每个汉字的字向量表示输入至预先构建的反向对比学习模型中，对相同汉语拼音的不同汉字进行对比学习，得到反向对比损失；基于反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化，得到优化后的中文拼写纠错模型；通过语义表征模型和优化后的中文拼写纠错模型对待检测的中文文本序列进行检测，得到修正后的中文文本序列。本发明能够提高中文拼写纠错模型对于同音异形字的区分能力，以解决现有的中文拼写纠错方法容易混淆同音异形字的问题。权利要求书2页说明书9页附图2页 CN 114861635 A 2022.08.05 CN 114861635 A 1.一种中文拼写纠错方法，其特征在于，包括：获取中文文本训练序列；其中，所述中文文本训练序列包括多条句子和每条所述句子包含的汉字对应的汉语拼音；将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取，得到所述中文文本训练序列的语义表示；其中，所述语义表示包含每个所述汉字的字向量表示；将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中，对相同汉语拼音的不同汉字进行对比学习，得到反向对比损失；基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化，得到优化后的中文拼写纠错模型；通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测，得到修正后的中文文本序列。 2.如权利要求1所述的中文拼写纠错方法，其特征在于，所述将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中，对相同汉语拼音的不同汉字进行对比学习，得到反向对比损失，包括：将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中，对相同汉语拼音的不同汉字进行对比学习，得到每个所述汉字的对比损失；根据每个所述汉字的对比损失，计算得到反向对比损失。 3.如权利要求2所述的中文拼写纠错方法，其特征在于，所述根据每个所述汉字的对比损失，计算得到反向对比损失，具体为：根据以下公式计算得到反向对比损失LRCL：其中，为每个所述汉字的对比损失， S为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合， |S|为样本集合S的长度， S＝{s:s∈I,yp＝yi∧p≠i}， I为中文文本训练序列中汉字的索引， I＝{1, ···,K}， K为中文文本训练序列中包含的汉字数量， yp为中文文本训练序列中第p个汉字的汉语拼音， yi为中文文本训练序列中第i个汉字的汉语拼音， s为S中每个汉字的索引。 4.如权利要求1所述的中文拼写纠错方法，其特征在于，所述优化后的中文拼写纠错模型的损失函数L，具体为： L＝α *LRCL+(1‑α )*Lcorrect；其中， α 为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子， LRCL为反向对比损失， Lcorrect为预先构建的中文拼写纠错模型的损失函数。 5.如权利要求1所述的中文拼写纠错方法，其特征在于，所述语义表征模型具体为： BERT模型或RoBERTa模型。 6.一种中文拼写纠错装置，其特征在于，包括：数据获取模块，用于获取中文文本训练序列；其中，所述中文文本训练序列包括多条句权　利　要　求　书 1/2 页 2 CN 114861635 A 2子和每条所述句子包含的汉字对应的汉语拼音；特征提取模块，用于将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取，得到所述中文文本训练序列的语义表示；其中，所述语义表示包含每个所述汉字的字向量表示；反向对比模块，用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中，对相同汉语拼音的不同汉字进行对比学习，得到反向对比损失；模型优化模块，用于基于所述反向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化，得到优化后的中文拼写纠错模型；文本纠错模块，用于通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的中文文本序列进行检测，得到修正后的中文文本序列。 7.如权利要求6所述的中文拼写纠错装置，其特征在于，所述反向对比模块，包括：第一运算单元，用于将每个所述汉字的字向量表示输入至预先构建的反向对比学习模型中，对相同汉语拼音的不同汉字进行对比学习，得到每个所述汉字的对比损失；第二运算单元，用于根据每个所述汉字的对比损失，计算得到反向对比损失。 8.如权利要求7 所述的中文拼写纠错装置，其特征在于，所述第二运算单元，具体用于：根据以下公式计算得到反向对比损失LRCL：其中，为每个所述汉字的对比损失， S 为与中文文本训练序列中第i个汉字的汉语拼音相同的样本集合， |S|为样本集合S的长度， S＝{s:s∈I,yp＝yi∧p≠i}， I为中文文本训练序列中汉字的索引， I＝{1, ···,K}， K为中文文本训练序列中包含的汉字数量， yp为中文文本训练序列中第p个汉字的汉语拼音， yi为中文文本训练序列中第i个汉字的汉语拼音， s为S中每个汉字的索引。 9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1 至5中任意一项所述的中文拼写纠错方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至 5中任意一项所述的中文拼写纠错方法。权　利　要　求　书 2/2 页 3 CN 114861635 A 3

专利 一种中文拼写纠错方法、装置、设备及存储介质

专利一种中文拼写纠错方法、装置、设备及存储介质