(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210504740.3
(22)申请日 2022.05.10
(71)申请人 广东外语外贸大学
地址 510420 广东省广州市白云大道北2号
(72)发明人 蒋盛益 林楠铠 林晓钿 武洪艳
甘诚韬 杨子渝
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 吕金金
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(54)发明名称
一种中文拼写纠错方法、 装置、 设备及存储
介质
(57)摘要
本发明公开了一种中文拼写纠错方法、 装
置、 设备及存储介质, 该方法包括: 获取中文文本
训练序列; 将中文文本训练序列输入至语义表征
模型中进行语义特征提取, 以得到每个所述汉字
的字向量表 示; 将每个汉字的字向量表示输入至
预先构建的反向对比学习模型中, 对相同汉语拼
音的不同汉字进行对比学习, 得到反向对比损
失; 基于反向对比损失对预先构建的中文拼写纠
错模型的损失函数进行优化, 得到优化后的中文
拼写纠错模 型; 通过语义表征模 型和优化后的中
文拼写纠错模型对待检测的中文文本序列进行
检测, 得到修正后的中文文本序列。 本发明能够
提高中文拼写纠错模型对于同音异形字的区分
能力, 以解决现有的中文拼写纠错方法容易混淆
同音异形字的问题。
权利要求书2页 说明书9页 附图2页
CN 114861635 A
2022.08.05
CN 114861635 A
1.一种中文拼写纠错方法, 其特 征在于, 包括:
获取中文文本训练序列; 其中, 所述中文文本训练序列包括多条句子和每条所述句子
包含的汉字对应的汉语拼音;
将所述中文文本训练序列输入至预先训练好的语义表征模型中进行语义特征提取, 得
到所述中文文本训练序列的语义表示; 其中, 所述语义表示包含每个所述汉字的字 向量表
示;
将每个所述汉字的字向量表示输入至预先构建的反 向对比学习 模型中, 对相同汉语拼
音的不同汉字进行对比学习, 得到反向对比损失;
基于所述反 向对比损失对预先构建的中文拼写纠错模型的损失函数进行优化, 得到优
化后的中文拼写纠错模型;
通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠错模型对待检测的
中文文本序列进行检测, 得到修 正后的中文 文本序列。
2.如权利要求1所述的中文拼写纠错方法, 其特征在于, 所述将每个所述汉字的字向量
表示输入至预先构建的反向对比学习模型中, 对相同汉语拼音的不同汉字进行对比学习,
得到反向对比损失, 包括:
将每个所述汉字的字向量表示输入至预先构建的反 向对比学习 模型中, 对相同汉语拼
音的不同汉字进行对比学习, 得到每 个所述汉字的对比损失;
根据每个所述汉字的对比损失, 计算得到反向对比损失。
3.如权利要求2所述的中文拼写纠错方法, 其特征在于, 所述根据每个所述汉字的对比
损失, 计算得到反向对比损失, 具体为:
根据以下公式计算得到反向对比损失LRCL:
其中,
为每个所述汉字的对比损失, S为与中文文本训练序列中第i个汉字的汉语
拼音相同的样本 集合, |S|为样本集合S的长度, S={s:s∈I,yp=yi∧p≠i}, I为中文文本训
练序列中汉字的索引, I={1, ···,K}, K为中文文本训练序列中包含的汉字数量, yp为中
文文本训练序列中第p个汉字的汉语拼音, yi为中文文本训练序列中第i个汉字的汉语拼
音, s为S中每 个汉字的索引。
4.如权利要求1所述的中文拼写纠错方法, 其特征在于, 所述优化后的中文拼写纠错模
型的损失函数L, 具体为:
L=α *LRCL+(1‑α )*Lcorrect;
其中, α 为预先构建的中文拼写纠错模型的损失函数与反向对比损失之间的权重因子,
LRCL为反向对比损失, Lcorrect为预先构建的中文拼写纠错模型的损失函数。
5.如权利要求1所述的中文拼写纠错方法, 其特征在于, 所述语义表征模型具体为:
BERT模型或RoBERTa模型。
6.一种中文拼写纠错装置, 其特 征在于, 包括:
数据获取模块, 用于获取中文文本训练序列; 其中, 所述中文文本训练序列包括多条句权 利 要 求 书 1/2 页
2
CN 114861635 A
2子和每条 所述句子包 含的汉字对应的汉语拼音;
特征提取模块, 用于将所述中文文本训练序列输入至预先训练好的语义表征模型中进
行语义特征提取, 得到所述中文文本训练序列的语义表示; 其中, 所述语义表 示包含每个所
述汉字的字向量表示;
反向对比模块, 用于将每个所述汉字的字向量表示输入至预先构建的反 向对比学习 模
型中, 对相同汉语拼音的不同汉字进行对比学习, 得到反向对比损失;
模型优化模块, 用于基于所述反 向对比损失对预先构建的中文拼写纠错模型的损失函
数进行优化, 得到优化后的中文拼写纠错模型;
文本纠错模块, 用于通过所述预先训练好的语义表征模型和所述优化后的中文拼写纠
错模型对待检测的中文 文本序列进行检测, 得到修 正后的中文 文本序列。
7.如权利要求6所述的中文拼写纠错装置, 其特 征在于, 所述反向对比模块, 包括:
第一运算单元, 用于将每个所述汉字的字向量表示输入至预先构建的反 向对比学习 模
型中, 对相同汉语拼音的不同汉字进行对比学习, 得到每 个所述汉字的对比损失;
第二运算单元, 用于根据每 个所述汉字的对比损失, 计算得到反向对比损失。
8.如权利要求7 所述的中文拼写纠错装置, 其特 征在于, 所述第二 运算单元, 具体用于:
根据以下公式计算得到反向对比损失LRCL:
其中,
为每个所述汉字的对比损失, S 为与中文文本训练序列中第i个汉字的汉语
拼音相同的样本 集合, |S|为样本集合S的长度, S={s:s∈I,yp=yi∧p≠i}, I为中文文本训
练序列中汉字的索引, I={1, ···,K}, K为中文文本训练序列中包含的汉字数量, yp为中
文文本训练序列中第p个汉字的汉语拼音, yi为中文文本训练序列中第i个汉字的汉语拼
音, s为S中每 个汉字的索引。
9.一种终端设备, 其特征在于, 包括处理器、 存储器以及存储在所述存储器中且被配置
为由所述处理器执行 的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求1
至5中任意一项所述的中文拼写纠错方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括存储的计算
机程序, 其中, 在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权
利要求1至 5中任意一项所述的中文拼写纠错方法。权 利 要 求 书 2/2 页
3
CN 114861635 A
3
专利 一种中文拼写纠错方法、装置、设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:13上传分享