(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210502759.4
(22)申请日 2022.05.10
(65)同一申请的已公布的文献号
申请公布号 CN 114611497 A
(43)申请公布日 2022.06.10
(73)专利权人 北京世纪好未来教育科技有限公
司
地址 100089 北京市海淀区中关村大街32
号蓝天和盛大厦1702- 03室
(72)发明人 李云良 胡飞 李木子
(74)专利代理 机构 北京开阳星知识产权代理有
限公司 1 1710
专利代理师 范彦扬
(51)Int.Cl.
G06F 40/253(2020.01)G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113010640 A,2021.0 6.22
CN 112214610 A,2021.01.12
CN 111626049 A,2020.09.04
CN 110807325 A,2020.02.18
审查员 赵婷
(54)发明名称
语病诊断模型的训练方法、 语病诊断方法、
装置及设备
(57)摘要
本公开提供一种语病诊断模 型的训练方法、
语病诊断方法、 装置及设备, 其中该训练方法包
括: 获取携带有语病标签的文本样本; 所述语病
标签包括所述文本样本的语病类别和语病位置;
根据预先设置的语病模板和所述文本样本的语
病标签, 得到嵌入语病信息的模板文本; 其中, 所
述语病模板为用于指示查找指定语病的位置的
文本, 且所述语病模板中指定语病的信息待嵌
入; 基于所述模板文本和所述携带有语病标签的
文本样本对预设的神经网络模型进行训练, 得到
训练好的语病诊断模型; 其中, 所述语病诊断模
型用于对目标文本进行识别, 得到所述目标文本
中的语病类别及语病位置。 本公开可以有效提升
语病诊断结果的准确性和可靠性。
权利要求书4页 说明书14页 附图6页
CN 114611497 B
2022.08.16
CN 114611497 B
1.一种语病诊断模型的训练方法, 包括:
获取携带有语病标签的文本样本; 所述语病标签包括所述文本样本的语病类别和语病
位置;
根据预先设置的语病模板和所述文本样本的语病标签, 得到嵌入语病信息的模板文
本; 其中, 所述语病模板为用于指示查找指 定语病的位置的文本, 且 所述语病模板中指 定语
病的信息待嵌入; 所述根据预先设置的语病模板和所述文本样本的语病标签, 得到嵌入语
病信息的模板文本的步骤, 包括: 从所述文本样本的语病标签中提取语病类别, 将提取的所
述语病类别作为指 定语病的类别, 并将所述指 定语病的类别以填槽方式嵌入所述语病模板
中, 以得到嵌入语病信息的模板文本;
基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训
练, 得到训练好的语病诊断模型; 其中, 所述语病诊断模型用于对目标文本进行识别, 得到
所述目标文本中的语病类别及语病位置;
所述文本样本的数量为N个, 不同所述文本样本的语病类别和/或语病位置不同, 且N个
所述文本样本共 包含M种语病类别;
所述模板文本的数量 为M个, 每 个所述模板文本对应一种语病类别; N与M均为 正整数;
基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训
练, 得到训练好的语病诊断模型的步骤, 包括:
将M个所述模板文本和N个所述携带有语病标签的文本样本进行组合, 得到M*N个组合
样本;
基于所述M*N个组合样本对预设的神经网络模型进行训练, 得到训练好的语病诊断模
型;
基于所述M*N个组合样本对预设的神经网络模型进行训练, 得到训练好的语病诊断模
型的步骤, 包括:
对于每种语病类别, 基于所述M*N个组合样本得到该种语病类别对应的正样本和负样
本;
根据每种所述语病类别对应的正样本和负样本, 对预设的神经网络模型进行训练, 得
到训练好的语病诊断模型。
2.如权利要求1所述的语病 诊断模型的训练方法, 其中, 所述指定语病的信 息包括指定
语病的类别和定义。
3.如权利要求2所述的语病 诊断模型的训练方法, 其中, 根据预先设置的语病 模板和所
述文本样本的语病标签, 得到嵌入语病信息的模板文本的步骤, 包括:
查找所述语病类别对应的语病定义, 并将查找到的所述语病定义作为指定语病的定
义, 并将所述指定语病的定义以填槽方式嵌入所述语病模板中, 得到嵌入语病信息的模板
文本。
4.如权利要求1所述的语病诊断模型的训练方法, 其中, 对于每种语病类别, 基于所述
M*N个组合样本得到该种语病类别对应的正样本和负 样本的步骤, 包括:
对于每种语病类别, 从所述M*N个组合样本中查找第一目标组合样本和第二目标组合
样本; 所述第一目标组合样本中的模板文本对应该种语病类别, 且所述第一 目标组合样本
中的语病标签包含该种语病类别; 所述第二目标组合样本中的模板文本对应该种语病类权 利 要 求 书 1/4 页
2
CN 114611497 B
2别, 且所述第二目标组合样本中的语病标签不包 含该种语病类别;
对所述第一目标组合样本执行第 一处理操作, 将第 一处理操作后的所述第 一目标组合
样本作为该种语病类别对应的正样本; 其中, 所述第一处理操作包括将所述第一 目标组合
样本的语病标签中除该种语病类别之外的语病类别剔除;
对所述第二目标组合样本执行第 二处理操作, 将第 二处理操作后的所述第 二目标组合
样本作为该种语病类别对应的负样本; 其中, 所述第二处理操作包括将所述第二 目标组合
样本的所有语病标签剔除。
5.如权利要求1所述的语病 诊断模型的训练方法, 其中, 根据每种所述语病类别对应的
正样本和负样本, 对 预设的神经网络模 型进行训练, 得到训练好的语病诊断模型的步骤, 包
括:
基于每种所述语病类别对应的正样本和负 样本进行合并处 理, 得到样本训练集;
采用所述样本训练集对预设的神经网络模型进行训练, 得到训练好的语病诊断模型。
6.如权利要求5所述的语病 诊断模型的训练方法, 其中, 基于每种所述语病类别对应的
正样本和负 样本进行合并处 理的步骤, 包括:
基于每种所述语病类别对应的正样本数量和负样本数量, 对每种所述语病类别进行样
本处理, 以使每种语病类别对应的正样本数量不小于负样本数量; 其中, 所述样本处理包
括: 在正样本数量小于负 样本数量时降低负 样本数量;
将样本处理后的每种所述语病类别对应的正样本和负 样本进行混合。
7.如权利要求5所述的语病 诊断模型的训练方法, 其中, 采用所述样本训练集对预设的
神经网络模型进行训练, 得到训练好的语病诊断模型的步骤, 包括:
采用所述样本训练集、 随机梯度下降法以及 反向传播法对预设的神经网络模型的参数
进行更新, 直至 达到预设条件;
将达到所述预设条件的神经网络模型作为训练好的语病诊断模型。
8.如权利要求1所述的语病诊断模型的训练方法, 其中, 所述神经网络模型包括BERT网
络和二元分类 器。
9.一种语病诊断方法, 包括:
获取待诊断的目标文本;
通过语病 诊断模型对所述目标文本进行语病 诊断, 得到所述目标文本中的语病类别及
语病位置; 其中, 所述语病诊断模型是采用权利要求1至8任一项所述的训练方法训练得到
的。
10.如权利要求9所述的语病诊断方法, 其中, 通过语病诊断模型对所述目标文本进行
语病诊断, 得到所述目标文本中的语病类别及语病位置的步骤, 包括:
获取多个预设的模板文本; 每个所述模板文本用于指示查找一种语病类别的位置; 不
同所述模板文本查找的语病类别不同;
将所述目标文本与多个所述模板文本分别组合, 得到多个组合文本;
将所述多个组合文本输入至语病 诊断模型, 得到所述语病 诊断模型针对每种所述组合
文本的语病诊断结果;
基于每种所述组合文本的语病诊断结果, 得到所述目标文本中的语病类别及语病位
置。权 利 要 求 书 2/4 页
3
CN 114611497 B
3
专利 语病诊断模型的训练方法、语病诊断方法、装置及设备
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:31上传分享