专利语病诊断模型的训练方法、语病诊断方法、装置及设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210502759.4 (22)申请日 2022.05.10 (65)同一申请的已公布的文献号申请公布号 CN 114611497 A (43)申请公布日 2022.06.10 (73)专利权人北京世纪好未来教育科技有限公司地址 100089 北京市海淀区中关村大街32 号蓝天和盛大厦1702- 03室 (72)发明人李云良　胡飞　李木子　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师范彦扬 (51)Int.Cl. G06F 40/253(2020.01)G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113010640 A,2021.0 6.22 CN 112214610 A,2021.01.12 CN 111626049 A,2020.09.04 CN 110807325 A,2020.02.18 审查员赵婷 (54)发明名称语病诊断模型的训练方法、语病诊断方法、装置及设备 (57)摘要本公开提供一种语病诊断模型的训练方法、语病诊断方法、装置及设备，其中该训练方法包括：获取携带有语病标签的文本样本；所述语病标签包括所述文本样本的语病类别和语病位置；根据预先设置的语病模板和所述文本样本的语病标签，得到嵌入语病信息的模板文本；其中，所述语病模板为用于指示查找指定语病的位置的文本，且所述语病模板中指定语病的信息待嵌入；基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练，得到训练好的语病诊断模型；其中，所述语病诊断模型用于对目标文本进行识别，得到所述目标文本中的语病类别及语病位置。本公开可以有效提升语病诊断结果的准确性和可靠性。权利要求书4页说明书14页附图6页 CN 114611497 B 2022.08.16 CN 114611497 B 1.一种语病诊断模型的训练方法，包括：获取携带有语病标签的文本样本；所述语病标签包括所述文本样本的语病类别和语病位置；根据预先设置的语病模板和所述文本样本的语病标签，得到嵌入语病信息的模板文本；其中，所述语病模板为用于指示查找指定语病的位置的文本，且所述语病模板中指定语病的信息待嵌入；所述根据预先设置的语病模板和所述文本样本的语病标签，得到嵌入语病信息的模板文本的步骤，包括：从所述文本样本的语病标签中提取语病类别，将提取的所述语病类别作为指定语病的类别，并将所述指定语病的类别以填槽方式嵌入所述语病模板中，以得到嵌入语病信息的模板文本；基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练，得到训练好的语病诊断模型；其中，所述语病诊断模型用于对目标文本进行识别，得到所述目标文本中的语病类别及语病位置；所述文本样本的数量为N个，不同所述文本样本的语病类别和/或语病位置不同，且N个所述文本样本共包含M种语病类别；所述模板文本的数量为M个，每个所述模板文本对应一种语病类别； N与M均为正整数；基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练，得到训练好的语病诊断模型的步骤，包括：将M个所述模板文本和N个所述携带有语病标签的文本样本进行组合，得到M*N个组合样本；基于所述M*N个组合样本对预设的神经网络模型进行训练，得到训练好的语病诊断模型；基于所述M*N个组合样本对预设的神经网络模型进行训练，得到训练好的语病诊断模型的步骤，包括：对于每种语病类别，基于所述M*N个组合样本得到该种语病类别对应的正样本和负样本；根据每种所述语病类别对应的正样本和负样本，对预设的神经网络模型进行训练，得到训练好的语病诊断模型。 2.如权利要求1所述的语病诊断模型的训练方法，其中，所述指定语病的信息包括指定语病的类别和定义。 3.如权利要求2所述的语病诊断模型的训练方法，其中，根据预先设置的语病模板和所述文本样本的语病标签，得到嵌入语病信息的模板文本的步骤，包括：查找所述语病类别对应的语病定义，并将查找到的所述语病定义作为指定语病的定义，并将所述指定语病的定义以填槽方式嵌入所述语病模板中，得到嵌入语病信息的模板文本。 4.如权利要求1所述的语病诊断模型的训练方法，其中，对于每种语病类别，基于所述 M*N个组合样本得到该种语病类别对应的正样本和负样本的步骤，包括：对于每种语病类别，从所述M*N个组合样本中查找第一目标组合样本和第二目标组合样本；所述第一目标组合样本中的模板文本对应该种语病类别，且所述第一目标组合样本中的语病标签包含该种语病类别；所述第二目标组合样本中的模板文本对应该种语病类权　利　要　求　书 1/4 页 2 CN 114611497 B 2别，且所述第二目标组合样本中的语病标签不包含该种语病类别；对所述第一目标组合样本执行第一处理操作，将第一处理操作后的所述第一目标组合样本作为该种语病类别对应的正样本；其中，所述第一处理操作包括将所述第一目标组合样本的语病标签中除该种语病类别之外的语病类别剔除；对所述第二目标组合样本执行第二处理操作，将第二处理操作后的所述第二目标组合样本作为该种语病类别对应的负样本；其中，所述第二处理操作包括将所述第二目标组合样本的所有语病标签剔除。 5.如权利要求1所述的语病诊断模型的训练方法，其中，根据每种所述语病类别对应的正样本和负样本，对预设的神经网络模型进行训练，得到训练好的语病诊断模型的步骤，包括：基于每种所述语病类别对应的正样本和负样本进行合并处理，得到样本训练集；采用所述样本训练集对预设的神经网络模型进行训练，得到训练好的语病诊断模型。 6.如权利要求5所述的语病诊断模型的训练方法，其中，基于每种所述语病类别对应的正样本和负样本进行合并处理的步骤，包括：基于每种所述语病类别对应的正样本数量和负样本数量，对每种所述语病类别进行样本处理，以使每种语病类别对应的正样本数量不小于负样本数量；其中，所述样本处理包括：在正样本数量小于负样本数量时降低负样本数量；将样本处理后的每种所述语病类别对应的正样本和负样本进行混合。 7.如权利要求5所述的语病诊断模型的训练方法，其中，采用所述样本训练集对预设的神经网络模型进行训练，得到训练好的语病诊断模型的步骤，包括：采用所述样本训练集、随机梯度下降法以及反向传播法对预设的神经网络模型的参数进行更新，直至达到预设条件；将达到所述预设条件的神经网络模型作为训练好的语病诊断模型。 8.如权利要求1所述的语病诊断模型的训练方法，其中，所述神经网络模型包括BERT网络和二元分类器。 9.一种语病诊断方法，包括：获取待诊断的目标文本；通过语病诊断模型对所述目标文本进行语病诊断，得到所述目标文本中的语病类别及语病位置；其中，所述语病诊断模型是采用权利要求1至8任一项所述的训练方法训练得到的。 10.如权利要求9所述的语病诊断方法，其中，通过语病诊断模型对所述目标文本进行语病诊断，得到所述目标文本中的语病类别及语病位置的步骤，包括：获取多个预设的模板文本；每个所述模板文本用于指示查找一种语病类别的位置；不同所述模板文本查找的语病类别不同；将所述目标文本与多个所述模板文本分别组合，得到多个组合文本；将所述多个组合文本输入至语病诊断模型，得到所述语病诊断模型针对每种所述组合文本的语病诊断结果；基于每种所述组合文本的语病诊断结果，得到所述目标文本中的语病类别及语病位置。权　利　要　求　书 2/4 页 3 CN 114611497 B 3

专利 语病诊断模型的训练方法、语病诊断方法、装置及设备

专利语病诊断模型的训练方法、语病诊断方法、装置及设备