专利建立分类模型的方法和装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210191386.3 (22)申请日 2022.03.01 (65)同一申请的已公布的文献号申请公布号 CN 114328936 A (43)申请公布日 2022.04.12 (73)专利权人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人林昊　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师李世喆 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01)G06F 40/30(2020.01) (56)对比文件 CN 10826901 1 A,2018.07.10 US 2018181808 A1,2018.0 6.28 龙军等.“选取最大可能预测错误样例的主动学习算法 ”. 《计算机研究与发展》 .20 08, C. Silva等.“Selecting Examples i n Manifold Reduced F eature Space for Active Learning”. 《 2008 Seventh I nternati onal Conference o n Machine Learn ing and Applications》 .2008, 审查员张思洋 (54)发明名称建立分类模型的方法和装置 (57)摘要本说明书实施例提供了一种建立分类模型的方法及装置。其中方法包括：首先获取待分类数据样本，并获取所述待分类数据样本对应的分类标签样本；然后将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集，所述训练集和所述回测集均包含多个训练样本；利用所述训练集训练分类模型；从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本；再获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本，将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集，转至利用所述训练集训练分类模型的步骤，直至达到预设的结束条件。权利要求书2页说明书11页附图4页 CN 114328936 B 2022.08.30 CN 114328936 B 1.建立分类模型的方法，包括：获取待分类数据样本，并基于预设的词典或语义表达模板获取所述待分类数据样本对应的分类标签样本；取一部分待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集，并取另一部分待分类数据样本及其对应的分类标签样本作为训练样本构建回测集，所述训练集和所述回测集均包含多个训练样本；利用所述训练集训练分类模型；所述分类模型为序列类的分类模型，该序列类的分类模型通过分析事件相关文本中各词语或字符的特征，来判别事件相关文本中的词语或字符是否映射到事件类别，是否映射到具体的实体类别，是否映射到具体的事件关系，其中，词语或字符的特征是词法特征、位置特征、上下文特征、句法特征、段落特征；利用由所述训练集训练得到的分类模型对所述回测集中的待分类数据样本进行分类，依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异，确定该待分类数据样本所在的训练样本对所述分类模型的效果增益，从所述回测集中选择效果增益满足预设要求的训练样本；获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本；将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构建新的训练样本加入所述训练集，转至利用所述训练集训练分类模型的步骤，直至达到预设的结束条件。 2.根据权利要求1所述的方法，其中，所述基于预设的词典或语义表达模板获取所述待分类数据样本对应的分类标签样本包括：将所述待分类数据样本与预设的词典或语义表达模板进行匹配；依据匹配结果确定所述待分类数据样本对应的分类标签；基于确定的分类标签得到所述待分类数据样本对应的分类标签样本。 3.根据权利要求1所述的方法，其中，所述依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异确定该待分类数据样本所在的训练样本对所述分类模型的效果增益，从所述回测集中选择效果增益满足预设要求的训练样本，包括：确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度；从所述回测集中选择置信度小于或等于预设第一阈值的待分类数据样本所在的训练样本，或者，从所述回测集中选择置信度最低的N个待分类数据样本所在的训练样本，所述N 为预设的正整数。 4.根据权利要求1所述的方法，其中，所述预设的结束条件包括以下至少一种：所述分类模型的准确率达到预设准确率阈值；循环执行训练分类模型的次数超过预设的循环次数阈值；所述分类模型的分类效果收敛。 5.根据权利要求2所述的方法，其中，所述待分类数据样本包括事件相关文本，所述分类模型包括事件抽取模型，所述分类标签包括事件信息标签；所述事件抽取模型用以从待分类数据中抽取事件信息。 6.根据权利要求5所述的方法，该方法还包括：权　利　要　求　书 1/2 页 2 CN 114328936 B 2确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度；将置信度大于或等于预设第二阈值的分类标签样本加入数据库，用以构建基于事件的知识图谱。 7.建立分类模型的装置，包括：数据获取单元，被配置为获取待分类数据样本，并基于预设的词典或语义表达模板获取所述待分类数据样本对应的分类标签样本；样本构建单元，被配置为取一部分待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集，并取另一部分待分类数据样本及其对应的分类标签样本作为训练样本构建回测集，所述训练集和所述回测集均包含多个训练样本；模型训练单元，被配置为利用所述训练集训练分类模型；所述分类模型为序列类的分类模型，该序列类的分类模型通过分析事件相关文本中各词语或字符的特征，来判别事件相关文本中的词语或字符是否映射到事件类别，是否映射到具体的实体类别，是否映射到具体的事件关系，其中，词语或字符的特征是词法特征、位置特征、上下文特征、句法特征、段落特征；结束判断单元，被配置为所述模型训练单元训练得到分类模型后，判断是否达到预设的结束条件；样本选择单元，被配置为在所述结束判断单元确定未达到预设的结束条件时，利用由所述训练集训练得到的分类模型对所述回测集中的待分类数据样本进行分类，依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异，确定该待分类数据样本所在的训练样本对所述分类模型的效果增益，从所述回测集中选择效果增益满足预设要求的训练样本；样本更新单元，被配置为获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本，将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集，触发所述模型训练单元利用所述训练集训练分类模型。 8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至 6任一项所述的方法的步骤。 9.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114328936 B 3

专利 建立分类模型的方法和装置

专利建立分类模型的方法和装置