(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210191386.3
(22)申请日 2022.03.01
(65)同一申请的已公布的文献号
申请公布号 CN 114328936 A
(43)申请公布日 2022.04.12
(73)专利权人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 林昊
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 李世喆
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/242(2020.01)G06F 40/30(2020.01)
(56)对比文件
CN 10826901 1 A,2018.07.10
US 2018181808 A1,2018.0 6.28
龙军等.“选取最大 可能预测错 误样例的主
动学习算法 ”. 《计算机 研究与发展》 .20 08,
C. Silva等.“Selecting Examples i n
Manifold Reduced F eature Space for Active
Learning”. 《 2008 Seventh I nternati onal
Conference o n Machine Learn ing and
Applications》 .2008,
审查员 张思洋
(54)发明名称
建立分类模型的方法和装置
(57)摘要
本说明书实施例提供了一种建立分类模型
的方法及装置。 其中方法包括: 首先获取待分类
数据样本, 并获取所述待分类数据样本对应的分
类标签样 本; 然后将待分类数据 样本及其对应的
分类标签样本作为训练样本以构建训练集和回
测集, 所述训练集和所述回测集均包含多个训练
样本; 利用所述训练集训练分类模型; 从所述回
测集中选择对训练得到的分类模型产生满足预
设要求的效果增益的训练样本; 再 获取对选择的
训练样本中的待分类数据样本进行人工标注之
后得到的分类标签样本, 将所选择的训练样本中
的待分类数据样本及其人工标注的分类标签样
本构成新的训练样本加入所述训练集, 转至利用
所述训练集训练分类模型的步骤, 直至达到预设
的结束条件。
权利要求书2页 说明书11页 附图4页
CN 114328936 B
2022.08.30
CN 114328936 B
1.建立分类模型的方法, 包括:
获取待分类数据样本, 并基于预设的词典或语义表达模板获取所述待分类数据样本对
应的分类标签样本;
取一部分待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集, 并取
另一部分待分类数据样本及其对应的分类标签样本作为训练样本构建回测集, 所述训练集
和所述回测集均包 含多个训练样本;
利用所述训练集训练分类模型; 所述分类模型为序列类的分类模型, 该序列类的分类
模型通过分析事件相关文本中各词语或字符的特征, 来判别事件相关文本中的词语 或字符
是否映射到事件类别, 是否映射到具体的实体类别, 是否映射到具体的事件关系, 其中, 词
语或字符的特 征是词法特 征、 位置特 征、 上下文特征、 句法特 征、 段落特 征;
利用由所述训练集训练得到的分类模型对所述 回测集中的待分类数据样本进行分类,
依据分类结果与所述回测集中的该待分类数据样本对应的分类标签样本的差异, 确定该待
分类数据样本所在的训练样本对所述分类模型的效果增益, 从所述回测集中选择效果增益
满足预设要求的训练样本;
获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样
本;
将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构建新的训
练样本加入所述训练集, 转至利用所述训练集训练分类模型 的步骤, 直至达到预设的结束
条件。
2.根据权利要求1所述的方法, 其中, 所述基于预设的词典或语义表达模板获取所述待
分类数据样本对应的分类标签样本包括:
将所述待分类数据样本与预设的词典或语义表达模板进行匹配;
依据匹配结果确定所述待分类数据样本对应的分类标签;
基于确定的分类标签得到所述待分类数据样本对应的分类标签样本 。
3.根据权利要求1所述的方法, 其中, 所述依据分类结果与所述 回测集中的该待分类数
据样本对应的分类标签样本的差异确定该待分类数据样本所在的训练样本对所述分类模
型的效果增益, 从所述回测集中选择效果增益满足预设要求的训练样本, 包括:
确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
从所述回测集中选择置信度小于或等于预设第一阈值的待分类数据样本所在的训练
样本, 或者, 从所述回测集中选择置信度最低的N个待分类数据样本所在的训练样本, 所述N
为预设的正整数。
4.根据权利要求1所述的方法, 其中, 所述预设的结束条件 包括以下至少一种:
所述分类模型的准确率达 到预设准确率阈值;
循环执行训练分类模型的次数超过 预设的循环次数阈值;
所述分类模型的分类效果收敛。
5.根据权利要求2所述的方法, 其中, 所述待分类数据样本包括事件相关文本, 所述分
类模型包括事 件抽取模型, 所述分类标签包括事 件信息标签;
所述事件抽取模型用以从待分类数据中抽取事 件信息。
6.根据权利要求5所述的方法, 该 方法还包括:权 利 要 求 书 1/2 页
2
CN 114328936 B
2确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
将置信度 大于或等于预设第 二阈值的分类标签样本加入数据库, 用以构建基于事件的
知识图谱。
7.建立分类模型的装置, 包括:
数据获取单元, 被配置为获取待分类数据样本, 并基于预设的词典或语义表达模板获
取所述待分类数据样本对应的分类标签样本;
样本构建单元, 被配置为取一部分待分类数据样本及其对应的分类标签样本作为训练
样本以构建训练集, 并取另一部分待分类数据样本及其对应的分类标签样本作为训练样本
构建回测集, 所述训练集和所述回测集均包 含多个训练样本;
模型训练单元, 被配置为利用所述训练集训练分类模型; 所述分类模型为序列类的分
类模型, 该序列类的分类模型通过分析事件相关文本中各词语或字符的特征, 来判别事件
相关文本中的词语或字符是否映射到事件类别, 是否映射到具体的实体类别, 是否映射到
具体的事件关系, 其中, 词语或字符的特征是词法特征、 位置特征、 上下文特征、 句法特征、
段落特征;
结束判断单元, 被配置为所述模型训练单元训练得到分类模型后, 判断是否达到预设
的结束条件;
样本选择单元, 被配置为在所述结束判断单元确定未达到预设的结束条件时, 利用由
所述训练集训练得到的分类模型对所述回测集中的待分类数据样本进 行分类, 依据分类结
果与所述回测集中的该待分类数据样本对应的分类标签样本的差异, 确定该待分类数据样
本所在的训练样本对所述分类模型的效果增益, 从所述回测集中选择效果增益满足预设要
求的训练样本;
样本更新单元, 被配置为获取对选择的训练样本中的待分类数据样本进行人工标注之
后得到的分类标签样本, 将所选择的训练样本中的待分类数据样本及其人工标注的分类标
签样本构成新的训练样本加入所述训练集, 触发所述模型训练单元利用所述训练集训练分
类模型。
8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行时实现权利要求1至 6任一项所述的方法的步骤。
9.一种计算设备, 包括存储器和处理器, 其特征在于, 所述存储器中存储有可执行代
码, 所述处 理器执行所述可执行代码时, 实现权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114328936 B
3
专利 建立分类模型的方法和装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:27上传分享