(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210219956.5
(22)申请日 2022.03.08
(71)申请人 之江实验室
地址 310023 浙江省杭州市余杭区文一西
路1818号人工智能小镇10号楼
(72)发明人 丁锴 那崇宁 陈奎
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 邱启旺
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06F 40/194(2020.01)
G06Q 40/08(2012.01)
(54)发明名称
一种面向保险文本的样本采样方法与装置
(57)摘要
本发明公开了一种面向保险文本的样本采
样方法与装置, 该方法包括: 基于语义的文本向
量化和半监督采样两部分。 半监督采样又分为最
远点采样及标注, 基于分布的再采样与再采样样
本的标注, 模型分类精度验证等步骤。 本发明方
法基于语义向量化结合半监督学习方法进行样
本采样, 在极少标注样本的条件下, 可 以实现媲
美全样本标注的模型精度和鲁棒性, 同时大幅减
少模型训练的计算与时间成本 。
权利要求书2页 说明书8页 附图2页
CN 114741504 A
2022.07.12
CN 114741504 A
1.一种面向保险文本的样本采样方法, 其特 征在于, 包括以下步骤:
(1)构建文本相似性判定预训练模型, 通过 该模型进行文本向量 化, 得到总向量 集;
(2)对总向量集进行最远点初始采样与标注, 实现采样均匀分布于空间中, 得到已选点
集;
(3)设置样本数量, 对初始样本集基于类间分布模型进行 再采样, 更新已选点 集;
(4)设置采样半径比例和精度阈值, 利用更新后的已选点集进行模型训练与准确度验
证, 直至符合 准确率, 完成样本采样。
2.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述文本相似性
判定预训练模型为Sent ‑Bert; 所述Sent ‑Bert为一文本相似性度量模型, 以预训练后的
Bert为底层模型, 在该底层模型增加一对基于池化的嵌入层, 形成的共享底层参数的孪生
网络。
3.根据权利要求2所述的面向保险文本的样本采样方法, 其特征在于, 所述预训练具体
为: 通过人工标注相似性的包括LCQMC, STS ‑B, ATEC在内的中文数据库对Sent Bert进行精
调训练。
4.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 将一对保险文本
输入文本相似性判定预训练模型, 输出为两个向量; 第一向量为文本向量化后的结果, 组成
得到总向量 集; 第二向量 为空。
5.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述步骤(2)具
体包括以下子步骤:
(2.1)根据样本的相似度与小样本学习设置初始采样集的样本数量;
(2.2)选择初始点, 选择距离数据中心最远的点, 针对文本数据, 利用余弦相似性计算
向量间的相似度, 将所有相似度进行排序, 将最大 的相似度作为距离其他文本 向量最远的
向量, 建立已选点 集;
(2.3)计算 其他点与已选点 集的距离, 选择最远点, 更新已选点 集;
(2.4)重复上述步骤(2.1)~步骤(2.3), 直到已选点集的样本数量达到设置初始采样
集的样本数量;
(2.5)对步骤(2.4)得到采样 样本, 根据文本分类进行手动标注。
6.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述步骤(3)具
体为: 假定每类样本都符合高斯分布, 计算不同类样本的中心 点和类内密度; 计算类别边界
和不同类中心之间边界点, 将其表示为两类中心点的加权均值; 根据边界点密度计算采样
数量, 利用大密度类的高斯标准差无偏估计设定采样半径, 在边界点周围进行再采样, 更新
已选点集。
7.根据权利要求6所述的面向保险文本的样本采样方法, 其特征在于, 假定每类样本都
符合高斯分布, 计 算不同类样本的中心点C=[c0,...], 类内密度D=[d0...], 不同类的中心
为类内样本的均值, 计算公式如下:
权 利 要 求 书 1/2 页
2
CN 114741504 A
2其中, ti表示第i类别的标签值, lk为已选点集中第k个样本的标签值; ak表示第k个样本
的向量, ci为第i类的中心点;
计算类别边界, 不同类 中心之间边界点, 被表示为两类 中心点的加权均值, 计算公式如
下:
上式, bij表示i, j类间边界点, ci表示i类中心点,
为归一化权重; norm表示数组归一
化;
在边界点周围采样; 边界点涉及两个 类, 计算两个 类在边界点的密度, 即:
d′i=count(bij‑sk<ri),sk∈S‑A
式中, d’表示密度, sk为已选点集A以外的第k个样本, S为所有样本的集, ri为第i类的采
样半径, 采样半径类内样本的高斯标准差无偏估计, 即:
式中, n为第i类已选点集的样本总数量, aij为第i类的第j个样本, ci为第i类的中心点;
再采样点为距离边界点一定半径内样本的数量, 为避免重复, 仅对边界点对应两类中密度
较大的一类进行采样, 定义 为:
式中, sk为已选点集A以外 的第k个样本, bij表示i, j类间边界点, 当第i类密度较大时,
再采样点按照ri进行选取, 满足上式条件的样本sk被加入已选点 集, 更新已选点 集。
8.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述步骤(4)具
体为: 设置采样半径比例和精度阈值, 采样若干条数据作为测试集, 将更新后的已选点集作
为训练集; 利用训练集对分类器进 行训练, 然后使用分类器对测试集进 行分类预测; 计算准
确率, 若达到预设精度阈值, 则完成样本采样; 若不符合预测精度阈值, 则调整采样半径比
例, 重复步骤(3)直至 达到预设精度阈值, 完成样本采样。
9.一种面向保险文本的样本采样装置, 其特征在于, 包括一个或多个处理器, 用于实现
权利要求1 ‑8中任一项所述的面向保险文本的样本采样方法。
10.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时,
用于实现权利要求1 ‑8中任一项所述的面向保险文本的样本采样方法。权 利 要 求 书 2/2 页
3
CN 114741504 A
3
专利 一种面向保险文本的样本采样方法与装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:43上传分享