(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210219956.5 (22)申请日 2022.03.08 (71)申请人 之江实验室 地址 310023 浙江省杭州市余杭区文一西 路1818号人工智能小镇10号楼 (72)发明人 丁锴 那崇宁 陈奎  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 邱启旺 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/194(2020.01) G06Q 40/08(2012.01) (54)发明名称 一种面向保险文本的样本采样方法与装置 (57)摘要 本发明公开了一种面向保险文本的样本采 样方法与装置, 该方法包括: 基于语义的文本向 量化和半监督采样两部分。 半监督采样又分为最 远点采样及标注, 基于分布的再采样与再采样样 本的标注, 模型分类精度验证等步骤。 本发明方 法基于语义向量化结合半监督学习方法进行样 本采样, 在极少标注样本的条件下, 可 以实现媲 美全样本标注的模型精度和鲁棒性, 同时大幅减 少模型训练的计算与时间成本 。 权利要求书2页 说明书8页 附图2页 CN 114741504 A 2022.07.12 CN 114741504 A 1.一种面向保险文本的样本采样方法, 其特 征在于, 包括以下步骤: (1)构建文本相似性判定预训练模型, 通过 该模型进行文本向量 化, 得到总向量 集; (2)对总向量集进行最远点初始采样与标注, 实现采样均匀分布于空间中, 得到已选点 集; (3)设置样本数量, 对初始样本集基于类间分布模型进行 再采样, 更新已选点 集; (4)设置采样半径比例和精度阈值, 利用更新后的已选点集进行模型训练与准确度验 证, 直至符合 准确率, 完成样本采样。 2.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述文本相似性 判定预训练模型为Sent ‑Bert; 所述Sent ‑Bert为一文本相似性度量模型, 以预训练后的 Bert为底层模型, 在该底层模型增加一对基于池化的嵌入层, 形成的共享底层参数的孪生 网络。 3.根据权利要求2所述的面向保险文本的样本采样方法, 其特征在于, 所述预训练具体 为: 通过人工标注相似性的包括LCQMC, STS ‑B, ATEC在内的中文数据库对Sent  Bert进行精 调训练。 4.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 将一对保险文本 输入文本相似性判定预训练模型, 输出为两个向量; 第一向量为文本向量化后的结果, 组成 得到总向量 集; 第二向量 为空。 5.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述步骤(2)具 体包括以下子步骤: (2.1)根据样本的相似度与小样本学习设置初始采样集的样本数量; (2.2)选择初始点, 选择距离数据中心最远的点, 针对文本数据, 利用余弦相似性计算 向量间的相似度, 将所有相似度进行排序, 将最大 的相似度作为距离其他文本 向量最远的 向量, 建立已选点 集; (2.3)计算 其他点与已选点 集的距离, 选择最远点, 更新已选点 集; (2.4)重复上述步骤(2.1)~步骤(2.3), 直到已选点集的样本数量达到设置初始采样 集的样本数量; (2.5)对步骤(2.4)得到采样 样本, 根据文本分类进行手动标注。 6.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述步骤(3)具 体为: 假定每类样本都符合高斯分布, 计算不同类样本的中心 点和类内密度; 计算类别边界 和不同类中心之间边界点, 将其表示为两类中心点的加权均值; 根据边界点密度计算采样 数量, 利用大密度类的高斯标准差无偏估计设定采样半径, 在边界点周围进行再采样, 更新 已选点集。 7.根据权利要求6所述的面向保险文本的样本采样方法, 其特征在于, 假定每类样本都 符合高斯分布, 计 算不同类样本的中心点C=[c0,...], 类内密度D=[d0...], 不同类的中心 为类内样本的均值, 计算公式如下: 权 利 要 求 书 1/2 页 2 CN 114741504 A 2其中, ti表示第i类别的标签值, lk为已选点集中第k个样本的标签值; ak表示第k个样本 的向量, ci为第i类的中心点; 计算类别边界, 不同类 中心之间边界点, 被表示为两类 中心点的加权均值, 计算公式如 下: 上式, bij表示i, j类间边界点, ci表示i类中心点, 为归一化权重; norm表示数组归一 化; 在边界点周围采样; 边界点涉及两个 类, 计算两个 类在边界点的密度, 即: d′i=count(bij‑sk<ri),sk∈S‑A 式中, d’表示密度, sk为已选点集A以外的第k个样本, S为所有样本的集, ri为第i类的采 样半径, 采样半径类内样本的高斯标准差无偏估计, 即: 式中, n为第i类已选点集的样本总数量, aij为第i类的第j个样本, ci为第i类的中心点; 再采样点为距离边界点一定半径内样本的数量, 为避免重复, 仅对边界点对应两类中密度 较大的一类进行采样, 定义 为: 式中, sk为已选点集A以外 的第k个样本, bij表示i, j类间边界点, 当第i类密度较大时, 再采样点按照ri进行选取, 满足上式条件的样本sk被加入已选点 集, 更新已选点 集。 8.根据权利要求1所述的面向保险文本的样本采样方法, 其特征在于, 所述步骤(4)具 体为: 设置采样半径比例和精度阈值, 采样若干条数据作为测试集, 将更新后的已选点集作 为训练集; 利用训练集对分类器进 行训练, 然后使用分类器对测试集进 行分类预测; 计算准 确率, 若达到预设精度阈值, 则完成样本采样; 若不符合预测精度阈值, 则调整采样半径比 例, 重复步骤(3)直至 达到预设精度阈值, 完成样本采样。 9.一种面向保险文本的样本采样装置, 其特征在于, 包括一个或多个处理器, 用于实现 权利要求1 ‑8中任一项所述的面向保险文本的样本采样方法。 10.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时, 用于实现权利要求1 ‑8中任一项所述的面向保险文本的样本采样方法。权 利 要 求 书 2/2 页 3 CN 114741504 A 3

.PDF文档 专利 一种面向保险文本的样本采样方法与装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向保险文本的样本采样方法与装置 第 1 页 专利 一种面向保险文本的样本采样方法与装置 第 2 页 专利 一种面向保险文本的样本采样方法与装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。