国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210485560.5 (22)申请日 2022.05.06 (71)申请人 深圳追一科技有限公司 地址 518057 广东省深圳市南 山区粤海街 道科技园社区科苑路8号讯美科技广 场3号楼23A、 23B (72)发明人 李业良 黄继青 刘云峰 (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 伍健聪 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 分类处理方法、 装置、 计算机设备和存储介 质 (57)摘要 本申请涉及一种分类处理方法、 装置、 计算 机设备和存储介质。 该方法包括: 基于使用标记 数据集训练的分类模型, 预测未标记数据集中各 未标记的样本数据的预测类别标签和相应的预 测得分; 标记预测得分达到过滤阈值的未标记的 样本数据, 得到伪标记数据的集合; 基于标记数 据集和伪标记数据的集合, 确定新的标记数据 集; 使用新的标记数据集重新训练分类模型后, 将去除已标记预测类别标签的样本数据后的未 标记数据集作为新的未标记数据集, 返回基于使 用标记数据集训练的分类模型, 预测未标记数据 集中各未标记的样本数据的预测类别标签和相 应的预测得分的步骤以迭代训练, 直至满足训练 停止条件, 得到训练完毕的分类模型。 采用本方 法能够提高分类准确性。 权利要求书2页 说明书11页 附图4页 CN 115130428 A 2022.09.30 CN 115130428 A 1.一种分类处 理方法, 其特 征在于, 所述方法包括: 基于使用标记数据集训练的分类模型, 预测未标记数据集中各未标记的样本数据的预 测类别标签和相应的预测得分; 针对预测得分达到过滤阈值的未标记的样本数据, 标记相应预测类别标签, 得到伪标 记数据的集 合; 所述伪标记数据是 添加相应预测类别标签的样本数据; 基于所述标记数据集和所述伪标记数据的集 合, 确定新的标记数据集; 使用新的标记数据集重新训练所述分类模型后, 将去除已标记预测类别标签的样本数 据后的未标记数据集作为新的未标记数据集, 返回所述基于使用标记数据集训练的分类模 型, 预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以 迭代训练, 直至满足训练停止条件, 得到训练完毕的分类模型。 2.根据权利要求1所述的方法, 其特征在于, 所述针对预测得分达到过滤阈值的未标记 的样本数据, 标记相应预测类别标签包括: 针对每个未标记的样本数据, 若所述未标记的样本数据的预测类别标签属于头部类别 标签、 且所述预测得分达到第一过滤阈值, 则针对所述未标记的样本数据标记相应预测类 别标签; 若所述预测类别标签属于尾部类别标签、 且所述预测得分达到第二过滤阈值, 则针对 所述未标记的样本数据标记相应预测类别标签; 所述第二过滤阈值小于所述第一过滤阈 值。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述标记数据集和所述伪标记数 据的集合, 确定新的标记数据集包括: 基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量, 分别确定各预测 类别标签下伪标记数据对应的第一权重; 预测类别标签下伪标记数据对应的第一权重的大 小与所述预测类别标签下伪标记数据的数量负相关; 针对所述标记数据集中的标记数据赋予第二权 重; 基于赋予所述第一权重后的所述伪标记数据和赋予所述第二权重后的所述标记数据 生成新的标记数据集。 4.根据权利要求3所述的方法, 其特征在于, 所述伪标记数据的集合中包括多个预测类 别标签; 所述基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量, 分别确 定各预测类别标签下伪标记数据对应的第一权 重包括: 按照所述多个预测类别标签中各预测类别标签下伪标记数据的数量由大到小的顺序, 对各预测类别标签排序; 针对排序后的每个当前预测类别标签, 根据当前权重计算关联标签下伪标记数据的数 量与参照类别标签下伪标记数据的数量的比值, 确定所述当前预测类别标签下伪标记数据 的第一权 重; 其中, 所述当前权重计算关联标签是所述多个预测类别标签中与所述当前预测类别标 签的权重计算相关的预测类别标签; 所述当前权重计算关联标签下伪标记数据的数量比上 一预测类别标签的权重计算关联标签下伪标记数据的数量大, 且比下一预测类别标签的权 重计算关联标签下伪标记数据的数量小; 不同预测类别标签的权重计算关联标签不同; 所 述参照类别标签是 所述多个预测类别标签中伪标记数据的数量 最大的预测类别标签。权 利 要 求 书 1/2 页 2 CN 115130428 A 25.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 利用新的标记数据集中所述伪标记数据的第一权重和所述标记数据的第二权重确定 所述分类模型的加权损失函数; 朝着最小化所述加权损失函数的损失值的方向, 使用新的标记数据集重新训练所述分 类模型。 6.根据权利要求1至5任意一项所述的方法, 其特征在于, 所述分类模型是文本分类模 型; 在所述基于使用标记数据集训练的分类模型, 预测未标记数据集中各未标记的样本数 据的预测类别标签和相应的预测得分之前, 还 包括: 对标记数据集中标记的样本数据进行分词处理, 并对分词处理后的样本数据进行随机 均匀采样, 得到训练样本数据; 使用所述训练样本数据训练所述文本分类模型。 7.一种分类处 理装置, 其特 征在于, 所述装置包括: 预测模块, 用于基于使用标记数据集训练的分类模型, 预测未标记数据集中各未标记 的样本数据的预测类别标签和相应的预测得分; 确定模块, 用于针对预测得分达到过滤阈值的未标记的样本数据, 标记相应预测类别 标签, 得到伪标记数据的集合; 所述伪标记数据是添加相应预测类别标签的样本数据; 基于 所述标记数据集和所述伪标记数据的集 合, 确定新的标记数据集; 训练模块, 用于使用新的标记数据集重新训练所述分类模型后, 将去 除已标记预测类 别标签的样本数据后的未标记数据集作为新的未标记数据集, 返回所述基于使用标记数据 集训练的分类模型, 预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预 测得分的步骤以迭代训练, 直至满足训练停止条件, 得到训练完毕的分类模型。 8.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述的方法的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115130428 A 3
专利 分类处理方法、装置、计算机设备和存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:48:19
上传分享
举报
下载
原文档
(690.1 KB)
分享
友情链接
GB-T 42548-2023 海洋调查船舶舷外调查设备布放与回收安全管理规范.pdf
GB-T 25056-2018 信息安全技术 证书认证系统密码及其相关安全技术规范.pdf
GB-T 33136-2016信息技术服务数据中心服务能力成熟度模型.pdf
GB-T 34934-2017 机械电气安全 安全相关设备中的通信系统使用指南.pdf
GB/Z 24294.2-2017 信息安全技术 基于互联网电子政务信息安全实施指南 第2部分:接入控制与安全交换.pdf
GB-T 30921.5-2016 工业用精对苯二甲酸 PTA 试验方法 第5部分:酸值的测定.pdf
GB-T 34658-2017 电动汽车非车载传导式充电机与电池管理系统之间的通信协议一致性测试.pdf
GB-T 41648-2022 旅游民宿基本要求与等级划分.pdf
GB-T 36618-2018 信息安全技术 金融信息服务安全规范.pdf
GB-T 5271.8-2001 信息技术 词汇 第8部分 安全.pdf
腾讯 2022产业互联网安全十大趋势.pdf
T-CHTS 10034—2021 沥青路面施工质量信息动态管理技术指南.pdf
GB-T 22081-xxxx ISO-IEC27002 2022 信息安全技术 信息安全控制(征求意见稿).pdf
GB-T 18916.10-2021 取水定额 第10部分:化学制药产品.pdf
NB-T 10354-2019 管束式集装箱.pdf
GB-T 43044-2023 数码照相机 规格指南.pdf
DB34-T 4686-2024 挥发性有机物走航监测技术规范 安徽省.pdf
YD-T 3979-2021 数据中心浸没式液冷服务器系统技术要求和测试方法.pdf
GB-T 34362-2017 无损检测 适形阵列涡流检测导则.pdf
GB-T 37952-2019 信息安全技术 移动终端安全管理平台技术要求.pdf
1
/
3
18
评价文档
赞助2.5元 点击下载(690.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。