(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211049323.0 (22)申请日 2022.08.30 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 徐靖宇 刘昊骋 徐世界 王天祺  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 16/9535(2019.01) G06K 9/62(2022.01) (54)发明名称 兴趣分类模 型训练方法、 兴趣分类方法和装 置 (57)摘要 本公开提供了兴趣分类模型训练方法、 兴趣 分类方法和装置, 涉及人工智 能技术领域, 具体 为数据处理和深度学习等技术领域。 具体实现方 案为: 获取正样本用户和未标注用户, 其中, 正样 本用户为具有兴趣标签的用户, 未标注用户为不 具有兴趣 标签的用户; 从正样 本用户中确定间谍 用户; 基于间谍用户, 从未标注用户中确定可靠 负样本用户; 基于正样本用户和可靠负样本用 户, 对目标待训练模型进行训练, 得到训练完成 的目标兴趣分类模型。 本实现方式可以提高兴趣 分类模型的精准度。 权利要求书3页 说明书10页 附图6页 CN 115357796 A 2022.11.18 CN 115357796 A 1.一种兴趣分类模型训练方法, 包括: 获取正样本用户和未标注用户, 其中, 所述正样本用户为具有兴趣标签的用户, 所述未 标注用户为 不具有兴趣标签的用户; 从所述正样本用户中确定间谍用户; 基于所述间谍用户, 从所述未 标注用户中确定可靠负 样本用户; 基于所述正样本用户 和所述可靠负样本用户, 对目标待训练模型进行训练, 得到训练 完成的目标兴趣分类模型。 2.根据权利要求1所述的方法, 其中, 所述基于所述间谍用户, 从所述未标注用户中确 定可靠负 样本用户, 包括: 从所述正样本用户中去除所述间谍用户, 得到第一 正样本用户; 将所述未 标注用户和所述间谍用户, 确定为第一负 样本用户; 基于所述第一正样本用户 和所述第一负样本用户, 对初始待训练模型进行模型训练, 得到训练完成的初始兴趣分类模型; 基于所述初始兴趣分类模型, 对所述间谍用户 和所述未标注用户进行打分, 得到第一 间谍用户打 分结果和第一未 标注用户打 分结果; 基于所述第 一间谍用户打分结果和所述第 一未标注用户打分结果, 从所述未标注用户 中确定所述可靠负 样本用户。 3.根据权利要求2所述的方法, 其中, 所述基于所述第 一间谍用户打分结果和所述第 一 未标注用户打 分结果, 从所述未 标注用户中确定所述可靠负 样本用户, 包括: 基于所述第一间谍用户打 分结果, 生成分数阈值; 基于所述第 一未标注用户打分结果, 将分数低于所述分数阈值的未标注用户确定为所 述可靠负 样本用户。 4.根据权利要求2所述的方法, 还 包括: 将所述训练完成的初始兴趣分类模型, 确定为所述目标待训练模型。 5.根据权利要求1所述的方法, 其中, 所述基于所述正样本用户和所述可靠负样本用 户, 对目标待训练模型进行训练, 得到训练完成的目标兴趣分类模型, 包括: 从所述正样本用户中去除所述间谍用户, 得到第二 正样本用户; 将所述可靠负 样本用户确定为第二负 样本用户; 基于所述第二正样本用户 和所述第二负样本用户, 对所述目标待训练模型进行训练, 得到所述训练完成的目标兴趣分类模型。 6.根据权利要求5所述的方法, 还 包括: 在对所述目标待训练模型进行训练 的每轮迭代中, 基于所述目标待训练模型对所述间 谍用户进行打分, 得到第二间谍用户打分结果; 以及基于所述 目标训练模型对去除所述可 靠负样本用户的未 标注用户进行打 分, 得到第二未 标注用户打 分结果; 基于所述第 二间谍用户打分结果和所述第 二未标注用户打分结果, 从去除所述可靠负 样本用户的未 标注用户中选取待标注用户; 基于所述待标注用户更新所述可靠负 样本用户。 7.一种兴趣分类方法, 包括: 获取目标用户;权 利 要 求 书 1/3 页 2 CN 115357796 A 2基于如权利要求1至6任一项所述的目标兴趣分类模型, 确定所述目标用户对应的兴趣 标签; 按照所述兴趣标签对所述目标用户进行兴趣分类。 8.一种兴趣分类模型训练装置, 包括: 样本获取单元, 被配置成获取正样本用户和未标注用户, 其中, 所述正样本用户为具有 兴趣标签的用户, 所述未 标注用户为 不具有兴趣标签的用户; 间谍确定单 元, 被配置成从所述正样本用户中确定间谍用户; 负样本确定单元, 被配置成基于所述间谍用户, 从所述未标注用户中确定可靠负样本 用户; 模型训练单元, 被配置成基于所述正样本用户 和所述可靠负样本用户, 对目标待训练 模型进行训练, 得到训练完成的目标兴趣分类模型。 9.根据权利要求8所述的装置, 其中, 所述负 样本确定单 元进一步被配置成: 从所述正样本用户中去除所述间谍用户, 得到第一 正样本用户; 将所述未 标注用户和所述间谍用户, 确定为第一负 样本用户; 基于所述第一正样本用户 和所述第一负样本用户, 对初始待训练模型进行模型训练, 得到训练完成的初始兴趣分类模型; 基于所述初始兴趣分类模型, 对所述间谍用户 和所述未标注用户进行打分, 得到第一 间谍用户打 分结果和第一未 标注用户打 分结果; 基于所述第 一间谍用户打分结果和所述第 一未标注用户打分结果, 从所述未标注用户 中确定所述可靠负 样本用户。 10.根据权利要求9所述的装置, 其中, 所述负 样本确定单 元进一步被配置成: 基于所述第一间谍用户打 分结果, 生成分数阈值; 基于所述第 一未标注用户打分结果, 将分数低于所述分数阈值的未标注用户确定为所 述可靠负 样本用户。 11.根据权利要求9所述的装置, 还 包括: 模型确定单元, 被配置成将所述训练完成的初始兴趣分类模型, 确定为所述目标待训 练模型。 12.根据权利要求8所述的装置, 其中, 所述模型训练单 元进一步被配置成: 从所述正样本用户中去除所述间谍用户, 得到第二 正样本用户; 将所述可靠负 样本用户确定为第二负 样本用户; 基于所述第二正样本用户 和所述第二负样本用户, 对所述目标待训练模型进行训练, 得到所述训练完成的目标兴趣分类模型。 13.根据权利要求12所述的装置, 其中, 所述模型训练单 元进一步被配置成: 在对所述目标待训练模型进行训练 的每轮迭代中, 基于所述目标待训练模型对所述间 谍用户进行打分, 得到第二间谍用户打分结果; 以及基于所述 目标训练模型对去除所述可 靠负样本用户的未 标注用户进行打 分, 得到第二未 标注用户打 分结果; 基于所述第 二间谍用户打分结果和所述第 二未标注用户打分结果, 从去除所述可靠负 样本用户的未 标注用户中选取待标注用户; 基于所述待标注用户更新所述可靠负 样本用户。权 利 要 求 书 2/3 页 3 CN 115357796 A 3

.PDF文档 专利 兴趣分类模型训练方法、兴趣分类方法和装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 兴趣分类模型训练方法、兴趣分类方法和装置 第 1 页 专利 兴趣分类模型训练方法、兴趣分类方法和装置 第 2 页 专利 兴趣分类模型训练方法、兴趣分类方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:35:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。