专利兴趣分类模型训练方法、兴趣分类方法和装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211049323.0 (22)申请日 2022.08.30 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人徐靖宇　刘昊骋　徐世界　王天祺　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06F 16/9535(2019.01) G06K 9/62(2022.01) (54)发明名称兴趣分类模型训练方法、兴趣分类方法和装置 (57)摘要本公开提供了兴趣分类模型训练方法、兴趣分类方法和装置，涉及人工智能技术领域，具体为数据处理和深度学习等技术领域。具体实现方案为：获取正样本用户和未标注用户，其中，正样本用户为具有兴趣标签的用户，未标注用户为不具有兴趣标签的用户；从正样本用户中确定间谍用户；基于间谍用户，从未标注用户中确定可靠负样本用户；基于正样本用户和可靠负样本用户，对目标待训练模型进行训练，得到训练完成的目标兴趣分类模型。本实现方式可以提高兴趣分类模型的精准度。权利要求书3页说明书10页附图6页 CN 115357796 A 2022.11.18 CN 115357796 A 1.一种兴趣分类模型训练方法，包括：获取正样本用户和未标注用户，其中，所述正样本用户为具有兴趣标签的用户，所述未标注用户为不具有兴趣标签的用户；从所述正样本用户中确定间谍用户；基于所述间谍用户，从所述未标注用户中确定可靠负样本用户；基于所述正样本用户和所述可靠负样本用户，对目标待训练模型进行训练，得到训练完成的目标兴趣分类模型。 2.根据权利要求1所述的方法，其中，所述基于所述间谍用户，从所述未标注用户中确定可靠负样本用户，包括：从所述正样本用户中去除所述间谍用户，得到第一正样本用户；将所述未标注用户和所述间谍用户，确定为第一负样本用户；基于所述第一正样本用户和所述第一负样本用户，对初始待训练模型进行模型训练，得到训练完成的初始兴趣分类模型；基于所述初始兴趣分类模型，对所述间谍用户和所述未标注用户进行打分，得到第一间谍用户打分结果和第一未标注用户打分结果；基于所述第一间谍用户打分结果和所述第一未标注用户打分结果，从所述未标注用户中确定所述可靠负样本用户。 3.根据权利要求2所述的方法，其中，所述基于所述第一间谍用户打分结果和所述第一未标注用户打分结果，从所述未标注用户中确定所述可靠负样本用户，包括：基于所述第一间谍用户打分结果，生成分数阈值；基于所述第一未标注用户打分结果，将分数低于所述分数阈值的未标注用户确定为所述可靠负样本用户。 4.根据权利要求2所述的方法，还包括：将所述训练完成的初始兴趣分类模型，确定为所述目标待训练模型。 5.根据权利要求1所述的方法，其中，所述基于所述正样本用户和所述可靠负样本用户，对目标待训练模型进行训练，得到训练完成的目标兴趣分类模型，包括：从所述正样本用户中去除所述间谍用户，得到第二正样本用户；将所述可靠负样本用户确定为第二负样本用户；基于所述第二正样本用户和所述第二负样本用户，对所述目标待训练模型进行训练，得到所述训练完成的目标兴趣分类模型。 6.根据权利要求5所述的方法，还包括：在对所述目标待训练模型进行训练的每轮迭代中，基于所述目标待训练模型对所述间谍用户进行打分，得到第二间谍用户打分结果；以及基于所述目标训练模型对去除所述可靠负样本用户的未标注用户进行打分，得到第二未标注用户打分结果；基于所述第二间谍用户打分结果和所述第二未标注用户打分结果，从去除所述可靠负样本用户的未标注用户中选取待标注用户；基于所述待标注用户更新所述可靠负样本用户。 7.一种兴趣分类方法，包括：获取目标用户；权　利　要　求　书 1/3 页 2 CN 115357796 A 2基于如权利要求1至6任一项所述的目标兴趣分类模型，确定所述目标用户对应的兴趣标签；按照所述兴趣标签对所述目标用户进行兴趣分类。 8.一种兴趣分类模型训练装置，包括：样本获取单元，被配置成获取正样本用户和未标注用户，其中，所述正样本用户为具有兴趣标签的用户，所述未标注用户为不具有兴趣标签的用户；间谍确定单元，被配置成从所述正样本用户中确定间谍用户；负样本确定单元，被配置成基于所述间谍用户，从所述未标注用户中确定可靠负样本用户；模型训练单元，被配置成基于所述正样本用户和所述可靠负样本用户，对目标待训练模型进行训练，得到训练完成的目标兴趣分类模型。 9.根据权利要求8所述的装置，其中，所述负样本确定单元进一步被配置成：从所述正样本用户中去除所述间谍用户，得到第一正样本用户；将所述未标注用户和所述间谍用户，确定为第一负样本用户；基于所述第一正样本用户和所述第一负样本用户，对初始待训练模型进行模型训练，得到训练完成的初始兴趣分类模型；基于所述初始兴趣分类模型，对所述间谍用户和所述未标注用户进行打分，得到第一间谍用户打分结果和第一未标注用户打分结果；基于所述第一间谍用户打分结果和所述第一未标注用户打分结果，从所述未标注用户中确定所述可靠负样本用户。 10.根据权利要求9所述的装置，其中，所述负样本确定单元进一步被配置成：基于所述第一间谍用户打分结果，生成分数阈值；基于所述第一未标注用户打分结果，将分数低于所述分数阈值的未标注用户确定为所述可靠负样本用户。 11.根据权利要求9所述的装置，还包括：模型确定单元，被配置成将所述训练完成的初始兴趣分类模型，确定为所述目标待训练模型。 12.根据权利要求8所述的装置，其中，所述模型训练单元进一步被配置成：从所述正样本用户中去除所述间谍用户，得到第二正样本用户；将所述可靠负样本用户确定为第二负样本用户；基于所述第二正样本用户和所述第二负样本用户，对所述目标待训练模型进行训练，得到所述训练完成的目标兴趣分类模型。 13.根据权利要求12所述的装置，其中，所述模型训练单元进一步被配置成：在对所述目标待训练模型进行训练的每轮迭代中，基于所述目标待训练模型对所述间谍用户进行打分，得到第二间谍用户打分结果；以及基于所述目标训练模型对去除所述可靠负样本用户的未标注用户进行打分，得到第二未标注用户打分结果；基于所述第二间谍用户打分结果和所述第二未标注用户打分结果，从去除所述可靠负样本用户的未标注用户中选取待标注用户；基于所述待标注用户更新所述可靠负样本用户。权　利　要　求　书 2/3 页 3 CN 115357796 A 3

专利 兴趣分类模型训练方法、兴趣分类方法和装置

专利兴趣分类模型训练方法、兴趣分类方法和装置