(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210240358.6 (22)申请日 2022.03.10 (71)申请人 北京字节跳动网络技 术有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 陈维识  (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/38(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种确定作品类别信息的方法、 装置、 计算 机设备及 介质 (57)摘要 本公开提供了一种确定作品类别信息的方 法、 装置、 计算机设备及介质, 其中, 该方法包括: 获取待分类作品中的多个关键词; 基于预先训练 的目标模型, 确定多个关键词分别在目标向量空 间中的词向量; 其中, 任意两个词向量在目标向 量空间中的空间距离与任意两个词向量之间的 语义相似度呈负相关; 目标模型为将属于同一预 设作品的任意两个预设关键词的词向量作为正 样本, 以及将属于不同预设作品的任意两个预设 关键词的词向量作为负样本训练得到的; 对多个 关键词的词向量进行聚类, 得到至少一个类簇; 其中, 每个类簇内的各个词向量之间的空间距离 小于第一设定阈值; 基于至少一个类簇中各个词 向量对应的关键词, 确定待分类作品的作品类别 信息。 权利要求书3页 说明书14页 附图3页 CN 114741505 A 2022.07.12 CN 114741505 A 1.一种确定作品类别 信息的方法, 其特 征在于, 包括: 获取待分类作品中的多个关键词; 基于预先训练的目标模型, 确定所述多个关键词分别在目标向量空间中的词向量; 其 中, 任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之 间的 语义相似度呈负相关; 所述目标模型为将属于同一预设作品的任意两个预设关键词的词向 量作为正样本, 以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练 得到的; 对所述多个关键词的词向量进行聚类, 得到至少一个类簇; 其中, 每个所述类簇内的各 个所述词向量之间的空间距离小于第一设定阈值; 基于所述至少一个类簇 中各个所述词向量对应的关键词, 确定所述待分类作品的作品 类别信息。 2.根据权利要求1所述的方法, 其特征在于, 所述目标模型是通过以下步骤训练得到 的: 获取多个预设作品中的多个预设 关键词; 将所述多个预设关键词分别 输入至待训练 的目标模型中, 得到所述多个预设关键词的 词向量; 将属于同一预设作品的任意两个预设关键词的词向量作为正样本, 以及将属于不同预 设作品的任意两个预设关键词的词向量作为负样本, 对待训练的目标模型进行训练, 得到 所述训练好的目标模型。 3.根据权利要求2所述的方法, 所述将属于同一预设作品的任意两个预设关键词的词 向量作为正样本, 以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本, 对待训练的目标模型进行训练, 得到所述训练好的目标模型, 包括: 从所述正样本 中选择任一正样本作为参考正样本, 并基于所述参考正样本 中包含的两 个预设关键词的词向量, 确定所述参考正样本的第一相似度; 以及, 基于各个所述负样 本中 包含的两个预设 关键词的词向量, 分别确定各个所述负 样本的第二相似度; 基于所述参考正样本的第 一相似度以及各个所述负样本的第 二相似度, 确定所述参考 正样本与各个所述负 样本的相似度之和; 基于所述 参考正样本的第一相似度以及所述相似度之和, 确定训练损失; 基于所述训练损 失, 对所述待训练的目标模型进行训练, 得到所述训练完成的目标模 型。 4.根据权利要求2或3所述的方法, 其特征在于, 所述将多个预设作品的多个预设关键 词分别输入至待训练的目标模型中, 得到所述多个预设 关键词的词向量, 包括: 将每个所述预设作品的多个预设关键词输入至待训练的目标模型中的特征提取层, 得 到各个所述预设 关键词的初始词向量; 所述初始词向量的维度高于预设维度; 将所述初始词向量输入所述目标模型的降维编码器, 得到所述预设关键词对应的预设 维度的词向量。 5.根据权利要求2所述的方法, 其特征在于, 所述获取多个预设作品中的多个预设关键 词, 包括: 获取多个预设作品中的多个候选关键词;权 利 要 求 书 1/3 页 2 CN 114741505 A 2针对每个所述候选关键词, 确定所述候选关键词与所述候选关键词所在的预设作品的 相关度; 基于每个所述候选关键词与 所述候选关键词所在的预设作品的相关度, 从所述多个候 选关键词中, 选择 所述相关度符合第二设定阈值的多个预设 关键词。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述至少一个类簇 中各个所述词 向量对应的关键词, 确定所述待分类作品的作品类别 信息, 包括: 基于各个所述类簇 中包含的所述词向量的数量, 确定各个所述类簇 中所述词向量的数 量最多的目标类簇; 基于所述目标类簇 中各个所述词向量对应的关键词, 确定所述待分类作品的作品类别 信息。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述目标类簇 中各个所述词向量 对应的关键词, 确定所述待分类作品的作品类别 信息, 包括: 基于所述目标类簇中各个所述词向量, 确定各个所述词向量的平均词向量; 确定所述目标类簇的各个所述词向量中, 距离所述平均词向量 最近的目标词向量; 基于所述目标词向量对应的关键词, 确定所述待分类作品的作品类别 信息。 8.根据权利要求1所述的方法, 其特征在于, 确定所述待分类作品的作品类别信息之 后, 所述方法还 包括: 基于所述待分类作品的作品类别信息, 确定所述待分类作品所属作者的作者类别信 息。 9.根据权利要求8所述的方法, 其特征在于, 所述基于所述待分类作品的作品类别信 息, 确定所述待分类作品所属作者的作者类别 信息, 包括: 基于各个所述待分类作品的作品类别信 息, 确定同一作者在确定的多个作品类别下的 作品数量; 将所述作者在多个作品类别中作品数量最多的待分类作品类别, 作为所述作者的作者 类别。 10.一种确定作品类别 信息的装置, 其特 征在于, 包括: 第一获取模块, 用于获取待分类作品中的多个关键词; 第一确定模块, 用于基于预先训练的目标模型, 确定所述多个关键词分别在目标向量 空间中的词向量; 其中, 任意两个所述词向量在所述 目标向量空间中的空间距离与所述任 意两个词向量之间的语义相似度呈负相关; 所述目标模型为将属于同一预设作品的任意两 个预设关键词的词向量作为正样本, 以及将属于不同预设作品的任意两个预设关键词的词 向量作为负 样本训练得到的; 聚类模块, 用于对所述多个关键词的词向量进行聚类, 得到至少一个类簇; 其中, 每个 所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值; 第二确定模块, 用于基于所述至少一个类簇中各个所述词向量对应的关键词, 确定所 述待分类作品的作品类别 信息。 11.一种计算机设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所 述处理器可执行 的机器可读指令, 当计算机设备运行时, 所述处理器与所述存储器之间通 过总线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至9任一项 所述的确权 利 要 求 书 2/3 页 3 CN 114741505 A 3

.PDF文档 专利 一种确定作品类别信息的方法、装置、计算机设备及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种确定作品类别信息的方法、装置、计算机设备及介质 第 1 页 专利 一种确定作品类别信息的方法、装置、计算机设备及介质 第 2 页 专利 一种确定作品类别信息的方法、装置、计算机设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。