国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210240358.6 (22)申请日 2022.03.10 (71)申请人 北京字节跳动网络技 术有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 陈维识 (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/38(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种确定作品类别信息的方法、 装置、 计算 机设备及 介质 (57)摘要 本公开提供了一种确定作品类别信息的方 法、 装置、 计算机设备及介质, 其中, 该方法包括: 获取待分类作品中的多个关键词; 基于预先训练 的目标模型, 确定多个关键词分别在目标向量空 间中的词向量; 其中, 任意两个词向量在目标向 量空间中的空间距离与任意两个词向量之间的 语义相似度呈负相关; 目标模型为将属于同一预 设作品的任意两个预设关键词的词向量作为正 样本, 以及将属于不同预设作品的任意两个预设 关键词的词向量作为负样本训练得到的; 对多个 关键词的词向量进行聚类, 得到至少一个类簇; 其中, 每个类簇内的各个词向量之间的空间距离 小于第一设定阈值; 基于至少一个类簇中各个词 向量对应的关键词, 确定待分类作品的作品类别 信息。 权利要求书3页 说明书14页 附图3页 CN 114741505 A 2022.07.12 CN 114741505 A 1.一种确定作品类别 信息的方法, 其特 征在于, 包括: 获取待分类作品中的多个关键词; 基于预先训练的目标模型, 确定所述多个关键词分别在目标向量空间中的词向量; 其 中, 任意两个所述词向量在所述目标向量空间中的空间距离与所述任意两个词向量之 间的 语义相似度呈负相关; 所述目标模型为将属于同一预设作品的任意两个预设关键词的词向 量作为正样本, 以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本训练 得到的; 对所述多个关键词的词向量进行聚类, 得到至少一个类簇; 其中, 每个所述类簇内的各 个所述词向量之间的空间距离小于第一设定阈值; 基于所述至少一个类簇 中各个所述词向量对应的关键词, 确定所述待分类作品的作品 类别信息。 2.根据权利要求1所述的方法, 其特征在于, 所述目标模型是通过以下步骤训练得到 的: 获取多个预设作品中的多个预设 关键词; 将所述多个预设关键词分别 输入至待训练 的目标模型中, 得到所述多个预设关键词的 词向量; 将属于同一预设作品的任意两个预设关键词的词向量作为正样本, 以及将属于不同预 设作品的任意两个预设关键词的词向量作为负样本, 对待训练的目标模型进行训练, 得到 所述训练好的目标模型。 3.根据权利要求2所述的方法, 所述将属于同一预设作品的任意两个预设关键词的词 向量作为正样本, 以及将属于不同预设作品的任意两个预设关键词的词向量作为负样本, 对待训练的目标模型进行训练, 得到所述训练好的目标模型, 包括: 从所述正样本 中选择任一正样本作为参考正样本, 并基于所述参考正样本 中包含的两 个预设关键词的词向量, 确定所述参考正样本的第一相似度; 以及, 基于各个所述负样 本中 包含的两个预设 关键词的词向量, 分别确定各个所述负 样本的第二相似度; 基于所述参考正样本的第 一相似度以及各个所述负样本的第 二相似度, 确定所述参考 正样本与各个所述负 样本的相似度之和; 基于所述 参考正样本的第一相似度以及所述相似度之和, 确定训练损失; 基于所述训练损 失, 对所述待训练的目标模型进行训练, 得到所述训练完成的目标模 型。 4.根据权利要求2或3所述的方法, 其特征在于, 所述将多个预设作品的多个预设关键 词分别输入至待训练的目标模型中, 得到所述多个预设 关键词的词向量, 包括: 将每个所述预设作品的多个预设关键词输入至待训练的目标模型中的特征提取层, 得 到各个所述预设 关键词的初始词向量; 所述初始词向量的维度高于预设维度; 将所述初始词向量输入所述目标模型的降维编码器, 得到所述预设关键词对应的预设 维度的词向量。 5.根据权利要求2所述的方法, 其特征在于, 所述获取多个预设作品中的多个预设关键 词, 包括: 获取多个预设作品中的多个候选关键词;权 利 要 求 书 1/3 页 2 CN 114741505 A 2针对每个所述候选关键词, 确定所述候选关键词与所述候选关键词所在的预设作品的 相关度; 基于每个所述候选关键词与 所述候选关键词所在的预设作品的相关度, 从所述多个候 选关键词中, 选择 所述相关度符合第二设定阈值的多个预设 关键词。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述至少一个类簇 中各个所述词 向量对应的关键词, 确定所述待分类作品的作品类别 信息, 包括: 基于各个所述类簇 中包含的所述词向量的数量, 确定各个所述类簇 中所述词向量的数 量最多的目标类簇; 基于所述目标类簇 中各个所述词向量对应的关键词, 确定所述待分类作品的作品类别 信息。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述目标类簇 中各个所述词向量 对应的关键词, 确定所述待分类作品的作品类别 信息, 包括: 基于所述目标类簇中各个所述词向量, 确定各个所述词向量的平均词向量; 确定所述目标类簇的各个所述词向量中, 距离所述平均词向量 最近的目标词向量; 基于所述目标词向量对应的关键词, 确定所述待分类作品的作品类别 信息。 8.根据权利要求1所述的方法, 其特征在于, 确定所述待分类作品的作品类别信息之 后, 所述方法还 包括: 基于所述待分类作品的作品类别信息, 确定所述待分类作品所属作者的作者类别信 息。 9.根据权利要求8所述的方法, 其特征在于, 所述基于所述待分类作品的作品类别信 息, 确定所述待分类作品所属作者的作者类别 信息, 包括: 基于各个所述待分类作品的作品类别信 息, 确定同一作者在确定的多个作品类别下的 作品数量; 将所述作者在多个作品类别中作品数量最多的待分类作品类别, 作为所述作者的作者 类别。 10.一种确定作品类别 信息的装置, 其特 征在于, 包括: 第一获取模块, 用于获取待分类作品中的多个关键词; 第一确定模块, 用于基于预先训练的目标模型, 确定所述多个关键词分别在目标向量 空间中的词向量; 其中, 任意两个所述词向量在所述 目标向量空间中的空间距离与所述任 意两个词向量之间的语义相似度呈负相关; 所述目标模型为将属于同一预设作品的任意两 个预设关键词的词向量作为正样本, 以及将属于不同预设作品的任意两个预设关键词的词 向量作为负 样本训练得到的; 聚类模块, 用于对所述多个关键词的词向量进行聚类, 得到至少一个类簇; 其中, 每个 所述类簇内的各个所述词向量之间的空间距离小于第一设定阈值; 第二确定模块, 用于基于所述至少一个类簇中各个所述词向量对应的关键词, 确定所 述待分类作品的作品类别 信息。 11.一种计算机设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所 述处理器可执行 的机器可读指令, 当计算机设备运行时, 所述处理器与所述存储器之间通 过总线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至9任一项 所述的确权 利 要 求 书 2/3 页 3 CN 114741505 A 3
专利 一种确定作品类别信息的方法、装置、计算机设备及介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:04
上传分享
举报
下载
原文档
(649.1 KB)
分享
友情链接
GB-T 39201-2020 高铝粉煤灰提取氧化铝技术规范.pdf
思度安全-DSMM-014 数据导入导出安全管理规范V1.0.pdf
WDTA AI-STR-02-LLM security Large Language Model Security.pdf
GB-T 42156-2023 铸造砂型3D打印设备 通用技术规范.pdf
GB-T 15851.3-2018 信息技术 安全技术 带消息恢复的数字签名方案 第3部分:基于离散对数的机制.pdf
GB-T 27912-2011 金融服务 生物特征识别 安全框架.pdf
DB32-T 3514.8-2019 电子政务外网建设规范 第8部分:运维服务 江苏省.pdf
DB37-T 4381—2021 高速公路服务区设计规范 山东省.pdf
T-JSSES 24—2022 陶粒窑协同处置污染土壤技术指南.pdf
DB52-T 826-2013 硬阔二元立木材积表 贵州省.pdf
GM-T 0099-2020 开放式版式文档密码应用技术规范.pdf
CSA CSA GCR 2021零信任落地案例集.pdf
GB-T 25745-2010 铸造铝合金热处理.pdf
GB-T 20147.3-2023 色度学 第3部分:CIE三刺激值.pdf
电力行业网络安全等级保护管理办法 修订征求意见稿 .pdf
DB11-T 1854-2021 公共建筑室内照明系统节能监测 北京市.pdf
GB-T 1456-2021 夹层结构弯曲性能试验方法.pdf
T-CASME 661—2023 绿色建筑节能设计技术文件编制规范.pdf
T-CI 102—2022 辛酸亚锡.pdf
NB-T 10857-2021 水电工程合理使用年限及耐久性设计规范.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(649.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。