(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210398108.5 (22)申请日 2022.04.13 (71)申请人 广州欢聚时代信息科技有限公司 地址 511442 广东省广州市番禺区南村镇 万达广场B-1栋24层 (72)发明人 黄丕帅  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/237(2020.01) G06F 40/30(2020.01) G06Q 30/06(2012.01) G06F 16/33(2019.01) (54)发明名称 产品词处 理方法及其装置、 设备、 介质、 产品 (57)摘要 本申请公开一种产品词处理方法及其装置、 设备、 介质、 产品, 所述方法包括: 将商品标题进 行分词处理, 获得有序的多个分词, 构成分词序 列; 计算各个 分词的语义特征向量与所述商品标 题的语义特征向量之间的数据距离, 相应作为各 个分词的相似分值; 根据命中预设产品词典中的 词元的分词在所述分词序列中的排序信息, 量化 确定其排序分值; 将综合分值最高的分词输出为 所述商品标题的产品词, 所述 综合分值为其相应 的分词的相似分值与排序分值之和。 本申请能够 便捷、 高效、 准确地从给定的商品标题中确定其 相应的产品词, 为电商平台服务于其独立站点的 商品搜索、 商品广告投放、 商品归集等下游任务 提供基础服 务, 从而提升电商平台的服 务体验。 权利要求书2页 说明书15页 附图5页 CN 114662492 A 2022.06.24 CN 114662492 A 1.一种产品词处 理方法, 其特 征在于, 包括如下步骤: 将商品标题进行分词处 理, 获得有序的多个分词, 构成分词序列; 计算各个分词的语义特征向量与 所述商品标题的语义特征向量之间的数据距离, 相应 作为各个分词的相似分值; 根据命中预设产品词典中的词元的分词在所述分词序列中的排序信 息, 量化确定其排 序分值; 将综合分值最高的分词输出为所述商 品标题的产品词, 所述综合分值为其相应的分词 的相似分值与排序分值之和。 2.根据权利要求1所述的产品词处理方法, 其特征在于, 将商品标题进行分词处理, 获 得多个分词, 构成分词序列, 包括如下步骤: 获取用户提交的商品标题; 采用预设的分词算法对该商品标题进行分词, 获得多个分词; 按照所述多个分词在所述商品标题中的顺序, 将所述多个分词构造为分词序列, 通过 所述分词在所述分词序列中的排序值表征其 排序信息 。 3.根据权利要求1所述的产品词处理方法, 其特征在于, 计算各个分词的语义特征向量 与所述商品标题的语义特征向量之间的数据距离, 相 应作为各个分词的相似分值, 包括如 下步骤: 分别对所述各个分词及所述商 品标题进行词嵌入, 获得各个分词及所述商 品标题相应 的嵌入向量; 采用已训练至收敛状态的文本特征提取模型分别对所述各个分词及所述商品标题相 应的嵌入向量进行表示学习, 获得相应的语义特 征向量; 计算每个分词的语义特征向量与 所述商品标题的语义特征向量之间的数据距离, 将该 数据距离作为该分词的相似分值。 4.根据权利要求1所述的产品词处理方法, 其特征在于, 根据命中预设产品词典中的词 元的分词在所述分词序列中的排序信息, 量 化确定其 排序分值, 包括如下步骤: 根据所述商品标题的语义特 征向量确定该商品标题相对应的商品分类; 针对每个分词, 检测其是否包含对应该商品分类预设的产品词典中的至少一个词元, 当包含该词元时, 确定该分词为命中该产品词典中的词元的可选分词; 确定所述可选分词在所述分词序列中的排序值, 将该排序值关联预设权重设置为该可 选分词相对应的排序分值。 5.根据权利要求1所述的产品词处理方法, 其特征在于, 将综合分值最高的分词输出为 所述商品标题的产品词, 包括如下步骤: 计算每个命中所述产品词典的词元的分词的相似分值和排序分值的和值, 获得该分词 的综合分值; 根据所述综合分值对命中所述产品词典的各个分词进行倒 排序, 确定其中首个分词为 所述商品标题的产品词; 输出所述的产品词。 6.根据权利要求1至5中任意一项所述的产品词处理方法, 其特征在于, 根据命中预设 产品词典中的词元的分词在所述分词序列中的排序信息的步骤之前, 包括如下步骤:权 利 要 求 书 1/2 页 2 CN 114662492 A 2从对应各个商品分类预采集的产品词中抽取出多个词元, 将其存储构造相应的商品分 类的产品词典。 7.根据权利要求1至5中任意一项所述的产品词处理方法, 其特征在于, 将综合分值最 高的分词输出为所述商品标题的产品词的步骤之后, 还 包括如下步骤: 根据所述商 品标题的产品词, 从商品数据库中检索产品词与之相一致或语义相似的目 标商品; 将所述目标商品的商品信息推送至提交所述商品标题的终端设备。 8.一种产品词处 理装置, 其特 征在于, 包括: 分词处理模块, 用于将商品标题进行分词处 理, 获得有序的多个分词, 构成分词序列; 相似分值模块, 用于计算各个分词的语义特征向量与 所述商品标题的语义特征向量之 间的数据距离, 相应作为各个分词的相似分值; 排序分值模块, 用于根据命中预设产品词典中的词元的分词在所述分词序列中的排序 信息, 量化确定其 排序分值; 用词确定模块, 用于将综合分值最高的分词输出为所述商品标题的产品词, 所述综合 分值为其相应的分词的相似分值与排序分值之和。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 10.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。权 利 要 求 书 2/2 页 3 CN 114662492 A 3

.PDF文档 专利 产品词处理方法及其装置、设备、介质、产品

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 产品词处理方法及其装置、设备、介质、产品 第 1 页 专利 产品词处理方法及其装置、设备、介质、产品 第 2 页 专利 产品词处理方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。