(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210246577.5
(22)申请日 2022.03.14
(71)申请人 三江学院
地址 210012 江苏省南京市雨 花台区龙西
路310号
(72)发明人 许良武 曹阳 李菲 李晓明
(74)专利代理 机构 南京天翼专利代理有限责任
公司 321 12
专利代理师 钱新园
(51)Int.Cl.
G06F 16/9035(2019.01)
G06F 16/906(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06Q 30/06(2012.01)
(54)发明名称
基于item2vec和向量聚类的实时推荐方法
(57)摘要
本发明公开了一种基于item2vec和向量聚
类的实时推荐方法, 本发明通过用户的行为序
列, 离线训练item2vec模型获得物品的
Embedding向量, 近线计算通过用户近期行为结
合物品向量生成用户向量, 在实时计算中根据用
户向量计算与物品向量之间的相似度进行物品
推荐, 向量相似计算过程中首先对物品向量进行
聚类以加快向量检索速度, 最终实现快速实时推
荐, 挖掘推荐的深层次语义关联, 精准捕获用户
兴趣转换, 提升用户的粘度。
权利要求书1页 说明书6页 附图3页
CN 114610960 A
2022.06.10
CN 114610960 A
1.一种基于item2vec和向量聚类的实时推荐方法, 其特 征在于, 包括:
item2vec算法模型训练获得物品向量: 根据用户的行为数据, 构建用户行为序列, 通过
item2vec算法模型训练获得物品向量并保存在另设的物品向量库中;
近线层用户向量计算: 接入用户的点击或浏览行为日志实时消息流kafka, 保存用户的
近期行为序列; 将近期的行为记录序列取出, 在物品向量库中检索到物品向量, 按照公式
, 通过物品向量加权平均计算得到用户向量并保存在另设的用户向
量库中, 其中,
为从当前时间往前数第i物品的物品 向量, n为最近浏览的物品数量, α 为时
间衰减因子, 取值 为0‑1之间的小数;
物品向量聚类: 设定每个类别物品数量的范围, 从而确定物品向量聚类的类别数量; 设
定每一类别的初始聚类中心 点, 通过kmeans聚类算法进 行迭代计算 获得每个物品向量所属
的类别划分, 同时获得每个类别的聚类中心向量, 将类别标识写入到另设的物品向量聚类
库中;
实时推荐: 在用户请求的实施推荐接口中, 根据用户ID读取用户向量, 根据用户向量对
物品向量进 行检索, 检索时, 采用两级检索机制加快检索效率, 首先根据用户向量与物品向
量各聚类中心向量的相似度确定最接近的一个或多个物品聚类, 并在检索到的聚类中进一
步检索物品向量; 将检索结果按相似度进行倒排序, 按照召回数量截取相似度最高物品列
表形成推荐召回结果 集。
2.根据权利 要求1所述的基于item2vec和向量聚类的实时推荐方法, 其特征在于, 在构
建用户行为序列时, 根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为
序列。
3.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法, 其特征在于, 在
item2vec模型训练过程中, 设定稠密向量的维度k, 训练数据集每行是一个用户喜欢的物品
有序数据集, 训练获得的物品向量进行 标准化处理, 使得标准化后的向量长度为1。
4.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法, 其特征在于, α具
体取值根据实验确定, 借助AB实验结合CTR/ CVR指标来选择相对 优选值。
5.根据权利 要求1所述的基于item2vec和向量聚类的实时推荐方法, 其特征在于, 设定
每个类别物品数量的范围时, 分别设定每个类别物品数量的最大值Nmax以及最小值Nmin,
物品向量聚类的类别数量M为物品向量的规模除以(Nmax+Nmi n)/2。
6.根据权利 要求1所述的基于item2vec和向量聚类的实时推荐方法, 其特征在于, 设定
每一类别的初始聚类中心点时, 初始聚类中心点设定规则为: 首先所有样本中最靠近中心
的样本点作为第一个类别的初始聚类中心点, 然后选择距离第一个初始聚类中心点最远的
样本点作为第二个类别的初始聚类中心 点, 然后再选择距离前两个聚类中心 点最短距离最
大的点作为第三个初始聚类中心点, 以此类 推, 直至选出所有聚类的初始类聚类中心点。
7.根据权利 要求1所述的基于item2vec和向量聚类的实时推荐方法, 其特征在于, 用户
向量与物品向量聚类中心点计算相似度的过程, 利用多 核并行矩阵运 算加快检索速度。权 利 要 求 书 1/1 页
2
CN 114610960 A
2基于item2v ec和向量聚类的实时推荐方 法
技术领域
[0001]本发明涉及大数据智能推荐技术领域, 特别涉及一种基于it em2vec和向量聚类的
实时推荐方法。
背景技术
[0002]随着信息爆炸时代的到来, 对于数以亿计 的用户和百万甚至更高数量级的物品,
如何快速并准确地把握住用户兴趣的转移, 给用户推荐感兴趣的内容, 对于电商、 资讯等平
台而言至关重要。
发明内容
[0003]本发明提供了一种基于item2vec和向量聚类的实时推荐方法, 本 发明通过用户的
行为序列, 离线训练item2v ec模型获得物品的Embedding向量, 近线计算通过用户近期行为
结合物品向量生成用户向量, 在实时计算中根据用户向量计算与 物品向量之间的相似度进
行物品推荐, 向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度, 最终实
现快速实时推荐, 挖掘推荐的深层次语义关联, 精准捕获用户兴趣转换, 提升用户的粘度。
[0004]本发明的上述目的是通过以下技术方案实现的, 一种基于it em2vec和向量聚类的
实时推荐方法, 其特 征在于, 包括:
item2vec算法模型训练获得物品 向量: 根据用户的行为数据, 构建用户行为序列,
通过item2vec算法模型训练获得物品向量并保存在另设的物品向量库中;
近线层用户向量计算: 接入用户的点击 或浏览行为日志实 时消息流kafka, 保存用
户的近期行为序列; 将近期的行为记录序列取出, 在物品向量库中检索到物品向量, 按照公
式
, 通过物品向量加权平均计算得到用户向量并保存在另设的用户
向量库中, 其中,
为从当前时间往前数第i物品的物品 向量, n为最近浏览的物品数量, α 为
时间衰减因子, 取值 为0‑1之间的小数;
物品向量聚类: 设定每个类别物品数量的范围, 从而确定物品向量聚类的类别数
量; 设定每一类别的初始聚类中心点, 通过kmeans聚类算法进行迭代计算获得每个物品向
量所属的类别划分, 同时获得每个类别的聚类中心向量, 将类别标识写入到另设的物品向
量聚类库中;
实时推荐: 在用户请求的实施推荐接口中, 根据用户ID读取用户向量, 根据用户向
量对物品向量进行检索, 检索时, 首先根据用户向量与物品向量各聚类中心向量的相似度
确定最接近的一个或多个物品聚类, 并在检索到的聚类中进一步检索物品向量; 将检索结
果按相似度进行倒排序, 按照召回数量截取相似度最高物品列表形成推荐召回结果 集。
[0005]进一步的, 在构建用户行为序列时, 根据用户在物品上所花费时间选择用户真正
喜欢的物品作为用户行为序列。
[0006]进一步的, 在item2vec模型训练过程中, 设定稠密向量的维度k, 训练数据集每行说 明 书 1/6 页
3
CN 114610960 A
3
专利 基于item2vec和向量聚类的实时推荐方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:38上传分享