专利基于item2vec和向量聚类的实时推荐方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210246577.5 (22)申请日 2022.03.14 (71)申请人三江学院地址 210012 江苏省南京市雨花台区龙西路310号 (72)发明人许良武　曹阳　李菲　李晓明　 (74)专利代理机构南京天翼专利代理有限责任公司 321 12 专利代理师钱新园 (51)Int.Cl. G06F 16/9035(2019.01) G06F 16/906(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06Q 30/06(2012.01) (54)发明名称基于item2vec和向量聚类的实时推荐方法 (57)摘要本发明公开了一种基于item2vec和向量聚类的实时推荐方法，本发明通过用户的行为序列，离线训练item2vec模型获得物品的 Embedding向量，近线计算通过用户近期行为结合物品向量生成用户向量，在实时计算中根据用户向量计算与物品向量之间的相似度进行物品推荐，向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度，最终实现快速实时推荐，挖掘推荐的深层次语义关联，精准捕获用户兴趣转换，提升用户的粘度。权利要求书1页说明书6页附图3页 CN 114610960 A 2022.06.10 CN 114610960 A 1.一种基于item2vec和向量聚类的实时推荐方法，其特征在于，包括： item2vec算法模型训练获得物品向量：根据用户的行为数据，构建用户行为序列，通过 item2vec算法模型训练获得物品向量并保存在另设的物品向量库中；近线层用户向量计算：接入用户的点击或浏览行为日志实时消息流kafka，保存用户的近期行为序列；将近期的行为记录序列取出，在物品向量库中检索到物品向量，按照公式 , 通过物品向量加权平均计算得到用户向量并保存在另设的用户向量库中，其中，为从当前时间往前数第i物品的物品向量， n为最近浏览的物品数量， α 为时间衰减因子，取值为0‑1之间的小数；物品向量聚类：设定每个类别物品数量的范围，从而确定物品向量聚类的类别数量；设定每一类别的初始聚类中心点，通过kmeans聚类算法进行迭代计算获得每个物品向量所属的类别划分，同时获得每个类别的聚类中心向量，将类别标识写入到另设的物品向量聚类库中；实时推荐：在用户请求的实施推荐接口中，根据用户ID读取用户向量，根据用户向量对物品向量进行检索，检索时，采用两级检索机制加快检索效率，首先根据用户向量与物品向量各聚类中心向量的相似度确定最接近的一个或多个物品聚类，并在检索到的聚类中进一步检索物品向量；将检索结果按相似度进行倒排序，按照召回数量截取相似度最高物品列表形成推荐召回结果集。 2.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，在构建用户行为序列时，根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为序列。 3.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，在 item2vec模型训练过程中，设定稠密向量的维度k，训练数据集每行是一个用户喜欢的物品有序数据集，训练获得的物品向量进行标准化处理，使得标准化后的向量长度为1。 4.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于， α具体取值根据实验确定，借助AB实验结合CTR/ CVR指标来选择相对优选值。 5.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，设定每个类别物品数量的范围时，分别设定每个类别物品数量的最大值Nmax以及最小值Nmin，物品向量聚类的类别数量M为物品向量的规模除以(Nmax+Nmi n)/2。 6.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，设定每一类别的初始聚类中心点时，初始聚类中心点设定规则为：首先所有样本中最靠近中心的样本点作为第一个类别的初始聚类中心点，然后选择距离第一个初始聚类中心点最远的样本点作为第二个类别的初始聚类中心点，然后再选择距离前两个聚类中心点最短距离最大的点作为第三个初始聚类中心点，以此类推，直至选出所有聚类的初始类聚类中心点。 7.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，用户向量与物品向量聚类中心点计算相似度的过程，利用多核并行矩阵运算加快检索速度。权　利　要　求　书 1/1 页 2 CN 114610960 A 2基于item2v ec和向量聚类的实时推荐方法技术领域 [0001]本发明涉及大数据智能推荐技术领域，特别涉及一种基于it em2vec和向量聚类的实时推荐方法。背景技术 [0002]随着信息爆炸时代的到来，对于数以亿计的用户和百万甚至更高数量级的物品，如何快速并准确地把握住用户兴趣的转移，给用户推荐感兴趣的内容，对于电商、资讯等平台而言至关重要。发明内容 [0003]本发明提供了一种基于item2vec和向量聚类的实时推荐方法，本发明通过用户的行为序列，离线训练item2v ec模型获得物品的Embedding向量，近线计算通过用户近期行为结合物品向量生成用户向量，在实时计算中根据用户向量计算与物品向量之间的相似度进行物品推荐，向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度，最终实现快速实时推荐，挖掘推荐的深层次语义关联，精准捕获用户兴趣转换，提升用户的粘度。 [0004]本发明的上述目的是通过以下技术方案实现的，一种基于it em2vec和向量聚类的实时推荐方法，其特征在于，包括： item2vec算法模型训练获得物品向量：根据用户的行为数据，构建用户行为序列，通过item2vec算法模型训练获得物品向量并保存在另设的物品向量库中；近线层用户向量计算：接入用户的点击或浏览行为日志实时消息流kafka，保存用户的近期行为序列；将近期的行为记录序列取出，在物品向量库中检索到物品向量，按照公式 , 通过物品向量加权平均计算得到用户向量并保存在另设的用户向量库中，其中，为从当前时间往前数第i物品的物品向量， n为最近浏览的物品数量， α 为时间衰减因子，取值为0‑1之间的小数；物品向量聚类：设定每个类别物品数量的范围，从而确定物品向量聚类的类别数量；设定每一类别的初始聚类中心点，通过kmeans聚类算法进行迭代计算获得每个物品向量所属的类别划分，同时获得每个类别的聚类中心向量，将类别标识写入到另设的物品向量聚类库中；实时推荐：在用户请求的实施推荐接口中，根据用户ID读取用户向量，根据用户向量对物品向量进行检索，检索时，首先根据用户向量与物品向量各聚类中心向量的相似度确定最接近的一个或多个物品聚类，并在检索到的聚类中进一步检索物品向量；将检索结果按相似度进行倒排序，按照召回数量截取相似度最高物品列表形成推荐召回结果集。 [0005]进一步的，在构建用户行为序列时，根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为序列。 [0006]进一步的，在item2vec模型训练过程中，设定稠密向量的维度k，训练数据集每行说　明　书 1/6 页 3 CN 114610960 A 3

专利 基于item2vec和向量聚类的实时推荐方法

专利基于item2vec和向量聚类的实时推荐方法