(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210950905.X
(22)申请日 2022.08.09
(71)申请人 浙大城市学院
地址 310000 浙江省杭州市拱 墅区湖州街
51号
(72)发明人 石龙翔 林承毅 张犁 李石坚
吴明晖
(74)专利代理 机构 浙江杭州金通专利事务所有
限公司 3 3100
专利代理师 刘晓春
(51)Int.Cl.
G06F 16/9535(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于构建高计算效率的深度强化学习推荐
系统的推荐方法
(57)摘要
本发明提供了一种基于构建高计算效率的
深度强化学习推荐系统的推荐方法, 包括以下步
骤: 步骤S1, 采用马尔可夫决策过程对推荐系统
建模; 步骤S2, 根据所有用户的历史记录, 建立U
行M列的用户评分矩阵, 并通过矩阵分解获得用
户与推荐系统交互的状态表征用户特征矩阵X和
项目特征矩阵Y; 步骤S3, 对推荐系统的推荐策略
进行建模与学习训练, 其中所述推荐策略采用神
经网络进行表征, 且神经网络输出层采用稀 疏矩
阵进行参数建模; 步骤S4, 推荐系统部署, 利用训
练好的推荐策略, 根据用户的历史数据进行项目
推荐。 本发 明通过改善深度强化学习中神经网络
的输出层, 减小计算复杂 度, 提升了学习的效率,
帮助解决了在巨大的离 散动作空间中的学习。
权利要求书1页 说明书5页 附图1页
CN 115455279 A
2022.12.09
CN 115455279 A
1.基于构建高计算效率的深度强化学习推荐系统的推荐方法, 其特征在于包括以下步
骤:
步骤S1, 采用马尔可 夫决策过程对推荐系统建模;
步骤S2, 根据所有用户的历史记录的时序数据, 建立U行M列的用户评分矩阵, 并通过矩
阵分解获得用户与推荐系统 交互的状态 表征用户特 征矩阵X和项目特 征矩阵Y;
步骤S3, 对推荐系统的推荐策略进行建模与学习训练, 其中所述推荐策略采用神经网
络进行表征, 且神经网络 输出层采用稀疏矩阵进行参数建模;
步骤S4, 推荐系统部署, 利用训练好的推荐策略, 根据用户的当前浏览的时序 数据进行
项目推荐。
2.根据权利要求1所述的方法, 其特征在于, 步骤S1中采用的马尔可夫决策过程通过<
S,A,P,R>, 其中, S为状态 集合, A为用户可选择的项目集合, 在t时刻下用户选择的项目记为
at, P(st+1|st,at)为状态转移函数, R(st+1|st,at)为回报函数。
3.根据权利要求1所述的方法, 其特征在于, 步骤S2包括的用户评分矩阵, 其中, U为用
户的总数, M为推荐项目的总数, 用户评 分矩阵的第i行第 j列表示第i个用户对第 j个项目的
评分, 如果用户没有评价过 该项目则评分 设为0。
4.根据权利要求1所述的方法, 其特征在于, 步骤S2包括的用户特征矩阵X和项目特征
矩阵Y通过Funk奇异值矩阵分解(Funk ’s SVD)的矩阵分解方法分解, 其中, 用户特征矩阵X
为U行V列, 项目特征矩阵Y为M行V列, 用用户特征矩阵X的每一行作为每个用户的特征向量,
用项目特 征矩阵Y的每一行作为每 个项目的特 征向量。
5.根据权利要求1、 3或4所述的方法, 其特征在于, 步骤S2中采用双向循环神经网络对
用户的历史行为进行建模, 根据正向和反向的循环神经网络输出, 与所述步骤S2中用户本
身的特征进行整合, 作为推荐系统的状态输入。
6.根据权利要求1所述的方法, 其特征在于, 步骤S3中, 神经网络的输入层前面有若干
全连接层来建模推荐策略。
7.根据权利要求1所述的方法, 其特征在于, 步骤S3使用蒙特卡洛策略梯度算法
(REINFORCE), 根据用户与推荐系统的交 互数据以及 梯度下降定理, 对推荐策略进行 学习。
8.根据权利 要求1、 5或7所述的方法, 其特征在于, 步骤S3中, 推荐策略神经网络接收步
骤S2提供的状态作为输入, 输出层输出每 个项目的推荐概 率。
9.根据权利 要求1、 5或7所述的方法, 其特征在于, 步骤S3中, 所述稀疏矩阵通过根据推
荐系统中所有项目的用户选择频次对每个项目进 行排序并分类, 并对低频次的项目分配较
多的训练参数, 对高频次的项目分配 较少的训练参数构建。
10.根据权利要求1、 5或7所述的方法, 其特征在于, 步骤S3的推荐策略输出的项目推荐
概率为采用上述稀疏矩阵作为 参数的softmax网络 输出。权 利 要 求 书 1/1 页
2
CN 115455279 A
2基于构建高计算 效率的深度强化学习推荐系统的推荐方 法
技术领域
[0001]本发明涉及 一种基于构建高计算效率的深度强化学习推荐系统的推荐方法, 属于
大数据人工智能领域, 尤其 适用于推荐条目巨大的应用场景。
背景技术
[0002]推荐系统在网络生活中发挥着至关重要的作用, 其主要目的是根据用户的历史数
据向用户推荐可能所需的项目。 传统的推荐系统方法有协同过滤、 矩阵分解和基于内容的
排序等。 然而, 这些算法都预先假设用户的偏好在整个过程中保持不变, 其推荐 结果往往难
以让用户满意。 最近的一些研究表明, 将 推荐系统建模为一个强化学习问题, 通过最大化用
户未来可能给出 的总评分作为优化 目标, 可以有效地对用户的偏好进行动态建模, 提升推
荐系统的表现与性能。
[0003]然而, 在实际应用中, 推荐系统中推荐的项 目个数往往非常巨大。 例如, 在电影推
荐系统中, 可推荐的电影有百万部以上; 在 线商品推荐系统中, 可推荐的商品项目往往数以
亿计。 利用强化学习方法解决时, 面对这种海量决策空间, 如何对用户历史行为进 行建模是
提升推荐性能的一个关键因素。 同时, 这种巨大的决策 空间会造成学习和决策效率低下, 影
响了强化学习方法的落 地。
发明内容
[0004]本发明的目的是提供一种基于构建高计算效率的深度强化学习推荐系统的推荐
方法, 通过将深度强化学习中的神经网络的参数大规模的降低, 减少在巨大离散空间中的
决策时间, 并提升其学习和决策的效率。
[0005]为了达到上述目的, 本发明通过以下的技 术方案来实现:
[0006]一种基于构建高计算效率的深度强化学习推荐系统的推荐方法, 其特征在于包括
以下步骤:
[0007]步骤S1, 采用马尔可 夫决策过程对推荐系统建模;
[0008]步骤S2, 根据所有用户的历史记录的时序数据, 建立U行M列的用户评分矩阵, 并通
过矩阵分解获得用户与推荐系统 交互的状态 表征用户特 征矩阵X和项目特 征矩阵Y;
[0009]步骤S3, 对推荐系统的推荐策略进行建模与学习训练, 其中所述推荐策略采用神
经网络进行表征, 且神经网络 输出层采用稀疏矩阵进行参数建模;
[0010]步骤S4, 利用训练好的推荐策略, 根据用户的历史浏览记录的时序数据((选取当
前选择前的时序数据, 比如过去一段时间看过哪些条目), 利用S2)所述状态构建方法, 得到
用户行为表征, 把行为表征输入到训练好的推荐 策略神经网络中, 计算得到输出, 根据输出
进行项目推荐。
[0011]在采用上述技术方案 的基础上, 本发明还可采用以下进一步的技术方案, 或对这
些进一步的技术方案组合使用:
[0012]步骤S1中采用的马尔可夫决策过程通过<S,A,P,R>, 其中, S 为状态集合, 即用户与说 明 书 1/5 页
3
CN 115455279 A
3
专利 基于构建高计算效率的深度强化学习推荐系统的推荐方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:35:55上传分享