(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211118887.5
(22)申请日 2022.09.13
(71)申请人 华润数字科技有限公司
地址 518000 广东省深圳市福田区梅林街
道梅都社区中康路136号深圳新一代
产业园2栋801
(72)发明人 王树新 马欣
(74)专利代理 机构 深圳市精英专利事务所
44242
专利代理师 戴艳艳
(51)Int.Cl.
G06Q 30/06(2012.01)
G06F 16/9535(2019.01)
(54)发明名称
基于强化学习的商品推荐方法、 装置、 设备
及存储介质
(57)摘要
本申请涉及一种基于强化学习的商品推荐
方法、 装置、 设备及存储介质, 其中方法包括获取
用户的商品购买订单, 构建商品列表; 针对商品
列表中的任一商品, 确定商品的购买动作, 并计
算购买动作的初始价值和初始购买概率, 当计算
完成时, 得到商品列表中每一商品对应的初始价
值和初始购买概率; 随机获取商品列表中的一个
商品, 作为初始商品, 计算初始商品的回报, 并基
于回报对初始商品更新计算, 得到初始商品的购
买价值; 按照前一购买价值作为 当前商品的计算
基数, 循环计算商品列表中所有商品的购买价
值, 得到目标购买价值集; 基于目标购买价值集,
将待推荐商品推荐给用户。 本发 明根据各个商品
间的联系, 精准计算商品购买价值, 提高商品推
荐的效率。
权利要求书2页 说明书10页 附图4页
CN 115375410 A
2022.11.22
CN 115375410 A
1.一种基于强化学习的商品推荐方法, 其特 征在于, 包括:
获取用户的商品购买订单, 并构建所述商品购买订单对应的商品列表;
针对所述商品列表中的任一商品, 确定所述商品的购买动作, 并计算所述购买动作的
初始价值和初始购买概率, 当所述商品列表中的所有商品计算完成时, 得到所述商品列表
中每一商品对应的初始价 值和初始购买概 率;
随机获取所述商品列表中的一个商品, 作为初始商品, 并基于所述初始价值和所述初
始购买概率, 计算所述初始商品的回报, 并基于所述回报对所述初始商品的购买价值进行
更新计算, 得到所述初始商品的购买价 值;
按照前一所述购买价值作为当前商品的计算基数, 循环计算所述商 品列表中所有商品
的购买价 值, 得到目标购买价 值集;
基于所述目标购买价 值集, 确定待推荐 商品, 并将所述待推荐 商品推荐给 所述用户。
2.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述针对所述商
品列表中的任一商品, 确定所述商品的购买动作, 并计算所述购买动作的初始价值和初始
购买概率, 当所述商品列表中的所有商品计算完成时, 得到所述商品列表中每一商品对应
的初始价 值和初始购买概 率, 包括:
针对所述商品列表中的任一商品, 获取预设的行动策略, 并基于所述行动策略, 确定所
述商品的购买动作;
采用贝尔曼方程的计算方式, 计算所述购买动作的初始价值, 并基于所述初始价值, 计
算所述购买动作的初始购买概 率;
当所述商 品列表中的所有商品计算完成时, 得到所述商品列表中每一商 品对应的所述
初始价值和所述初始购买概 率, 并记录循环计算次数。
3.根据权利要求2所述的基于强化学习的商品推荐方法, 其特征在于, 所述采用贝尔曼
方程的计算方式, 计算所述购买动作的初始价值, 并基于所述初始 价值, 计算所述购买动作
的初始购买概 率之后, 所述方法还 包括:
将所述初始购买概 率与所述预设的行动策略进行相除处 理, 得到当前采样程度;
获取所述商品列表中的下一商品, 并对所述下一商品进行价 值和购买概 率计算。
4.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述随机获取所
述商品列表中的一个商品, 作为初始商品, 并基于所述初始 价值和所述初始购买概率, 计算
所述初始商品的回报, 并基于所述回报对所述初始商品的购买价值进行更新计算, 得到所
述初始商品的购买价 值, 包括:
随机获取 所述商品列表中的一个商品, 作为所述初始商品;
获取所述初始商 品对应的购买动作、 初始价值以及初始购买概率, 作为基础购买动作、
基础价值以及基础 购买概率;
获取预置价值, 并基于所述预置价值、 所述基础购买动作、 所述基础价值以及所述基础
购买概率, 计算所述初始商品的回报;
基于所述回报与所述预置价值, 对所述初始商品的购买价值进行更新计算, 得到所述
初始商品的购买价 值。
5.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述按照前一所
述购买价值作为当前商品的计算基数, 循环计算所述商品列表中所有商品的购买价值, 得权 利 要 求 书 1/2 页
2
CN 115375410 A
2到目标购买价 值集, 包括:
获取所述当前商 品对应的购买动作、 初始价值以及初始购买概率, 作为当前购买动作、
当前价值以及当前购买概 率;
按照前一所述购买价值作为当前商品的计算基数, 并基于所述当前购买动作、 所述当
前价值以及所述当前购买概 率, 计算当前商品的回报;
基于所述计算基数与所述当前商品的回报, 计算当前商品的购买价值, 当所述商品列
表中的所有 商品的购买价 值计算完成时, 得到所述目标购买价 值集。
6.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述基于所述目
标购买价 值集, 确定待推荐 商品, 并将所述待推荐 商品推荐给 所述用户, 包括:
按照数值大小的顺序, 将所述目标购买价值集中的目标购买价值进行排列, 得到购买
价值排列;
从所述购买价 值排列中获取 预设推荐数量的目标购买价 值, 作为待推荐购买价 值;
获取所述待推荐购买价值对应的商品, 得到所述待推荐商品, 并将所述待推荐商品推
荐给所述用户。
7.根据权利要求1至6任一项所述的基于强化学习的商品推荐方法, 其特征在于, 所述
获取用户的商品购买订单, 并构建所述商品购买订单对应的商品列表, 包括:
获取所述用户的商品购买订单;
识别出所述商品购买订单中的商品, 得到多个所述商品;
构建多个所述商品进行列表构建处 理, 得到所述商品列表。
8.一种基于强化学习的商品推荐装置, 其特 征在于, 包括:
商品购买订单获取模块, 用于获取用户的商品购买订单, 并构建所述商品购买订单对
应的商品列表;
初始购买概率计算模块, 用于针对所述商品列表中的任一商品, 确定所述商品的购买
动作, 并计算所述购买动作的初始价值和初始购买概率, 当所述商品列表中的所有商品计
算完成时, 得到所述商品列表中每一商品对应的初始价 值和初始购买概 率;
购买价值计算模块, 用于随机获取所述商品列表中的一个商 品, 作为初始商品, 并基于
所述初始价值和所述初始购买概率, 计算所述初始商品的回报, 并基于回报对所述初始商
品的购买价 值进行更新计算, 得到所述初始商品的购买价 值;
目标购买价值集生成模块, 用于按照前一所述购买价值作为当前商品的计算基数, 循
环计算所述商品列表中所有 商品的购买价 值, 得到目标购买价 值集;
待推荐商品推荐模块, 用于基于所述目标购买价值集, 确定待推荐商品, 并将所述待推
荐商品推荐给 所述用户。
9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机程
序, 所述处理器执行所述计算机程序时实现如权利要求 1至7中任一项 所述的基于强化学习
的商品推荐方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机
程序, 所述计算机程序被处理器执行时实现如权利要求 1至7中任一项 所述的基于强化学习
的商品推荐方法。权 利 要 求 书 2/2 页
3
CN 115375410 A
3
专利 基于强化学习的商品推荐方法、装置、设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:35:49上传分享