(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211118887.5 (22)申请日 2022.09.13 (71)申请人 华润数字科技有限公司 地址 518000 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园2栋801 (72)发明人 王树新 马欣  (74)专利代理 机构 深圳市精英专利事务所 44242 专利代理师 戴艳艳 (51)Int.Cl. G06Q 30/06(2012.01) G06F 16/9535(2019.01) (54)发明名称 基于强化学习的商品推荐方法、 装置、 设备 及存储介质 (57)摘要 本申请涉及一种基于强化学习的商品推荐 方法、 装置、 设备及存储介质, 其中方法包括获取 用户的商品购买订单, 构建商品列表; 针对商品 列表中的任一商品, 确定商品的购买动作, 并计 算购买动作的初始价值和初始购买概率, 当计算 完成时, 得到商品列表中每一商品对应的初始价 值和初始购买概率; 随机获取商品列表中的一个 商品, 作为初始商品, 计算初始商品的回报, 并基 于回报对初始商品更新计算, 得到初始商品的购 买价值; 按照前一购买价值作为 当前商品的计算 基数, 循环计算商品列表中所有商品的购买价 值, 得到目标购买价值集; 基于目标购买价值集, 将待推荐商品推荐给用户。 本发 明根据各个商品 间的联系, 精准计算商品购买价值, 提高商品推 荐的效率。 权利要求书2页 说明书10页 附图4页 CN 115375410 A 2022.11.22 CN 115375410 A 1.一种基于强化学习的商品推荐方法, 其特 征在于, 包括: 获取用户的商品购买订单, 并构建所述商品购买订单对应的商品列表; 针对所述商品列表中的任一商品, 确定所述商品的购买动作, 并计算所述购买动作的 初始价值和初始购买概率, 当所述商品列表中的所有商品计算完成时, 得到所述商品列表 中每一商品对应的初始价 值和初始购买概 率; 随机获取所述商品列表中的一个商品, 作为初始商品, 并基于所述初始价值和所述初 始购买概率, 计算所述初始商品的回报, 并基于所述回报对所述初始商品的购买价值进行 更新计算, 得到所述初始商品的购买价 值; 按照前一所述购买价值作为当前商品的计算基数, 循环计算所述商 品列表中所有商品 的购买价 值, 得到目标购买价 值集; 基于所述目标购买价 值集, 确定待推荐 商品, 并将所述待推荐 商品推荐给 所述用户。 2.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述针对所述商 品列表中的任一商品, 确定所述商品的购买动作, 并计算所述购买动作的初始价值和初始 购买概率, 当所述商品列表中的所有商品计算完成时, 得到所述商品列表中每一商品对应 的初始价 值和初始购买概 率, 包括: 针对所述商品列表中的任一商品, 获取预设的行动策略, 并基于所述行动策略, 确定所 述商品的购买动作; 采用贝尔曼方程的计算方式, 计算所述购买动作的初始价值, 并基于所述初始价值, 计 算所述购买动作的初始购买概 率; 当所述商 品列表中的所有商品计算完成时, 得到所述商品列表中每一商 品对应的所述 初始价值和所述初始购买概 率, 并记录循环计算次数。 3.根据权利要求2所述的基于强化学习的商品推荐方法, 其特征在于, 所述采用贝尔曼 方程的计算方式, 计算所述购买动作的初始价值, 并基于所述初始 价值, 计算所述购买动作 的初始购买概 率之后, 所述方法还 包括: 将所述初始购买概 率与所述预设的行动策略进行相除处 理, 得到当前采样程度; 获取所述商品列表中的下一商品, 并对所述下一商品进行价 值和购买概 率计算。 4.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述随机获取所 述商品列表中的一个商品, 作为初始商品, 并基于所述初始 价值和所述初始购买概率, 计算 所述初始商品的回报, 并基于所述回报对所述初始商品的购买价值进行更新计算, 得到所 述初始商品的购买价 值, 包括: 随机获取 所述商品列表中的一个商品, 作为所述初始商品; 获取所述初始商 品对应的购买动作、 初始价值以及初始购买概率, 作为基础购买动作、 基础价值以及基础 购买概率; 获取预置价值, 并基于所述预置价值、 所述基础购买动作、 所述基础价值以及所述基础 购买概率, 计算所述初始商品的回报; 基于所述回报与所述预置价值, 对所述初始商品的购买价值进行更新计算, 得到所述 初始商品的购买价 值。 5.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述按照前一所 述购买价值作为当前商品的计算基数, 循环计算所述商品列表中所有商品的购买价值, 得权 利 要 求 书 1/2 页 2 CN 115375410 A 2到目标购买价 值集, 包括: 获取所述当前商 品对应的购买动作、 初始价值以及初始购买概率, 作为当前购买动作、 当前价值以及当前购买概 率; 按照前一所述购买价值作为当前商品的计算基数, 并基于所述当前购买动作、 所述当 前价值以及所述当前购买概 率, 计算当前商品的回报; 基于所述计算基数与所述当前商品的回报, 计算当前商品的购买价值, 当所述商品列 表中的所有 商品的购买价 值计算完成时, 得到所述目标购买价 值集。 6.根据权利要求1所述的基于强化学习的商品推荐方法, 其特征在于, 所述基于所述目 标购买价 值集, 确定待推荐 商品, 并将所述待推荐 商品推荐给 所述用户, 包括: 按照数值大小的顺序, 将所述目标购买价值集中的目标购买价值进行排列, 得到购买 价值排列; 从所述购买价 值排列中获取 预设推荐数量的目标购买价 值, 作为待推荐购买价 值; 获取所述待推荐购买价值对应的商品, 得到所述待推荐商品, 并将所述待推荐商品推 荐给所述用户。 7.根据权利要求1至6任一项所述的基于强化学习的商品推荐方法, 其特征在于, 所述 获取用户的商品购买订单, 并构建所述商品购买订单对应的商品列表, 包括: 获取所述用户的商品购买订单; 识别出所述商品购买订单中的商品, 得到多个所述商品; 构建多个所述商品进行列表构建处 理, 得到所述商品列表。 8.一种基于强化学习的商品推荐装置, 其特 征在于, 包括: 商品购买订单获取模块, 用于获取用户的商品购买订单, 并构建所述商品购买订单对 应的商品列表; 初始购买概率计算模块, 用于针对所述商品列表中的任一商品, 确定所述商品的购买 动作, 并计算所述购买动作的初始价值和初始购买概率, 当所述商品列表中的所有商品计 算完成时, 得到所述商品列表中每一商品对应的初始价 值和初始购买概 率; 购买价值计算模块, 用于随机获取所述商品列表中的一个商 品, 作为初始商品, 并基于 所述初始价值和所述初始购买概率, 计算所述初始商品的回报, 并基于回报对所述初始商 品的购买价 值进行更新计算, 得到所述初始商品的购买价 值; 目标购买价值集生成模块, 用于按照前一所述购买价值作为当前商品的计算基数, 循 环计算所述商品列表中所有 商品的购买价 值, 得到目标购买价 值集; 待推荐商品推荐模块, 用于基于所述目标购买价值集, 确定待推荐商品, 并将所述待推 荐商品推荐给 所述用户。 9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机程 序, 所述处理器执行所述计算机程序时实现如权利要求 1至7中任一项 所述的基于强化学习 的商品推荐方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7中任一项 所述的基于强化学习 的商品推荐方法。权 利 要 求 书 2/2 页 3 CN 115375410 A 3

.PDF文档 专利 基于强化学习的商品推荐方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的商品推荐方法、装置、设备及存储介质 第 1 页 专利 基于强化学习的商品推荐方法、装置、设备及存储介质 第 2 页 专利 基于强化学习的商品推荐方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:35:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。