(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202110681586.2
(22)申请日 2021.06.18
(71)申请人 北京三快在线科技有限公司
地址 100083 北京市海淀区北四环西路9号
2106-030
(72)发明人 任昊 潘基泽 吴立薪 田雨晴
司徒陈麒 李冬辉
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 任亚娟
(51)Int.Cl.
G06Q 10/08(2012.01)
G06K 9/62(2022.01)
G06F 30/27(2020.01)
(54)发明名称
订单和运力匹配方法、 装置、 电子设备
(57)摘要
本申请公开了一种订单和运力匹配方法, 属
于计算机技术领域, 有助于提升订单和运力匹配
质量。 所述方法包括: 根据订单和运力的历史调
度数据, 初始化训练样本集合; 通过训练样本集
合训练订单与运力匹配策略函数; 通过执行当前
训练得到的订单与运力匹配策略函数, 生成当前
指派轮次下的订单和运力的匹配关系; 根据生成
的匹配关系对预设的专家匹配方案的模仿学习
结果, 对订单与运力匹配策略函数执行迭代训
练, 直至生成的当前指派轮次下的匹配 关系复现
专家匹配方案; 通过迭代训练得到的订单与运力
匹配策略函数, 对实时获取的订单和运力进行匹
配。 本方法通过融合模仿学习和强化学习, 提升
了训练得到的订单和运力匹配策略函数的匹配
打分准确度。
权利要求书2页 说明书11页 附图3页
CN 115496431 A
2022.12.20
CN 115496431 A
1.一种订单和运力匹配方法, 其特 征在于, 包括:
根据订单和运力的历史调度数据, 初始化训练样本集 合;
通过所述训练样本集 合训练订单与运力匹配策略函数;
通过执行当前训练得到的所述订单与运力匹配策略函数, 生成当前指派轮次下的订单
和运力的匹配关系;
根据当前指派轮次下的所述匹配关系 对预设的专家匹配方案的模仿学习结果, 对所述
订单与运力匹配策略函数执行迭代训练, 直至生成的当前指派轮次下的所述匹配关系复现
所述专家匹配方案;
通过迭代训练得到的所述订单与运力匹配策略函数, 对实时获取的待指派订单和候选
运力进行匹配。
2.根据权利要求1所述的方法, 其特征在于, 所述通过执行当前训练得到的所述订单与
运力匹配策略函数, 生成当前指派轮次下的订单和运力的匹配关系的步骤, 包括:
通过执行所述订单与运力匹配策略函数, 计算当前指派轮次下各订单和各运力的匹配
得分, 并根据各订单和各运力的匹配得分, 生成当前指派轮次下 的所述订单和所述运力的
匹配得分矩阵, 其中, 所述匹配得分矩阵中矩阵元素 的取值表示相 应订单和 运力的匹配得
分;
采用贪心策略寻找当前指派轮次下的各订单匹配的运力;
对于当前指派轮次下的各所述运力, 选择与所述运力匹配的所述订单中所述匹配得分
最高的订单, 作为与所述 运力匹配的订单;
根据各所述运力匹配的所述 订单, 确定当前指派轮次下的订单和运力的匹配关系。
3.根据权利要求2所述的方法, 其特征在于, 所述根据各所述运力匹配的所述订单, 确
定当前指派轮次下的订单和运力的匹配关系的步骤, 包括:
根据各所述运力匹配的所述订单, 分别确定当前指派轮次下订单和运力的候选匹配关
系;
通过所述匹配得分矩阵, 分别确定各 所述候选匹配关系的匹配得分;
确定所述匹配得分大于指定匹配得分阈值的所述候选匹配关系, 作为当前指派轮次下
确定的订单和运力的匹配关系。
4.根据权利要求1所述的方法, 其特征在于, 所述根据当前指派轮次下的所述匹配关系
对预设的专家匹配方案的模仿学习结果, 对所述订单与运力匹配策略函数执行迭代训练的
步骤之前, 还 包括:
根据订单和运力的历史数据, 通过禁忌搜索方法确定所述订单和所述运力的专家匹配
方案。
5.根据权利要求1至4任一项所述的方法, 其特征在于, 所述根据当前指派轮次下的所
述匹配关系对预设的专家匹配方案的模仿学习结果, 对所述订单与运力匹配策略函数执行
迭代训练的步骤, 包括:
通过将当前指派轮次下的所述匹配关系与 预先确定的专家匹配方案进行比对, 确定当
前指派轮次下的所述匹配关系对预 先的专家匹配方案的模仿学习结果;
响应于所述模仿学习结果指示当前指派轮次下的所述匹配关系中存在优于所述专家
匹配方案的所述匹配关系, 根据所述优于所述专家匹配方案的所述匹配关系, 对生成的当权 利 要 求 书 1/2 页
2
CN 115496431 A
2前指派轮次下的所述匹配关系进 行标注, 确定增量样本, 之后, 通过所述增量样本更新所述
训练样本集 合, 并基于更新后所述训练样本集 合迭代训练所述 订单与运力匹配策略函数;
响应于所述模仿学习结果指示当前指派轮次下的所述匹配关系中不存在优于所述专
家匹配方案的所述匹配关系, 优化所述订单与运力匹配策略函数 的模型参数, 并基于所述
训练样本集 合迭代训练所述 订单与运力匹配策略函数。
6.根据权利要求5所述的方法, 其特征在于, 所述通过将当前指派轮次下的所述匹配关
系与预先确定的专家匹配方案进 行比对, 确定 当前指派轮次下的所述匹配关系对预先的专
家匹配方案的模仿学习结果的步骤之后, 还 包括:
响应于所述模仿学习结果指示当前指派轮次下的所述匹配关系对所述专家匹配方案
的复现概 率满足预设收敛 条件, 结束所述 订单与运力匹配策略函数的迭代训练过程。
7.一种订单和运力匹配装置, 其特 征在于, 包括:
训练样本集合初始化模块, 用于根据订单和运力的历史调度数据, 初始化训练样本集
合;
策略学习模块, 用于通过 所述训练样本集 合训练订单与运力匹配策略函数;
匹配关系确定模块, 用于通过执行当前训练得到的所述订单与运力匹配策略函数, 生
成当前指派轮次下的订单和运力的匹配关系;
模仿及强化学习 模块, 用于根据当前指派轮次下的所述匹配关系 对预设的专家匹配方
案的模仿学习 结果, 对所述订单与运力匹配策略函数执行迭代训练, 直至生成的当前指派
轮次下的所述匹配关系复现所述专 家匹配方案;
实时匹配模块, 用于通过迭代训练得到的所述订单与运力匹配策略函数, 对实时获取
的待指派订单和候选运力进行匹配。
8.根据权利要求7 所述的装置, 其特 征在于, 所述匹配关系确定模块, 进一 步用于:
通过执行所述订单与运力匹配策略函数, 计算当前指派轮次下各订单和各运力的匹配
得分, 并根据各订单和各运力的匹配得分, 生成当前指派轮次下 的所述订单和所述运力的
匹配得分矩阵, 其中, 所述匹配得分矩阵中矩阵元素 的取值表示相 应订单和 运力的匹配得
分;
采用贪心策略寻找当前指派轮次下的各订单匹配的运力;
对于当前指派轮次下的各所述运力, 选择与所述运力匹配的所述订单中所述匹配得分
最高的订单, 作为与所述 运力匹配的订单;
根据各所述运力匹配的所述 订单, 确定当前指派轮次下的订单和运力的匹配关系。
9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在处理器上运行的
程序代码, 其特征在于, 所述处理器执行所述程序代码时实现权利要求1至6任意一项所述
的订单和运力匹配方法。
10.一种计算机可读存储介质, 其上存储有程序代码, 其特征在于, 该程序代码被处理
器执行时实现权利要求1至 6任意一项所述的订单和运力匹配方法的步骤。权 利 要 求 书 2/2 页
3
CN 115496431 A
3
专利 订单和运力匹配方法、装置、电子设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:57:59上传分享