专利订单和运力匹配方法、装置、电子设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202110681586.2 (22)申请日 2021.06.18 (71)申请人北京三快在线科技有限公司地址 100083 北京市海淀区北四环西路9号 2106-030 (72)发明人任昊　潘基泽　吴立薪　田雨晴　司徒陈麒　李冬辉　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师任亚娟 (51)Int.Cl. G06Q 10/08(2012.01) G06K 9/62(2022.01) G06F 30/27(2020.01) (54)发明名称订单和运力匹配方法、装置、电子设备 (57)摘要本申请公开了一种订单和运力匹配方法，属于计算机技术领域，有助于提升订单和运力匹配质量。所述方法包括：根据订单和运力的历史调度数据，初始化训练样本集合；通过训练样本集合训练订单与运力匹配策略函数；通过执行当前训练得到的订单与运力匹配策略函数，生成当前指派轮次下的订单和运力的匹配关系；根据生成的匹配关系对预设的专家匹配方案的模仿学习结果，对订单与运力匹配策略函数执行迭代训练，直至生成的当前指派轮次下的匹配关系复现专家匹配方案；通过迭代训练得到的订单与运力匹配策略函数，对实时获取的订单和运力进行匹配。本方法通过融合模仿学习和强化学习，提升了训练得到的订单和运力匹配策略函数的匹配打分准确度。权利要求书2页说明书11页附图3页 CN 115496431 A 2022.12.20 CN 115496431 A 1.一种订单和运力匹配方法，其特征在于，包括：根据订单和运力的历史调度数据，初始化训练样本集合；通过所述训练样本集合训练订单与运力匹配策略函数；通过执行当前训练得到的所述订单与运力匹配策略函数，生成当前指派轮次下的订单和运力的匹配关系；根据当前指派轮次下的所述匹配关系对预设的专家匹配方案的模仿学习结果，对所述订单与运力匹配策略函数执行迭代训练，直至生成的当前指派轮次下的所述匹配关系复现所述专家匹配方案；通过迭代训练得到的所述订单与运力匹配策略函数，对实时获取的待指派订单和候选运力进行匹配。 2.根据权利要求1所述的方法，其特征在于，所述通过执行当前训练得到的所述订单与运力匹配策略函数，生成当前指派轮次下的订单和运力的匹配关系的步骤，包括：通过执行所述订单与运力匹配策略函数，计算当前指派轮次下各订单和各运力的匹配得分，并根据各订单和各运力的匹配得分，生成当前指派轮次下的所述订单和所述运力的匹配得分矩阵，其中，所述匹配得分矩阵中矩阵元素的取值表示相应订单和运力的匹配得分；采用贪心策略寻找当前指派轮次下的各订单匹配的运力；对于当前指派轮次下的各所述运力，选择与所述运力匹配的所述订单中所述匹配得分最高的订单，作为与所述运力匹配的订单；根据各所述运力匹配的所述订单，确定当前指派轮次下的订单和运力的匹配关系。 3.根据权利要求2所述的方法，其特征在于，所述根据各所述运力匹配的所述订单，确定当前指派轮次下的订单和运力的匹配关系的步骤，包括：根据各所述运力匹配的所述订单，分别确定当前指派轮次下订单和运力的候选匹配关系；通过所述匹配得分矩阵，分别确定各所述候选匹配关系的匹配得分；确定所述匹配得分大于指定匹配得分阈值的所述候选匹配关系，作为当前指派轮次下确定的订单和运力的匹配关系。 4.根据权利要求1所述的方法，其特征在于，所述根据当前指派轮次下的所述匹配关系对预设的专家匹配方案的模仿学习结果，对所述订单与运力匹配策略函数执行迭代训练的步骤之前，还包括：根据订单和运力的历史数据，通过禁忌搜索方法确定所述订单和所述运力的专家匹配方案。 5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据当前指派轮次下的所述匹配关系对预设的专家匹配方案的模仿学习结果，对所述订单与运力匹配策略函数执行迭代训练的步骤，包括：通过将当前指派轮次下的所述匹配关系与预先确定的专家匹配方案进行比对，确定当前指派轮次下的所述匹配关系对预先的专家匹配方案的模仿学习结果；响应于所述模仿学习结果指示当前指派轮次下的所述匹配关系中存在优于所述专家匹配方案的所述匹配关系，根据所述优于所述专家匹配方案的所述匹配关系，对生成的当权　利　要　求　书 1/2 页 2 CN 115496431 A 2前指派轮次下的所述匹配关系进行标注，确定增量样本，之后，通过所述增量样本更新所述训练样本集合，并基于更新后所述训练样本集合迭代训练所述订单与运力匹配策略函数；响应于所述模仿学习结果指示当前指派轮次下的所述匹配关系中不存在优于所述专家匹配方案的所述匹配关系，优化所述订单与运力匹配策略函数的模型参数，并基于所述训练样本集合迭代训练所述订单与运力匹配策略函数。 6.根据权利要求5所述的方法，其特征在于，所述通过将当前指派轮次下的所述匹配关系与预先确定的专家匹配方案进行比对，确定当前指派轮次下的所述匹配关系对预先的专家匹配方案的模仿学习结果的步骤之后，还包括：响应于所述模仿学习结果指示当前指派轮次下的所述匹配关系对所述专家匹配方案的复现概率满足预设收敛条件，结束所述订单与运力匹配策略函数的迭代训练过程。 7.一种订单和运力匹配装置，其特征在于，包括：训练样本集合初始化模块，用于根据订单和运力的历史调度数据，初始化训练样本集合；策略学习模块，用于通过所述训练样本集合训练订单与运力匹配策略函数；匹配关系确定模块，用于通过执行当前训练得到的所述订单与运力匹配策略函数，生成当前指派轮次下的订单和运力的匹配关系；模仿及强化学习模块，用于根据当前指派轮次下的所述匹配关系对预设的专家匹配方案的模仿学习结果，对所述订单与运力匹配策略函数执行迭代训练，直至生成的当前指派轮次下的所述匹配关系复现所述专家匹配方案；实时匹配模块，用于通过迭代训练得到的所述订单与运力匹配策略函数，对实时获取的待指派订单和候选运力进行匹配。 8.根据权利要求7 所述的装置，其特征在于，所述匹配关系确定模块，进一步用于：通过执行所述订单与运力匹配策略函数，计算当前指派轮次下各订单和各运力的匹配得分，并根据各订单和各运力的匹配得分，生成当前指派轮次下的所述订单和所述运力的匹配得分矩阵，其中，所述匹配得分矩阵中矩阵元素的取值表示相应订单和运力的匹配得分；采用贪心策略寻找当前指派轮次下的各订单匹配的运力；对于当前指派轮次下的各所述运力，选择与所述运力匹配的所述订单中所述匹配得分最高的订单，作为与所述运力匹配的订单；根据各所述运力匹配的所述订单，确定当前指派轮次下的订单和运力的匹配关系。 9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至6任意一项所述的订单和运力匹配方法。 10.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至 6任意一项所述的订单和运力匹配方法的步骤。权　利　要　求　书 2/2 页 3 CN 115496431 A 3

专利 订单和运力匹配方法、装置、电子设备

专利订单和运力匹配方法、装置、电子设备