专利对话生成模型的训练方法和装置、对话生成方法和装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210189019.X (22)申请日 2022.02.28 (71)申请人北京京东尚科信息技术有限公司地址 100086 北京市海淀区知春路76号8层 (72)发明人李浩然　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师王云飞 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称对话生成模型的训练方法和装置、对话生成方法和装置 (57)摘要本公开涉及一种对话生成模型的训练方法和装置、对话生成方法和装置。该对话生成模型的训练方法包括：获取训练数据，其中，训练数据包括历史轮次的提问语句、历史轮次的回复语句、当前轮次的提问语句；将当前轮次的回复语句作为对话生成模型的第一输出目标进行第一训练；将历史轮次的提问语句和历史轮次的回复语句作为对话生成模型的第二输出目标进行第二训练。本公开利用多任务学习，不仅可以将当前轮的回复作为训练的目标，同时还可以将生成历史轮次的提问和回复作为训练目标。权利要求书2页说明书8页附图3页 CN 114547272 A 2022.05.27 CN 114547272 A 1.一种对话生成模型的训练方法，其特征在于，包括：获取训练数据，其中，训练数据包括历史轮次的提问语句、历史轮次的回复语句、当前轮次的提问语句；将当前轮次的回复语句作为对话生成模型的第一输出目标进行第一训练；将历史轮次的提问语句和历史轮次的回复语句作为对话生成模型的第二输出目标进行第二训练。 2.根据权利要求1所述的训练方法，其特征在于，所述将当前轮次的回复语句作为对话生成模型的第一输出目标进行第一训练包括：将训练数据作为对话生成模型的输入，将当前轮次的回复语句作为对话生成模型的第一输出目标；对训练数据进行编码生成第一编码语义向量；根据第一编码语义向量和前一次的模型输出，确定第一解码隐层状态；根据第一解码隐层状态和第一目标词，确定第一目标词的生成概率。 3.根据权利要求2所述的训练方法，其特征在于，所述将历史轮次的提问语句和历史轮次的回复语句作为对话生成模型的第二输出目标进行第二训练包括：在训练数据中，随机对一个轮次的提问语句或回复语句进行掩码，将掩码后的训练数据作为对话生成模型的输入，掩码的语句作为对话生成模型的第二输出目标；对掩码后的训练数据进行编码生成第二编码语义向量；根据第二编码语义向量和前一次的模型输出，确定第二解码隐层状态；根据第二解码隐层状态和第二目标词，确定第二目标词的生成概率。 4.根据权利要求3所述的训练方法，其特征在于，还包括：根据第一输出目标，确定第一损失函数；根据第二输出目标，确定第二损失函数；根据第一损失函数和第二损失函数确定总损失函数；根据总损失函数对对话生成模型进行优化。 5.一种对话生成方法，其特征在于，包括：获取用户输入的当前轮次的提问语句；将当前轮次的提问语句输入对话生成模型，生成当前轮次的答复语句，其中，所述对话生成模型为采用如权利要求1 ‑4中任一项所述的训练方法生成的对话生成模型。 6.一种对话生成模型的训练装置，其特征在于，包括：数据获取模块，用于获取训练数据，其中，训练数据包括历史轮次的提问语句、历史轮次的回复语句、当前轮次的提问语句；第一训练模块，用于将当前轮次的回复语句作为对话生成模型的第一输出目标进行第一训练；第二训练模块，用于将历史轮次的提问语句和历史轮次的回复语句作为对话生成模型的第二输出目标进行第二训练。 7.根据权利要求6所述的训练装置，其特征在于，第一训练模块，用于将训练数据作为对话生成模型的输入，将当前轮次的回复语句作为对话生成模型的第一输出目标；对训练数据进行编码生成第一编码语义向量；根据第一权　利　要　求　书 1/2 页 2 CN 114547272 A 2编码语义向量和前一次的模型输出，确定第一解码隐层状态；根据第一解码隐层状态和第一目标词，确定第一目标词的生成概率。 8.根据权利要求7 所述的训练装置，其特征在于，第二训练模块，用于在训练数据中，随机对一个轮次的提问语句或回复语句进行掩码，将掩码后的训练数据作为对话生成模型的输入，掩码的语句作为对话生成模型的第二输出目标；对掩码后的训练数据进行编码生成第二编码语义向量；根据第二编码语义向量和前一次的模型输出，确定第二解码隐层状态；根据第二解码隐层状态和第二目标词，确定第二目标词的生成概率。 9.根据权利要求8所述的训练装置，其特征在于，还包括：损失函数确定模块，根据第一输出目标，确定第一损失函数；根据第二输出目标，确定第二损失函数；根据第一损失函数和第二损失函数确定总损失函数；优化模块，用于根据总损失函数对对话生成模型进行优化。 10.一种对话生成装置，其特征在于，包括：语句获取模块，用于获取用户输入的当前轮次的提问语句；对话生成模块，用于将当前轮次的提问语句输入对话生成模型，生成当前轮次的答复语句，其中，所述对话生成模型为采用如权利要求 1‑4中任一项所述的训练方法生成的对话生成模型。 11.一种计算机装置，其特征在于，包括：存储器，用于存储指令；处理器，用于执行所述指令，使得所述计算机装置执行实现如权利要求1 ‑4中任一项所述的训练方法、或如权利要求5所述的对话生成方法的操作。 12.一种非瞬时性计算机可读存储介质，其特征在于，所述非瞬时性计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1 ‑4中任一项所述的训练方法、或如权利要求5所述的对话生成方法。权　利　要　求　书 2/2 页 3 CN 114547272 A 3

专利 对话生成模型的训练方法和装置、对话生成方法和装置

专利对话生成模型的训练方法和装置、对话生成方法和装置