专利任务处理模型的模型训练方法、装置、设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210373086.7 (22)申请日 2022.04.11 (71)申请人上海明胜品智人工智能科技有限公司地址 200030 上海市徐汇区龙兰路27 7号2 号楼5楼5B0 6单元 (72)发明人谢亚雄　温珂伟　 (74)专利代理机构北京超成律师事务所 1 1646 专利代理师邓超 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称任务处理模型的模型训练方法、装置、设备及存储介质 (57)摘要本申请提供了一种任务处理模型的模型训练方法、装置、设备及存储介质，该方法包括：通过共享特征提取模型提取训练语料中多种类别的共享特征信息；按照预设输入方式，将共享特征信息和基于训练语料标注的训练文本信息输入至多个子任务模型中，并行对多个子任务模型进行训练，根据每一子任务模型的任务训练损失的梯度变化情况，对该子任务模型的权重系数进行调整，以使多个子任务模型的训练率位于同一数值范围区间内，直至多个子任务模型的整体损失函数满足训练截止条件。这样，本申请在保障每个子任务模型能够独立训练的同时，可以为不同的子任务模型提供与其执行的子任务相关的多种共享特征信息，进而，提高任务处理模型的整体模型训练效果。权利要求书3页说明书17页附图5页 CN 114722827 A 2022.07.08 CN 114722827 A 1.一种任务处理模型的模型训练方法，其特征在于，应用于多任务学习模型框架，所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型，所述任务处理模型包括多个子任务模型；所述模型训练方法包括：获取训练语料，并将所述训练语料输入至所述共享特征提取模型中，通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息；按照预设的输入方式，将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中，并行对所述多个子任务模型进行训练，以使所述多个子任务模型的整体损失函数满足训练截止条件；在所述多个子任务模型独立训练的过程中，获取每一所述子任务模型的任务训练损失，多任务学习模型框架根据每一所述子任务模型的任务训练损失的梯度变化情况，对多任务学习模型框架该子任务模型的权重系数进行调整，以使所述多个子任务模型的训练率位于同一数值范围区间内，直至所述多个子任务模型的整体损失函数满足所述训练截止条件，将训练好的多个子任务模型作为训练好的任务处理模型。 2.根据权利要求1所述的模型训练方法，其特征在于，所述多种类别的共享特征信息包括：训练语料被切分成字序列后的字特征向量；训练语料中表征词语与词语之间的句法依赖关系的词语特征向量；训练语料中的句特征向量。 3.根据权利要求1所述的模型训练方法，其特征在于，通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别：根据所述多个子任务模型待执行的多个子任务之间的目标任务依赖关系，从预设的任务依赖关系表中确定所述目标任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别；其中，所述任务依赖关系表预先存储有多种任务依赖关系对应的多种信息类别。 4.根据权利要求1所述的模型训练方法，其特征在于，通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别：根据所述任务处理模型待执行的目标任务，以所述任务处理模型包括的多个子任务模型作为第一搜索空间，以能够执行所述目标任务作为第一搜索策略，对所述第一搜索空间内不同子任务模型之间的子任务模型组合方式进行神经网络结构搜索，得到符合所述第一搜索策略的最优子任务模型组合方式；将所述最优子任务模型组合方式下包括的每个子任务模型作为第一子任务模型；根据每一所述第一子任务模型待执行的子任务之间的第一任务依赖关系，从预设的任务依赖关系表中确定所述第一任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别。 5.根据权利要求1所述的模型训练方法，其特征在于，通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别：根据所述任务处理模型待执行的目标任务，获取与完成所述目标任务相关的多种文本特征信息；以所述多种文本特征信息作为第二搜索空间，以所述多个子任务模型能够基于不同文本特征信息的信息组合完成所述目标任务作为第二搜索策略，对所述第二搜索空间内不同文本特征信息之间的信息组合方式进行神经网络结构搜索，得到符合所述第二搜索策略的权　利　要　求　书 1/3 页 2 CN 114722827 A 2最优信息组合方式；将所述最优信息组合方式下包括的每种文本特征信息所属的信息类别作为所述待提取的共享特征信息的多种类别。 6.根据权利要求1所述的模型训练方法，其特征在于，所述按照预设的输入方式，将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中，包括：在每一所述子任务模型的首层模型输入节点处，将所述训练文本信息输入至每一所述子任务模型中；将所述多种类别的共享特征信息按照信息类别与训练节点之间的对应关系，以分层输入的第一输入方式，分层级输入至每一所述子任务模型中的不同训练节点处；其中，每一所述子任务模型中的不同训练节点是按照子任务模型中神经网络由浅到深的层级进行排序的。 7.根据权利要求1所述的模型训练方法，其特征在于，所述按照预设的输入方式，将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中，还包括：在每一所述子任务模型的首层模型输入节点处，以首层输入的第二输入方式，将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中。 8.根据权利要求7所述的模型训练方法，其特征在于，所述以首层输入的第二输入方式，将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中，包括：在对不同子任务模型待执行的子任务所属的任务类型不进行区分时，以所述第二输入方式，将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中；或者，在对不同子任务模型待执行的子任务所属的任务类型进行区分时，针对每一所述子任务模型，根据该子任务模型待执行的子任务，确定所述多种类别的共享特征信息中与该子任务模型待执行的子任务相匹配的目标共享特征信息；以所述第二输入方式，将所述多种类别的共享特征信息、所述训练文本信息以及所述目标共享特征信息同步输入至该子任务模型中。 9.根据权利要求1所述的模型训练方法，其特征在于，所述多个子任务模型的整体损失函数是根据每一所述子任务模型的任务训练损失的梯度以及所述多任务学习模型框架中该子任务模型的权重系数的乘积确定的；所述根据每一所述子任务模型的任务训练损失的梯度变化情况，对该子任务模型的权重系数进行调整，包括：针对每一所述子任务模型，以该子任务模型的任务训练损失的梯度作为目标梯度，在梯度检测周期内，获取所述目标梯度在所述检测周期内的周期变化幅度；当检测到所述目标梯度的周期变化幅度大于或者等于参考梯度变化量时，则按照梯度降低调节系数，对该子任务模型的权重系数进行下降式的动态调整；当检测到所述目标梯度的周期变化幅度小于所述参考梯度变化量时，则按照梯度升高调节系数，对该子任务模型的权重系数进行升高式的动态调整。权　利　要　求　书 2/3 页 3 CN 114722827 A 3

专利 任务处理模型的模型训练方法、装置、设备及存储介质

专利任务处理模型的模型训练方法、装置、设备及存储介质