专利一种文本问答模型的训练方法和装置及文本问答方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210314017.9 (22)申请日 2022.03.28 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人白子薇　王小捷　袁彩霞　 (74)专利代理机构北京德琦知识产权代理有限公司 11018 专利代理师孙清然　王琦 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种文本问答模型的训练方法和装置及文本问答方法 (57)摘要本申请公开了一种文本问答模型的训练方法和装置及文本问答方法，其中训练方法包括：获取样本数据集合；样本数据集合包括主任务的样本数据和辅任务的样本数据，主任务的样本数据包括文本、问题和答案，辅任务的样本数据包括文本、问题和答案证据；基于每个样本数据，利用文本问答模型，执行相应任务，并利用任务执行结果，对所述文本问答模型的参数进行优化调整；其中，当样本数据为主任务的样本数据时，利用文本问答模型，采用答案证据感知方式，对样本数据中的问题进行答案预测；当样本数据为辅任务的样本数据时，利用文本问答模型，对样本数据中的问题进行答案证据预测。采用本申请，可以提高答案预测的准确性，且具有可解释性。权利要求书2页说明书7页附图1页 CN 114706947 A 2022.07.05 CN 114706947 A 1.一种文本问答模型的训练方法，其特征在于，包括：获取样本数据集合；所述样本数据集合包括主任务的样本数据和辅任务的样本数据，所述主任务的样本数据包括文本、问题和答案，所述辅任务的样本数据包括文本、问题和答案证据；基于所述样本数据集合中的每个样本数据，利用文本问答模型，执行相应任务，并利用任务执行结果，对所述文本问答模型的参数进行优化调整；其中，当所述样本数据为主任务的样本数据时，利用所述文本问答模型，采用答案证据感知方式，对所述样本数据中的问题进行答案预测；当所述样本数据为辅任务的样本数据时，利用所述文本问答模型，对所述样本数据中的问题进行答案证据预测。 2.根据权利要求1所述的方法，其特征在于，所述样本数据中的问题为是否类问题或多项选择类问题。 3.根据权利要求1所述的方法，其特征在于，当所述样本数据为主任务的样本数据时，利用所述文本问答模型，执行相应任务包括：基于所述样本数据，按照问题类型构建文本问答序列，得到文本问答序列；对于每个所述文本问答序列，将该文本问答序列输入文本问答模型，进行答案证据的预测并基于答案证据的预测结果进行相应答案的预测。 4.根据权利要求1所述的方法，其特征在于，当所述样本数据为辅任务的样本数据时，利用所述文本问答模型，执行相应任务包括：基于所述样本数据，按照问题类型构建文本问答序列，得到文本问答序列；对于每个所述文本问答序列，将该文本问答序列输入文本问答模型，进行答案证据的预测。 5.根据权利要求3或4所述的方法，其特征在于，所述按照问题类型构建文本问答序列包括：如果所述样本数据中的问题为是否类问题，则将所述样本数据中的文本和问题串联，得到文本问答序列；如果所述样本数据中的问题为是多项选择类问题，则对于所述样本数据中的每个候选答案，基于该候选答案，将所述样本数据中的问题转换为相应的是否类问题，并将所述样本数据中的文本和所述转换得到的问题串联，得到该候选答案对应的文本问答序列。 6.根据权利要求3所述的方法，其特征在于，所述进行答案证据的预测并基于答案证据的预测结果进行相应答案的预测包括：利用编码器，对所述文本问答序列编码，并从编码结果中抽取相应文本的编码表示；基于所述文本的编码表示，对答案证据在所述文本中的起点和终点，进行预测，得到相应的起点概率分布和终点概率分布；将所述起点概率分布作为权重分布，对所述文本的编码表示，进行加权求和，得到证据起点感知的文本表示；将所述终点概率分布作为权重分布，对所述文本的编码表示，进行加权求和，得到证据终点感知的文本表示；对所述证据起点感知的文本表示和所述证据终点感知的文本表示，进行融合，得到证据感知的文本表示；基于所述证据感知的文本表示，对所述问题答案进行预测。权　利　要　求　书 1/2 页 2 CN 114706947 A 27.根据权利要求6所述的方法，其特征在于，所述进行融合为：将所述证据起点感知的文本表示hs和所述证据终点感知的文本表示he串联，得到所述证据感知的文本表示hp；或者，按照得到所述证据感知的文本表示hP；或者，按照hp＝max(hs,he)，得到所述证据感知的文本表示hp；所述max(,)表示求最大值的函数。 8.根据权利要求 4所述的方法，其特征在于，所述进行答案证据的预测包括：利用编码器，对所述文本问答序列编码，并从编码结果中抽取相应文本的编码表示；基于所述文本的编码表示，对答案证据在所述文本中的起点和终点，进行预测，得到相应的起点概率分布和终点概率分布；从所述起点概率分布中，选择最大概率所在位置，作为答案证据的起点；从所述终点概率分布中，选择最大概率所在位置，作为答案证据的终点；将所述起点和所述终点范围内的文本片段，作为所述答案证据。 9.一种文本问答方法，其特征在于，包括：获取目标文本和目标问题；基于所述目标文本和目标问题，利用文本问答模型，对所述目标问题进行答案证据的预测和答案预测，并输出所述预测的结果；其中，所述文本问答模型基于权利要求 1至8所述的任一训练方法得到。 10.一种文本问答模型的训练设备，其特征在于，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至8中任一项所述文本问答模型的训练方法。权　利　要　求　书 2/2 页 3 CN 114706947 A 3

专利 一种文本问答模型的训练方法和装置及文本问答方法

专利一种文本问答模型的训练方法和装置及文本问答方法