专利一种基于隐变量的篇章级神经机器翻译方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210357955.7 (22)申请日 2022.04.06 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人鉴萍　王峤　费伟伦　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 专利代理师张利萍 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称一种基于隐变量的篇章级神经机器翻译方法及系统 (57)摘要本发明涉及一种基于隐变量的篇章级神经机器翻译方法，属于自然语言处理应用技术领域。首先在编码器 ‑解码器神经机器翻译模型中，分别对源语言句子和其上一句进行编码，并通过注意力机制融合编码信息生成隐变量。将隐变量的分布认为是一种高斯分布，其中包含篇章级翻译所需要的上下文信息。通过在篇章关系分析任务上预训练的判别器，将隐变量通过转换矩阵映射到浅层篇章关系分布上。最后，将该判别器应用于篇章级神经机器翻译模型的训练过程中，对隐变量的生成进行引导，并最终生成目标语言的句子。本发明利用隐变量表示篇章级神经机器翻译中所需要的信息，通过引入判别器引导隐变量的生成过程，从而提升篇章级神经机器翻译的效果和质量。权利要求书4页说明书6页附图2页 CN 114707522 A 2022.07.05 CN 114707522 A 1.一种基于隐变量的篇章级神经机器翻译方法，其特征在于，包括以下步骤：步骤1：选用篇章级关系语料库作为篇章关系分析任务的训练集；基于训练集训练判别器，得到判别器；步骤2：对上下文句子和源语言句子编码，生成编码信息，并生成隐变量；步骤2.1：通过嵌入层，将上下文句子和源语言句子转换为词向量表示序列；步骤2.1.1：将训练语料处理成包含上下文样本、源语言句子和目标语言句子的样；步骤2.1.2：根据不同的语种，采用不同的分词工具，分别对源语言语料和目标语言语料进行分词；步骤2.1.3：利用字节对编码BPE，对训练语料进行编码并得到词表，根据词表对训练语料做句子拆分；步骤2.1.4：通过嵌入层映射，得到词向量表示序列；步骤2.2：利用编码器对上下文句子和源语言句子编码；在源语言句子编码过程中，使用多头注意力机制，融合上下文句子的编码信息；步骤2.3：利用编码信息引导生成先验隐变量；步骤3：利用判别器引导生成后验隐变量，利用解码器生成目标语言序列，根据总损失训练得到翻译模型；步骤4：将不属于训练集的源语言句子、源语言句子的上下文送入训练好的翻译模型中，当生成对应隐变量后，与编码信息共同生成目标语言句子。 2.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤 1中，判别器D的训练方法：其中， Pretrain表示预训练模型，分别表示语料数据集中不同的训练篇章及其对应的标签。 3.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤 2.2中，当得到词向量表示序列后，将样本E中的上下文句子和源语言句子送入编码器编码，获取融合了上下文信息的源语言句子表示及隐变量；首先，将上下文句子的向量表示序列的每一个词向量通过矩阵映射为查询值Q、键值K 和值V： Q＝WQ·e (2) K＝WK·e (3) V＝WV·e (4) 其中， WQ、 WK、 WV分别表示查询值Q、键值K和值V； e表示输入的词向量；之后，对于每一个词，通过自注意力机制，计算其对于其他所有词的注意力分值s：其中， dk为K的维度； T表示转置；然后，用注意力分值作为权重，用对应的注意力分值与V相乘并求和，得到对应的隐藏权　利　要　求　书 1/4 页 2 CN 114707522 A 2层状态表示向量其中， s表示注意力分值；此处，要将每个注意力头产生的表示进行拼接：其中， h′表示拼接后的隐藏层状态表示向量，表示为第n个头产生的表示；最后，通过两层由ReLU作激活函数的线性层： h＝FFN(h′)＝max(0,h ′W1+b1)W2+b2 (8) 其中， FFN( ·)表示线性单元， W1、 W2表示训练的权重， b1、 b2分别表示W1、 W2对应的偏置项；由此得到上下文句子的编码序列；按照上述方式，通过自注意力层对源语言句子进行编码；通过多头注意力机制，融合上下文句子的编码信息，原理同自注意力层编码机制；其中， Q、 K由上下文句子中的词映射得到， V由源语言句子中的词映射得到；同理，通过两层由 ReLU作激活函数的线性层，得到融合上下文信息的源语言句子编码信息。 4.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤 2.3中，将步骤2.2得到的融合了上下文信息的源语言句子编码信息，通过隐变量生成网络生成均值 μ和方差σ，然后采样得到隐变量z：其中，表示第k句中的第i个单词的编码变量，表示第k‑1句中的第j个单词的编码变量。 5.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤 3中，将目标语言编码序列E(Yt)与参考编码R(Yt)作比较，将先验隐变量z和后验隐变量作比较；之后，将差值加权相加，作为模型损失；根据模型损失，使用梯度下降方法，重复步骤 2.2至步骤3，直至收敛，得到翻译模型M；对于目标语言句子的每一个单词yt的生成过程，均使用步骤1得到的判别器对隐变量进行判别；将判别器得到的判别结果转换为一个区间范围为(0,1)的置信度打分ct；对于目标语言端句子总长为T的序列，计算其置信度总和ct： ct＝Confidence(D(z),yt) (10) 其中， D(z)表示判别器对隐变量z的结果输出， yt表示目标语言句子中的第t个单词；其中， C为(0,T)区间上的值； C与T的差值被当作判别器D端的损失将其加权后的结果计入最终总损失权　利　要　求　书 2/4 页 3 CN 114707522 A 3

专利 一种基于隐变量的篇章级神经机器翻译方法及系统

专利一种基于隐变量的篇章级神经机器翻译方法及系统