(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210357955.7
(22)申请日 2022.04.06
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 鉴萍 王峤 费伟伦
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 张利萍
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于隐变量的篇章级神经机器翻译方
法及系统
(57)摘要
本发明涉及一种基于隐变量的篇章级神经
机器翻译方法, 属于自然语言处理应用技术领
域。 首先在编码器 ‑解码器神经机器翻译模型中,
分别对源语言句子和其上一句进行编码, 并通过
注意力机制融合编码信息生 成隐变量。 将隐变量
的分布认 为是一种高斯分布, 其中包含篇章级翻
译所需要的上下文信息。 通过在篇章关系分析任
务上预训练的判别器, 将隐变量通过转换矩阵映
射到浅层篇章关系分布上。 最后, 将该判别器应
用于篇章级神经机器翻译模型的训练过程中, 对
隐变量的生成进行引导, 并最终生成目标语言的
句子。 本发 明利用隐变量表示篇章级神经机器翻
译中所需要的信息, 通过引入判别器引导隐变量
的生成过程, 从而提升篇章级神经机器翻译的效
果和质量。
权利要求书4页 说明书6页 附图2页
CN 114707522 A
2022.07.05
CN 114707522 A
1.一种基于隐变量的篇 章级神经机器翻译方法, 其特 征在于, 包括以下步骤:
步骤1: 选用篇章级关系语料库作为篇章关系分析任务的训练集; 基于训练集训练判别
器, 得到判别器;
步骤2: 对上 下文句子和源语言句子编码, 生成编码信息, 并生成隐变量;
步骤2.1: 通过嵌入层, 将上 下文句子和源语言句子转换为词向量表示序列;
步骤2.1.1: 将训练语料处 理成包含上下文样本、 源语言句子和目标语言句子的样;
步骤2.1.2: 根据不同的语种, 采用不同的分词工具, 分别对源语言语料和目标语言语
料进行分词;
步骤2.1.3: 利用字节对编码BPE, 对训练语料进行编码并得到词表, 根据词 表对训练语
料做句子拆分;
步骤2.1.4: 通过嵌入层映射, 得到词向量表示序列;
步骤2.2: 利用编码器对上下文句子和源语言句子编码; 在源语言句子编码过程中, 使
用多头注意力机制, 融合上 下文句子的编码信息;
步骤2.3: 利用编码信息引导 生成先验隐变量;
步骤3: 利用判别器引导生成后验隐变量, 利用解码器生成目标语言序列, 根据总损失
训练得到翻译模型;
步骤4: 将不属于训练集的源语言句子、 源语言句子的上下文送入训练好的翻译模型
中, 当生成对应隐变量后, 与编码信息共同生成目标语言句子 。
2.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法, 其特征在于, 步骤
1中, 判别器D的训练方法:
其中, Pretrain表示 预训练模型,
分别表示语料数据集中不同的训练篇章及其对
应的标签。
3.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法, 其特征在于, 步骤
2.2中, 当得到词向量表示序列后, 将样 本E中的上下文句子和源语 言句子送入编码 器编码,
获取融合了上 下文信息的源语言句子表示及隐变量;
首先, 将上下文句子的向量表示序列的每一个词向量通过矩阵映射为查询值Q、 键值K
和值V:
Q=WQ·e (2)
K=WK·e (3)
V=WV·e (4)
其中, WQ、 WK、 WV分别表示 查询值Q、 键值K和值V; e表示输入的词向量;
之后, 对于每一个词, 通过自注意力机制, 计算 其对于其 他所有词的注意力分值s:
其中, dk为K的维度; T表示 转置;
然后, 用注意力分值作为权重, 用对应的注意力分值与V相乘并求和, 得到对应的隐藏权 利 要 求 书 1/4 页
2
CN 114707522 A
2层状态表示向量
其中, s表示注意力分值;
此处, 要将每 个注意力头产生的表示进行拼接:
其中, h′表示拼接后的隐藏层状态 表示向量,
表示为第n个头产生的表示;
最后, 通过两层由ReLU作激活函数的线性层:
h=FFN(h′)=max(0,h ′W1+b1)W2+b2 (8)
其中, FFN( ·)表示线性单元, W1、 W2表示训练的权重, b1、 b2分别表示W1、 W2对应的偏置
项; 由此得到上下文句子的编码序列;
按照上述方式, 通过自注意力层对 源语言句子进行编码;
通过多头注意力机制, 融合上下文句子的编码信息, 原理同自注意力层编码机制; 其
中, Q、 K由上下文句子中的词映射得到, V由源语言句子中的词映射得到; 同理, 通过两层由
ReLU作激活函数的线性层, 得到融合上 下文信息的源语言句子编码信息 。
4.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法, 其特征在于, 步骤
2.3中, 将步骤2.2得到的融合了上下文信息的源语言句子编码信息, 通过隐变量生成网络
生成均值 μ和方差σ, 然后采样得到隐变量z:
其中,
表示第k句中的第i个单词的编码变量,
表示第k‑1句中的第j个单词的编
码变量。
5.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法, 其特征在于, 步骤
3中, 将目标语言编码序列E(Yt)与参考编码R(Yt)作比较, 将先验隐变量z和后验隐变量
作
比较; 之后, 将差值加权相加, 作为模型损失; 根据模型损失, 使用梯度下降方法, 重复步骤
2.2至步骤3, 直至收敛, 得到翻译模型M;
对于目标语言句子的每一个单词yt的生成过程, 均使用步骤1得到的判别器对隐变量进
行判别;
将判别器得到的判别结果转换为一个区间范围为(0,1)的置信度打分ct; 对于目标语言
端句子总长为T的序列, 计算 其置信度总和ct:
ct=Confidence(D(z),yt) (10)
其中, D(z)表示判别器对隐变量z的结果输出, yt表示目标语言句子中的第t个单词;
其中, C为(0,T)区间上的值;
C与T的差值被当作判别器D端的损失
将其加权后的结果
计入最终总损失权 利 要 求 书 2/4 页
3
CN 114707522 A
3
专利 一种基于隐变量的篇章级神经机器翻译方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:02上传分享