(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210293213.2
(22)申请日 2022.03.24
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 余正涛 朱恩昌 于志强
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06F 16/2458(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于多策略原型生成的低资源神经机器翻
译方法
(57)摘要
本发明涉及基于多策略原型生成的低资源
神经机器翻译方法, 属于自然语言处理技术领
域。 本发明包括步骤: 首先结合利用关键词匹配
和分布式表 示匹配检索 原型序列, 如未能获得匹
配, 则利用伪原型生成方法产生可用的伪原型序
列。 其次, 为有效地利用原型序列, 对传统的编码
器‑解码器框架进行了改进。 编码端使用额外的
编码器接收原型序列输入; 解码端在利用门控机
制控制信息流动的同时, 使用改进的损失函数减
少低质量原型序列对模型的影 响。 本发明提出的
方法能够基于少量平行语料有效地提升检索结
果的数量和质量, 适用于低资源环 境下及相似性
语言环境下的神经机 器翻译。
权利要求书3页 说明书8页 附图2页
CN 114676708 A
2022.06.28
CN 114676708 A
1.基于多策略原型生成的低资源神经机器翻译方法, 其特征在于: 所述方法的具体步
骤如下:
Step1、 语料预处理: 预处理不同规模的平行训练语料、 验证语料和测试语料, 用于模型
训练、 参数调优和效果测试; 并构建多语言全局替换词典和关键词 词典, 用于伪原型生成;
Step2、 原型生成: 利用基于多种策略混合的原型生成方法进行原型生成, 以保证原型
序列的可用性; 该步骤的具体思路为: 首先结合使用模糊匹配和分布式表示匹配进行原型
检索, 如未检索到原型, 则利用词替换操作对输入句子中的关键词进 行替换, 得到伪原型序
列;
Step3、 融入原型序列的翻译模型构建: 改进传统基于注意力机制的神经机器翻译模型
的编解码器结构, 以更好的融入原型序列, 使用步骤Step1, Step2的语料作为模型输入, 产
生最终译文。
2.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在
于: 所述Step1的具体步骤为:
Step1.1、 使用机器翻译领域的通用数据集IWSLT15进行模型训练, 翻译任务为英 ‑越、
英‑中和英‑德; 验证和测试方面, 选择tst2012作为验证集进行参数优化和模型选择, 选择
tst2013作为测试集进行测试评估;
Step1.2、 使用PanLex、 维基百科、 实验室自建的英汉 ‑东南亚语词典以及谷歌翻译接口
来构建英 ‑越‑中‑德全局替换词典;
Step1.3、 在Step1.2的基础 上, 通过标记筛选方式得到关键词典, 筛选过程中保留全部
实体; 为避免替换过于集中于某些热点名词, 对名词性词汇于语料中检索并按出现频率进
行倒排。
3.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在
于: 所述Step2的具体步骤为:
Step2.1、 结合使用模糊匹配和 分布式表示匹配进行原型检索; 具体实现如下: 翻译记
忆库是由L对平行句组成的集合{(sl, tl): l=1, ..., L}, 其中sl为源句, tl为目标句; 对给定
的输入句子x, 首先使用关键词匹配于翻译记忆库中进 行检索; 采用模糊匹配作为关键词匹
配方法, 其定义 为:
其中ED(x, si)是x, si间的编辑距离, |x|为x的句长;
与基于关键词的匹配方法不同, 分布式表示匹配根据句子向量表征之间的距离进行检
索, 某种程度上是利用语义信息进行相似性检索的手段, 也因此提供了与关键词匹配不同
的检索视角; 基于余弦相似度的分布式表示匹配定义 为:
其中hx和
分别为x和si的向量表征, ||hx||为向量hx的度量; 为实现快速计算, 首先使
用多语言预训练模型mBERT得到句子x和si的向量表征, 随后依据表征, 使用faiss工具进行
相似性匹配;
当模糊匹配能够得到最优匹配源句sbest时, 利用分布式表示匹配得到top ‑k个匹配结果权 利 要 求 书 1/3 页
2
CN 114676708 A
2的集合s′={s1, s2, ..., sk}, 如sbest∈s′, 则选取sbest对应的目标端句子tbest作为原型序列;
当模糊匹配未能检索到匹配源句或
时, 则通过分布式表示匹配检索出最优匹配源
句sbest;
Step2.2、 若Step2.1未检索到原型, 则对输入的句子进行关键词替换, 生成伪原型, 称
之为基于词替换的伪原型生成; 具体包 含以下两种替换 策略;
全局替换: 当输入句子未能检索到匹配时, 基于最大化原则, 利用双语词典对输入句子
中的词进行尽力替换, 替换后的句子被称为伪原型序列;
关键词替换: 从双语词典中抽取重要名词和实体构建关键词词典; 当输入句子未能检
索到匹配时, 利用该词典对输入句子中的关键词进 行替换, 生成伪原型序列, 替换次数上限
小于设定的阈值; 期望在共享词表的基础上, 该混合了源端和重要目标端词汇的伪原型序
列能够为译 文的生成提供指导。
4.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在
于: 所述Step3中包括:
Step3.1、 编码端采用双编码器结构, 能够同时接收句子输入和原型序列输入, 然后将
输入编码为相应的隐状态表示; 句子编码器为标准的Transformer编码器, 由多层堆叠而
成; 其中每层又 由2个子层构成: 多头自注意力层和前馈神经网络层, 均使用残差连接和层
正则化机制; 给定输入句子x=(x1, x2, ..., xm), 句子编码器将其编码为相应的隐状态序列
hx=(hx1, hx2, ..., hxm), 其中hxi为xi对应的隐状态, 原 型编码器在神经 网络结构上与句子编
码器一致, 给定原型序列t=(t1, t2, ..., tn), 原型编码器将其编码为相应的隐状态序列ht
=(ht1, ht2, ..., htn), 其中hti为ti对应的隐状态。
5.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在
于: 所述Step3中包括:
解码端融入门控机制, 利用神经网络自学习能力实现句子信 息和原型信息间的比例优
化, 控制解码过程中的信息流动; 改进后的解码器由三个子层构成: (1)自注意力层; (2)改
进的编解码注意力层; (3)全连接前馈网络层; 其中, 改进的编解码注意力层由句子编解码
注意力模块和原型编解码注意力模块构成; 接收到i时刻多头自注意力层的输出sself和句
子编码器的输出hx时, 句子编解码注意力模块进行注意力计算。
6.根据权利要求5所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在
于: 所述Step3中, 句子编解码注意力模块进行注意力计算包括:
sx=MultiHeadA tt(sself, hx, hx)
其中MultiHeadAtt( ·)为基于多头的注意力计算, 与此类似, 原型编解码注意力的计
算为:
st=MultiHeadA tt(sself, ht, ht)
随后, 句子编解码注意力输出sx和原型编解码注意力输出st被连接, 用于计算比例变量
α:
α =sigmo id(Wα[sx; st]+bα)
其中Wα和bα为可训练参数, α 随后被用于计算编解码注意力层的最终输出, 计算公式为:
senc_dec=α *sx+(1‑α )*st
进而senc_dec作为输入被填充到全连接前馈网络中:权 利 要 求 书 2/3 页
3
CN 114676708 A
3
专利 基于多策略原型生成的低资源神经机器翻译方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:13上传分享