(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210293213.2 (22)申请日 2022.03.24 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 朱恩昌 于志强  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 16/2458(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于多策略原型生成的低资源神经机器翻 译方法 (57)摘要 本发明涉及基于多策略原型生成的低资源 神经机器翻译方法, 属于自然语言处理技术领 域。 本发明包括步骤: 首先结合利用关键词匹配 和分布式表 示匹配检索 原型序列, 如未能获得匹 配, 则利用伪原型生成方法产生可用的伪原型序 列。 其次, 为有效地利用原型序列, 对传统的编码 器‑解码器框架进行了改进。 编码端使用额外的 编码器接收原型序列输入; 解码端在利用门控机 制控制信息流动的同时, 使用改进的损失函数减 少低质量原型序列对模型的影 响。 本发明提出的 方法能够基于少量平行语料有效地提升检索结 果的数量和质量, 适用于低资源环 境下及相似性 语言环境下的神经机 器翻译。 权利要求书3页 说明书8页 附图2页 CN 114676708 A 2022.06.28 CN 114676708 A 1.基于多策略原型生成的低资源神经机器翻译方法, 其特征在于: 所述方法的具体步 骤如下: Step1、 语料预处理: 预处理不同规模的平行训练语料、 验证语料和测试语料, 用于模型 训练、 参数调优和效果测试; 并构建多语言全局替换词典和关键词 词典, 用于伪原型生成; Step2、 原型生成: 利用基于多种策略混合的原型生成方法进行原型生成, 以保证原型 序列的可用性; 该步骤的具体思路为: 首先结合使用模糊匹配和分布式表示匹配进行原型 检索, 如未检索到原型, 则利用词替换操作对输入句子中的关键词进 行替换, 得到伪原型序 列; Step3、 融入原型序列的翻译模型构建: 改进传统基于注意力机制的神经机器翻译模型 的编解码器结构, 以更好的融入原型序列, 使用步骤Step1, Step2的语料作为模型输入, 产 生最终译文。 2.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在 于: 所述Step1的具体步骤为: Step1.1、 使用机器翻译领域的通用数据集IWSLT15进行模型训练, 翻译任务为英 ‑越、 英‑中和英‑德; 验证和测试方面, 选择tst2012作为验证集进行参数优化和模型选择, 选择 tst2013作为测试集进行测试评估; Step1.2、 使用PanLex、 维基百科、 实验室自建的英汉 ‑东南亚语词典以及谷歌翻译接口 来构建英 ‑越‑中‑德全局替换词典; Step1.3、 在Step1.2的基础 上, 通过标记筛选方式得到关键词典, 筛选过程中保留全部 实体; 为避免替换过于集中于某些热点名词, 对名词性词汇于语料中检索并按出现频率进 行倒排。 3.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在 于: 所述Step2的具体步骤为: Step2.1、 结合使用模糊匹配和 分布式表示匹配进行原型检索; 具体实现如下: 翻译记 忆库是由L对平行句组成的集合{(sl, tl): l=1, ..., L}, 其中sl为源句, tl为目标句; 对给定 的输入句子x, 首先使用关键词匹配于翻译记忆库中进 行检索; 采用模糊匹配作为关键词匹 配方法, 其定义 为: 其中ED(x, si)是x, si间的编辑距离, |x|为x的句长; 与基于关键词的匹配方法不同, 分布式表示匹配根据句子向量表征之间的距离进行检 索, 某种程度上是利用语义信息进行相似性检索的手段, 也因此提供了与关键词匹配不同 的检索视角; 基于余弦相似度的分布式表示匹配定义 为: 其中hx和 分别为x和si的向量表征, ||hx||为向量hx的度量; 为实现快速计算, 首先使 用多语言预训练模型mBERT得到句子x和si的向量表征, 随后依据表征, 使用faiss工具进行 相似性匹配; 当模糊匹配能够得到最优匹配源句sbest时, 利用分布式表示匹配得到top ‑k个匹配结果权 利 要 求 书 1/3 页 2 CN 114676708 A 2的集合s′={s1, s2, ..., sk}, 如sbest∈s′, 则选取sbest对应的目标端句子tbest作为原型序列; 当模糊匹配未能检索到匹配源句或 时, 则通过分布式表示匹配检索出最优匹配源 句sbest; Step2.2、 若Step2.1未检索到原型, 则对输入的句子进行关键词替换, 生成伪原型, 称 之为基于词替换的伪原型生成; 具体包 含以下两种替换 策略; 全局替换: 当输入句子未能检索到匹配时, 基于最大化原则, 利用双语词典对输入句子 中的词进行尽力替换, 替换后的句子被称为伪原型序列; 关键词替换: 从双语词典中抽取重要名词和实体构建关键词词典; 当输入句子未能检 索到匹配时, 利用该词典对输入句子中的关键词进 行替换, 生成伪原型序列, 替换次数上限 小于设定的阈值; 期望在共享词表的基础上, 该混合了源端和重要目标端词汇的伪原型序 列能够为译 文的生成提供指导。 4.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在 于: 所述Step3中包括: Step3.1、 编码端采用双编码器结构, 能够同时接收句子输入和原型序列输入, 然后将 输入编码为相应的隐状态表示; 句子编码器为标准的Transformer编码器, 由多层堆叠而 成; 其中每层又 由2个子层构成: 多头自注意力层和前馈神经网络层, 均使用残差连接和层 正则化机制; 给定输入句子x=(x1, x2, ..., xm), 句子编码器将其编码为相应的隐状态序列 hx=(hx1, hx2, ..., hxm), 其中hxi为xi对应的隐状态, 原 型编码器在神经 网络结构上与句子编 码器一致, 给定原型序列t=(t1, t2, ..., tn), 原型编码器将其编码为相应的隐状态序列ht =(ht1, ht2, ..., htn), 其中hti为ti对应的隐状态。 5.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在 于: 所述Step3中包括: 解码端融入门控机制, 利用神经网络自学习能力实现句子信 息和原型信息间的比例优 化, 控制解码过程中的信息流动; 改进后的解码器由三个子层构成: (1)自注意力层; (2)改 进的编解码注意力层; (3)全连接前馈网络层; 其中, 改进的编解码注意力层由句子编解码 注意力模块和原型编解码注意力模块构成; 接收到i时刻多头自注意力层的输出sself和句 子编码器的输出hx时, 句子编解码注意力模块进行注意力计算。 6.根据权利要求5所述的基于多策略原型生成的低资源神经机器翻译方法, 其特征在 于: 所述Step3中, 句子编解码注意力模块进行注意力计算包括: sx=MultiHeadA tt(sself, hx, hx) 其中MultiHeadAtt( ·)为基于多头的注意力计算, 与此类似, 原型编解码注意力的计 算为: st=MultiHeadA tt(sself, ht, ht) 随后, 句子编解码注意力输出sx和原型编解码注意力输出st被连接, 用于计算比例变量 α: α =sigmo id(Wα[sx; st]+bα) 其中Wα和bα为可训练参数, α 随后被用于计算编解码注意力层的最终输出, 计算公式为: senc_dec=α *sx+(1‑α )*st 进而senc_dec作为输入被填充到全连接前馈网络中:权 利 要 求 书 2/3 页 3 CN 114676708 A 3

.PDF文档 专利 基于多策略原型生成的低资源神经机器翻译方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多策略原型生成的低资源神经机器翻译方法 第 1 页 专利 基于多策略原型生成的低资源神经机器翻译方法 第 2 页 专利 基于多策略原型生成的低资源神经机器翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。