(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210325218.9
(22)申请日 2022.03.30
(71)申请人 中译语通科技股份有限公司
地址 100131 北京市石景山区石景山路20
号中铁建 设大厦16层
(72)发明人 宗浩 贝超 苑聪虎 张一鸣
(74)专利代理 机构 北京兴智翔达知识产权代理
有限公司 1 1768
专利代理师 郭卫芹
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/205(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于损失函数筛选具有高贡献度语料
的方法及系统
(57)摘要
本发明属于机器翻译技术领域, 具体公开了
一种基于损失函数筛选具有高贡献度语料的方
法及系统, 其中方法包括以下步骤: 设定筛选具
有高贡献度语料的目标数量T; 利用Transformer
模型和基础大规模语料库, 使用损失函数, 对目
标语料库A中所有数据按批次计算交叉熵得到语
料库B; 对计算交叉熵后的语料库B进行排序, 选
择前50%进行随机排列; 重复步骤S1~S3, 直至
步骤S3中的语料库B的前50%随机排列的语料数
量不小于目标数量T; 将种子语料与步骤S4中筛
选出的语料集合C中的所有语料进行语义相似度
计算, 并对结果排序得到语料库D; 观察排序结
果, 并根据需要选取一定数量与种子语料最相似
的语料作为最具有贡献度的语料。 该方案节约成
本, 提升了筛选出语料的有效率。
权利要求书2页 说明书6页 附图4页
CN 114662502 A
2022.06.24
CN 114662502 A
1.一种基于损失函数筛 选具有高贡献度语料的方法, 其特 征在于, 包括以下步骤:
S1, 设定筛选具有高贡献度语料的目标 数量T;
S2, 利用Transformer模型和基础 大规模语料库, 使用损失函数, 对目标语料库A中所有
数据按批次计算损失函数中的交叉熵得到语料库B;
S3, 对计算交叉熵后的语料库B进行排序, 选择 前50%进行随机排列;
S4, 重复步骤S1~S3, 直至步骤S3中的语料库B的前50%随机排列的语料数量不小于目
标数量T;
S5, 将种子语料与步骤S4中筛选出的语料集合C中的所有语料进行语义相似度计算, 并
对结果排序得到语料库D;
S6, 观察排序结果, 并根据需要选取一定数量与种子语料最相似的语料作为最具有贡
献度的语料。
2.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所
述Transformer为自注意力机制的神经网络, 具体包括:
点乘注意力Attention:
多头注意力MultiHead:
MultiHead(Q,K,V)=Co ncat(head1, …,headn)
其中, hea d1,…,headn为第一个词的向量, 分为多个头 标记, Q,K,V均为词向量, W为权重
矩阵, Concat是指把向量拼接起来, dk表示k向量的维度, KT表示K向量的转置, xi表示第i个
x, xj表示第j个x, i取值是1到j, j的取值是所有输入x的维度,
表示Q向量权重的的第i个
分量,
表示K向量权 重的的第i个分量,
表示V向量权 重的的第i个分量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2
其中, x表示输入向量, W1表示权重, b1和b2为偏差, W2表示第二组权 重;
最后通过softmax得到目标语言的词向量:
其中, θi为权重参数, k为目标语言词表的大小,
表示输入为x时当前的系统参数, k
表示词表大小, i表示第i组参数, T表转置, x表示输入。权 利 要 求 书 1/2 页
2
CN 114662502 A
23.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所
述损失函数中的交叉熵是训练数据中, 原文的标准译文和当前训练模型产生的机器翻译译
文之间的交叉熵。
4.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所
述S5的语义相似度计算具体包括: 将 需要比较的两个句子进行向量转化, 把句 子转化成向
量, 然后计算两个向量之间的余弦距离, 余弦距离就是两个句子之间的相似度。
5.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所
述S6具体包括: 选取和目标领域保持一致的语料, 通过计算余弦距离来进行排序, 将排序
后, 距离最近的语料作为与种子语料相似度最高的语料。
6.一种基于损失函数筛选具有高贡献度语料的方法的系统, 其特征在于, 所述系统用
于实现如权利要求1 ‑5任一项所述的基于损失函数筛选具有高贡献度语料的方法的步骤,
包括:
排序模块, 用于设定筛选具有高贡献度语料的目标数量T, 利用Transformer模型和基
础大规模语料库, 使用损失函数, 对目标语料库A中所有数据按批次计算损失函数中的交叉
熵得到语料库B, 对计算交叉熵后的语料库B进行排序, 选择 前50%进行随机排列;
重复上述操作过程 直至语料库B的前5 0%随机排列的语料 数量不小于目标 数量T;
相似度计算模块, 将种子语料与上述操作中筛选出的语料集合C中的所有语料进行语
义相似度计算, 并对结果 排序得到语料库D;
选取模块, 用于观察排序结果, 并根据需要选取一定数量与种子语料最相似的语料作
为最具有贡献度的语料。
7.一种电子设备, 其特征在于, 包括存储器、 处理器, 所述处理器用于执行存储器中存
储的计算机管理类程序时实现如权利要求 1‑5任一项所述的基于损失函数筛选具有高贡献
度语料的方法的步骤。
8.一种计算机可读存储介质, 其特征在于, 其上存储有计算机管理类程序, 所述计算机
管理类程序被处理器执行时实现如权利要求 1‑5任一项所述的基于损失函数筛选具有高贡
献度语料的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114662502 A
3
专利 一种基于损失函数筛选具有高贡献度语料的方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:27上传分享