(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210325218.9 (22)申请日 2022.03.30 (71)申请人 中译语通科技股份有限公司 地址 100131 北京市石景山区石景山路20 号中铁建 设大厦16层 (72)发明人 宗浩 贝超 苑聪虎 张一鸣  (74)专利代理 机构 北京兴智翔达知识产权代理 有限公司 1 1768 专利代理师 郭卫芹 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/205(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于损失函数筛选具有高贡献度语料 的方法及系统 (57)摘要 本发明属于机器翻译技术领域, 具体公开了 一种基于损失函数筛选具有高贡献度语料的方 法及系统, 其中方法包括以下步骤: 设定筛选具 有高贡献度语料的目标数量T; 利用Transformer 模型和基础大规模语料库, 使用损失函数, 对目 标语料库A中所有数据按批次计算交叉熵得到语 料库B; 对计算交叉熵后的语料库B进行排序, 选 择前50%进行随机排列; 重复步骤S1~S3, 直至 步骤S3中的语料库B的前50%随机排列的语料数 量不小于目标数量T; 将种子语料与步骤S4中筛 选出的语料集合C中的所有语料进行语义相似度 计算, 并对结果排序得到语料库D; 观察排序结 果, 并根据需要选取一定数量与种子语料最相似 的语料作为最具有贡献度的语料。 该方案节约成 本, 提升了筛选出语料的有效率。 权利要求书2页 说明书6页 附图4页 CN 114662502 A 2022.06.24 CN 114662502 A 1.一种基于损失函数筛 选具有高贡献度语料的方法, 其特 征在于, 包括以下步骤: S1, 设定筛选具有高贡献度语料的目标 数量T; S2, 利用Transformer模型和基础 大规模语料库, 使用损失函数, 对目标语料库A中所有 数据按批次计算损失函数中的交叉熵得到语料库B; S3, 对计算交叉熵后的语料库B进行排序, 选择 前50%进行随机排列; S4, 重复步骤S1~S3, 直至步骤S3中的语料库B的前50%随机排列的语料数量不小于目 标数量T; S5, 将种子语料与步骤S4中筛选出的语料集合C中的所有语料进行语义相似度计算, 并 对结果排序得到语料库D; S6, 观察排序结果, 并根据需要选取一定数量与种子语料最相似的语料作为最具有贡 献度的语料。 2.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所 述Transformer为自注意力机制的神经网络, 具体包括: 点乘注意力Attention: 多头注意力MultiHead: MultiHead(Q,K,V)=Co ncat(head1, …,headn) 其中, hea d1,…,headn为第一个词的向量, 分为多个头 标记, Q,K,V均为词向量, W为权重 矩阵, Concat是指把向量拼接起来, dk表示k向量的维度, KT表示K向量的转置, xi表示第i个 x, xj表示第j个x, i取值是1到j, j的取值是所有输入x的维度, 表示Q向量权重的的第i个 分量, 表示K向量权 重的的第i个分量, 表示V向量权 重的的第i个分量; 前馈神经网络: FFN(x)=max(0,xW1+b1)W2+b2 其中, x表示输入向量, W1表示权重, b1和b2为偏差, W2表示第二组权 重; 最后通过softmax得到目标语言的词向量: 其中, θi为权重参数, k为目标语言词表的大小, 表示输入为x时当前的系统参数, k 表示词表大小, i表示第i组参数, T表转置, x表示输入。权 利 要 求 书 1/2 页 2 CN 114662502 A 23.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所 述损失函数中的交叉熵是训练数据中, 原文的标准译文和当前训练模型产生的机器翻译译 文之间的交叉熵。 4.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所 述S5的语义相似度计算具体包括: 将 需要比较的两个句子进行向量转化, 把句 子转化成向 量, 然后计算两个向量之间的余弦距离, 余弦距离就是两个句子之间的相似度。 5.根据权利要求1所述的基于损失函数筛选具有高贡献度语料的方法, 其特征在于, 所 述S6具体包括: 选取和目标领域保持一致的语料, 通过计算余弦距离来进行排序, 将排序 后, 距离最近的语料作为与种子语料相似度最高的语料。 6.一种基于损失函数筛选具有高贡献度语料的方法的系统, 其特征在于, 所述系统用 于实现如权利要求1 ‑5任一项所述的基于损失函数筛选具有高贡献度语料的方法的步骤, 包括: 排序模块, 用于设定筛选具有高贡献度语料的目标数量T, 利用Transformer模型和基 础大规模语料库, 使用损失函数, 对目标语料库A中所有数据按批次计算损失函数中的交叉 熵得到语料库B, 对计算交叉熵后的语料库B进行排序, 选择 前50%进行随机排列; 重复上述操作过程 直至语料库B的前5 0%随机排列的语料 数量不小于目标 数量T; 相似度计算模块, 将种子语料与上述操作中筛选出的语料集合C中的所有语料进行语 义相似度计算, 并对结果 排序得到语料库D; 选取模块, 用于观察排序结果, 并根据需要选取一定数量与种子语料最相似的语料作 为最具有贡献度的语料。 7.一种电子设备, 其特征在于, 包括存储器、 处理器, 所述处理器用于执行存储器中存 储的计算机管理类程序时实现如权利要求 1‑5任一项所述的基于损失函数筛选具有高贡献 度语料的方法的步骤。 8.一种计算机可读存储介质, 其特征在于, 其上存储有计算机管理类程序, 所述计算机 管理类程序被处理器执行时实现如权利要求 1‑5任一项所述的基于损失函数筛选具有高贡 献度语料的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114662502 A 3

.PDF文档 专利 一种基于损失函数筛选具有高贡献度语料的方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于损失函数筛选具有高贡献度语料的方法及系统 第 1 页 专利 一种基于损失函数筛选具有高贡献度语料的方法及系统 第 2 页 专利 一种基于损失函数筛选具有高贡献度语料的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。