(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210363800.4 (22)申请日 2022.04.07 (71)申请人 北京爱奇艺科技有限公司 地址 100080 北京市海淀区海淀北一 街2号 11层1101 (72)发明人 申利彬  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 唐会娜 (51)Int.Cl. G06F 40/44(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/253(2020.01) G06F 40/58(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 翻译结果的评估方法、 装置、 设备及存储介 质 (57)摘要 本申请涉及一种翻译结果的评估方法、 装 置、 设备及存储介质, 其中, 所述方法包括: 获取 源语言数据和 翻译后的目标语言数据; 确定所述 源语言数据的第一统计特征以及确定所述目标 语言数据的第二统计特征; 计算所述源语言数据 和所述目标语 言数据之间的语义相似度; 计算所 述目标语言数据的语言质量特征; 其中, 所述语 言质量特征用于表征所述目标语言数据是否符 合语法; 将所述第一统计特征、 所述第二统计特 征、 所述语义相似度和所述语言质量特征输入到 深度神经网络模型中, 得到评估结果。 本申请用 以解决无法对翻译结果进行准确评估, 导致翻译 效率低的技 术问题。 权利要求书3页 说明书9页 附图3页 CN 114707521 A 2022.07.05 CN 114707521 A 1.一种翻译结果的评估方法, 其特 征在于, 包括: 获取源语言数据和翻译后的目标语言数据; 确定所述源语言数据的第一统计特 征以及确定所述目标语言数据的第二统计特 征; 计算所述源语言数据和所述目标语言数据之间的语义相似度; 计算所述目标语言数据的语言质量特征; 其中, 所述语言质量特征用于表征所述目标 语言数据是否符合语法; 将所述第一统计特征、 所述第二统计特征、 所述语义相似度和所述语言质量特征输入 到深度神经网络模型中, 得到 评估结果。 2.根据权利要求1所述的翻译结果的评估方法, 其特征在于, 所述确定所述源语言数据 的第一统计特 征, 包括: 获取第一语料打分字典; 其中, 所述第一语料打分字典中包括: 至少一个指定文本各自 的第一得分, 和/或, 多个分词的第二得分; 从所述源语言数据中, 提取至少一个目标指定文本; 查询所述第一语料打 分字典, 确定各 所述目标指定文本各自对应的目标第一得分; 和/或, 对所述源语言数据进行分词, 得到多个目标分词; 查询所述第一语料打分字典, 确定各 所述目标分词各自的目标第二得分; 将各所述目标第一得分, 和/或, 各 所述目标第二得分, 作为所述第一统计特 征。 3.根据权利要求2所述的翻译结果的评估方法, 其特征在于, 所述获取第 一语料打分字 典, 包括: 获取源语言训练数据; 统计源语言训练数据中, 至少一个指定文本各自出现的频次; 对于每个所述指定文本, 根据 所述频次, 计算所述指定文本的所述第 一得分; 对应存储 所述指定文本和所述第一得分, 得到第一对应关系; 将所述源语言训练数据进行n ‑gram分词, 得到多个所述分词; 其 中, n的取值范围是1~ 3; 统计每个所述分词的词频; 根据各所述分词各自的词频, 分别对所述分词进行打分, 得到各所述分词各自的第二 得分, 对应存 储各所述分词以及与所述分词对应的所述第二得分, 得到第二对应关系; 保存所述第一对应关系和所述第二对应关系, 得到所述第一语料打 分字典。 4.根据权利要求3所述的翻译结果的评估方法, 其特征在于, 所述根据所述频次, 计算 所述指定文本的所述第一得分, 包括: 统计所述源语言训练数据中, 与 所述指定文本属于同一个语料类别的所有文本出现的 总次数; 对所述频次取对数, 得到第一中间结果; 对所述总次数 取对数, 得到第二中间结果; 将所述第一中间结果除以所述第二中间结果, 得到所述第一得分。 5.根据权利要求3所述的翻译结果的评估方法, 其特征在于, 所述根据 各所述分词各自 的词频, 分别对所述分词进行打 分, 得到各 所述分词各自的第二得分, 包括:权 利 要 求 书 1/3 页 2 CN 114707521 A 2将各所述分词按照所述词频从低到高的顺序进行排序, 得到排序结果; 将所述排序结果 等分成至少两个区间; 且每 个所述区间对应有一个评分; 对于每个所述分词, 确定所述词频对应的区间, 将所述词频对应的区间的评分, 作为所 述分词的第二得分。 6.根据权利要求1~5任意一项所述的翻译结果的评估方法, 其特征在于, 所述确定所 述目标语言数据的第二统计特 征, 包括: 获取第二语料打分字典; 其中, 所述第二语料打分字典中包括: 在双语训练数据中, 多 组双语对齐词语对应翻译的次数; 对所述源语言数据和所述目标语言数据进行对齐, 得到多个目标对齐词语对; 从所述第二语料打分字典中, 确定各所述目标对齐词语对各自对应的次数, 将各所述 次数作为所述目标语言数据的第二统计特 征。 7.根据权利要求6所述的翻译结果的评估方法, 其特征在于, 所述获取第 二语料打分字 典, 包括: 获取源语言训练数据和目标语言训练数据; 对齐所述源语言训练数据和所述目标语言训练数据, 得到对齐结果; 统计所述对齐结果中, 每组双语对齐词语对 对齐的次数; 对应存储所述双语对齐词语对和所述次数, 得到所述第二语料打 分字典。 8.根据权利要求1所述的翻译结果的评估方法, 其特征在于, 所述计算所述源语言数据 和所述目标语言数据之间的语义相似度, 包括: 获取相似度评分模型; 其中, 所述相似度评分模型用于计算所述源语言数据和所述目 标语言数据的语义相似度; 将所述源语言数据和所述目标语言数据输入到所述相似度评分模型, 得到所述语义相 似度。 9.根据权利要求1所述的翻译结果的评估方法, 其特征在于, 所述计算所述目标语言数 据的语言质量特 征, 包括; 获取语法评价模型; 其中, 所述语法评价模型用于判断所述目标语言数据是否符合语 法; 将所述目标语言数据输入到所述语法评价模型, 得到所述语言质量特 征。 10.一种翻译结果的评分装置, 其特 征在于, 包括: 获取模块, 用于获取源语言数据和翻译后的目标语言数据; 确定模块, 用于确定所述源语言数据的第 一统计特征以及确定所述目标语言数据的第 二统计特 征; 第一计算模块, 用于计算所述源语言数据和所述目标语言数据之间的语义相似度; 第二计算模块, 计算所述目标语言数据的语言质量特征; 其中, 所述语言质量特征用于 表征所述目标语言数据是否符合语法; 评估模块, 用于将所述第 一统计特征、 所述第 二统计特征、 所述语义相似度和所述语言 质量特征输入到深度神经网络模型中, 得到 评估结果。 11.一种电子设备, 包括: 处理器、 存储器和通信总线, 其中, 处理器和存储器通过通信 总线完成相互间的通信; 所述存储器, 用于存储计算机程序; 所述处理器, 用于执行所述存权 利 要 求 书 2/3 页 3 CN 114707521 A 3

.PDF文档 专利 翻译结果的评估方法、装置、设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 翻译结果的评估方法、装置、设备及存储介质 第 1 页 专利 翻译结果的评估方法、装置、设备及存储介质 第 2 页 专利 翻译结果的评估方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。