(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210356507.5
(22)申请日 2022.04.06
(71)申请人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
(72)发明人 郭建铭 夏子超 郑心浩 陈欣然
郭进尧 刘津榤 刘琴 刘功申
(74)专利代理 机构 上海汉声知识产权代理有限
公司 3123 6
专利代理师 胡晶
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/35(2019.01)
G06F 16/951(2019.01)
G06F 16/955(2019.01)
G06F 40/211(2020.01)G06F 40/263(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 40/58(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
语料库构建与过滤方法及系统
(57)摘要
本发明提供了一种语料库构建与过滤方法
及系统, 包括: 步骤1: 对获取的初始平行语料进
行文档分句对齐处理, 得到双语平行语料; 步骤
2: 根据双语平行语料的文本对齐度, 进行过滤处
理, 得到语料库。 与现有技术相比, 本发 明实现了
多种互联网多语种语料库的自动采集的方案, 并
能够基于此完成语料库的自动对齐。 此外, 还设
计了高性能低资源语种的过滤方法, 进一步提高
了生成语料库的质量, 为相关自然语 言处理下游
任务提供数据保障和支持。
权利要求书1页 说明书9页 附图1页
CN 114780667 A
2022.07.22
CN 114780667 A
1.一种语料库构建与过 滤方法, 其特 征在于, 包括:
步骤1: 对获取的初始 平行语料进行文档分句对齐处 理, 得到双语平行语料;
步骤2: 根据所述双语平行语料的文本对齐度, 进行 过滤处理, 得到语料库。
2.根据权利要求1所述的语料库构建与过 滤方法, 其特 征在于, 所述 步骤1, 包括:
步骤101: 从预设 资源库中获取 所述初始 平行语料;
步骤102: 对所述初始平行语料进行分句, 并进行句子对齐处理, 得到所述双语平行语
料。
3.根据权利要求1所述的语料库构建与过 滤方法, 其特 征在于, 所述 步骤2, 包括:
步骤201: 将所述双语平行语料输入翻译模型, 以得到所述翻译模型输出的特 征向量;
步骤202: 将所述特 征向量输入多层感知机, 以获取 所述文本对齐度;
步骤203: 通过所述文本对齐度进行 过滤处理, 得到所述语料库。
4.根据权利要求1或2所述的语料库构建与过 滤方法, 其特 征在于, 所述 步骤1, 还 包括:
步骤103: 对所述预设 资源库进行网页派生, 得到派生网页集 合;
步骤104: 将所述网页派生 集合加入所述预设 资源库。
5.根据权利要求3所述的语料库构建与过 滤方法, 其特 征在于, 所述 步骤203, 包括:
步骤2031: 若所述文本对齐度大于或者等于预设阈值, 则将对应的双语平行语料放入
所述语料库;
步骤2032: 若所述文本对齐度小于所述预设阈值, 则舍弃对应的双语平行语料。
6.一种语料库构建与过 滤系统, 其特 征在于, 包括:
模块M1: 对获取的初始 平行语料进行文档分句对齐处 理, 得到双语平行语料;
模块M2: 根据所述双语平行语料的文本对齐度, 进行 过滤处理, 得到语料库。
7.根据权利要求6所述的语料库构建与过 滤系统, 其特 征在于, 所述模块M1, 包括:
子模块M101: 从预设 资源库中获取 所述初始 平行语料;
子模块M102: 对所述初始平行语料进行分句, 并进行句子对齐处理, 得到所述双语平行
语料。
8.根据权利要求6所述的语料库构建与过 滤系统, 其特 征在于, 所述模块M2, 包括:
子模块M201: 将所述双语平行语料输入翻译模型, 以得到所述翻译模型输出的特征向
量;
子模块M202: 将所述特 征向量输入多层感知机, 以获取 所述文本对齐度;
子模块M20 3: 通过所述文本对齐度进行 过滤处理, 得到所述语料库。
9.根据权利要求6或7所述的语料库构建与过滤系统, 其特征在于, 所述模块M1, 还包
括:
子模块M10 3: 对所述预设 资源库进行网页派生, 得到派生网页集 合;
子模块M104: 将所述网页派生 集合加入所述预设 资源库。
10.根据权利要求8所述的语料库构建与过 滤系统, 其特 征在于, 所述模块M20 3, 包括:
单元D2031: 若所述文本对齐度大于或者等于预设阈值, 则将对应的双语平行语料放入
所述语料库;
单元D2032: 若所述文本对齐度小于所述预设阈值, 则舍弃对应的双语平行语料。权 利 要 求 书 1/1 页
2
CN 114780667 A
2语料库构建与过滤方 法及系统
技术领域
[0001]本发明涉及跨语言文本翻译与对齐技术领域, 具体地, 涉及一种语料库构建与过
滤方法及系统, 尤其涉及一种面向低资源语种翻译系统的语料库构建与过 滤方法。
背景技术
[0002]随着沿线信息化基础设施的不断普及, 加之沿线多语种语言互通的复杂性, 信息
系统越来越依赖高质量的多语种跨语言服务。 由此可见, 多语种跨语言信息处理服务, 成为
迫切需求。 而目前各个 国家语言种类繁多, 语言状况复杂, 大多数语言语料资源匮乏, 且获
取难度高、 代价大, 这类语言被称为低资源语言。 近几年, 神经网络机器翻译模型取得了最
好的翻译性能。 但这种神经网络机器翻译依赖于高质量的双语语料, 不同语种的双语语料
对,如汉语—尼泊尔语, 其质量与规模 对机器翻译的训练效果有重要影响。
[0003]因此,构建良好低资源翻译系统的重要前提是能够获取内容丰富的高质量双语语
料。
[0004]专利文献CN114139561A公开了一种多领域神经机器翻译性能提升方法, 步骤为:
爬取海量数据作为模型训练语料, 分为特定领域语料库和多领域平行语料库; 计算多领域
平行语料库中每个句子与各个特定领域语料库的相似度; 从多领域平行语料库中筛选与多
个特定领域语料库 平均相似度高的句子作为多领域模型的训练集; 构建多 领域深层神经机
器翻译模型和多个特定领域的深层神经机器翻译模型进行训练并存储模型参数; 计算各个
特定领域语料库与多 领域平行语料库的相似度, 对多 领域模型和各个特定领域模型进 行循
环知识精炼, 最终得到性能提升的多领域神经机器翻译模型。 该专利文献提出通过网络爬
虫提取文本, 通过句向量相似度选择训练数据。 但是, 该方法没有提供爬虫对象、 爬取方式
和文本处理方式, 更没有提出针对低资源语料 的语料选择和过滤算法, 没有解决低资源语
料的语料选择和过 滤的问题。
发明内容
[0005]针对现有技术中的缺陷, 本发明的目的是提供一种语料库构建与过滤方法及系
统。
[0006]根据本发明提供的一种语料库构建与过 滤方法, 包括:
[0007]步骤1: 对获取的初始 平行语料进行文档分句对齐处 理, 得到双语平行语料;
[0008]步骤2: 根据双语平行语料的文本对齐度, 进行 过滤处理, 得到语料库。
[0009]优选地, 步骤1, 包括:
[0010]步骤101: 从预设 资源库中获取初始 平行语料;
[0011]步骤102: 对初始 平行语料进行分句, 并进行句子对齐处 理, 得到双语平行语料。
[0012]优选地, 步骤2, 包括:
[0013]步骤201: 将双语平行语料输入翻译模型, 以得到翻译模型输出的特 征向量;
[0014]步骤202: 将特 征向量输入多层感知机, 以获取文本对齐度;说 明 书 1/9 页
3
CN 114780667 A
3
专利 语料库构建与过滤方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:29上传分享