专利语料库构建与过滤方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210356507.5 (22)申请日 2022.04.06 (71)申请人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人郭建铭　夏子超　郑心浩　陈欣然　郭进尧　刘津榤　刘琴　刘功申　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 专利代理师胡晶 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 40/211(2020.01)G06F 40/263(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称语料库构建与过滤方法及系统 (57)摘要本发明提供了一种语料库构建与过滤方法及系统，包括：步骤1：对获取的初始平行语料进行文档分句对齐处理，得到双语平行语料；步骤 2：根据双语平行语料的文本对齐度，进行过滤处理，得到语料库。与现有技术相比，本发明实现了多种互联网多语种语料库的自动采集的方案，并能够基于此完成语料库的自动对齐。此外，还设计了高性能低资源语种的过滤方法，进一步提高了生成语料库的质量，为相关自然语言处理下游任务提供数据保障和支持。权利要求书1页说明书9页附图1页 CN 114780667 A 2022.07.22 CN 114780667 A 1.一种语料库构建与过滤方法，其特征在于，包括：步骤1：对获取的初始平行语料进行文档分句对齐处理，得到双语平行语料；步骤2：根据所述双语平行语料的文本对齐度，进行过滤处理，得到语料库。 2.根据权利要求1所述的语料库构建与过滤方法，其特征在于，所述步骤1，包括：步骤101：从预设资源库中获取所述初始平行语料；步骤102：对所述初始平行语料进行分句，并进行句子对齐处理，得到所述双语平行语料。 3.根据权利要求1所述的语料库构建与过滤方法，其特征在于，所述步骤2，包括：步骤201：将所述双语平行语料输入翻译模型，以得到所述翻译模型输出的特征向量；步骤202：将所述特征向量输入多层感知机，以获取所述文本对齐度；步骤203：通过所述文本对齐度进行过滤处理，得到所述语料库。 4.根据权利要求1或2所述的语料库构建与过滤方法，其特征在于，所述步骤1，还包括：步骤103：对所述预设资源库进行网页派生，得到派生网页集合；步骤104：将所述网页派生集合加入所述预设资源库。 5.根据权利要求3所述的语料库构建与过滤方法，其特征在于，所述步骤203，包括：步骤2031：若所述文本对齐度大于或者等于预设阈值，则将对应的双语平行语料放入所述语料库；步骤2032：若所述文本对齐度小于所述预设阈值，则舍弃对应的双语平行语料。 6.一种语料库构建与过滤系统，其特征在于，包括：模块M1：对获取的初始平行语料进行文档分句对齐处理，得到双语平行语料；模块M2：根据所述双语平行语料的文本对齐度，进行过滤处理，得到语料库。 7.根据权利要求6所述的语料库构建与过滤系统，其特征在于，所述模块M1，包括：子模块M101：从预设资源库中获取所述初始平行语料；子模块M102：对所述初始平行语料进行分句，并进行句子对齐处理，得到所述双语平行语料。 8.根据权利要求6所述的语料库构建与过滤系统，其特征在于，所述模块M2，包括：子模块M201：将所述双语平行语料输入翻译模型，以得到所述翻译模型输出的特征向量；子模块M202：将所述特征向量输入多层感知机，以获取所述文本对齐度；子模块M20 3：通过所述文本对齐度进行过滤处理，得到所述语料库。 9.根据权利要求6或7所述的语料库构建与过滤系统，其特征在于，所述模块M1，还包括：子模块M10 3：对所述预设资源库进行网页派生，得到派生网页集合；子模块M104：将所述网页派生集合加入所述预设资源库。 10.根据权利要求8所述的语料库构建与过滤系统，其特征在于，所述模块M20 3，包括：单元D2031：若所述文本对齐度大于或者等于预设阈值，则将对应的双语平行语料放入所述语料库；单元D2032：若所述文本对齐度小于所述预设阈值，则舍弃对应的双语平行语料。权　利　要　求　书 1/1 页 2 CN 114780667 A 2语料库构建与过滤方法及系统技术领域 [0001]本发明涉及跨语言文本翻译与对齐技术领域，具体地，涉及一种语料库构建与过滤方法及系统，尤其涉及一种面向低资源语种翻译系统的语料库构建与过滤方法。背景技术 [0002]随着沿线信息化基础设施的不断普及，加之沿线多语种语言互通的复杂性，信息系统越来越依赖高质量的多语种跨语言服务。由此可见，多语种跨语言信息处理服务，成为迫切需求。而目前各个国家语言种类繁多，语言状况复杂，大多数语言语料资源匮乏，且获取难度高、代价大，这类语言被称为低资源语言。近几年，神经网络机器翻译模型取得了最好的翻译性能。但这种神经网络机器翻译依赖于高质量的双语语料，不同语种的双语语料对,如汉语—尼泊尔语，其质量与规模对机器翻译的训练效果有重要影响。 [0003]因此,构建良好低资源翻译系统的重要前提是能够获取内容丰富的高质量双语语料。 [0004]专利文献CN114139561A公开了一种多领域神经机器翻译性能提升方法，步骤为：爬取海量数据作为模型训练语料，分为特定领域语料库和多领域平行语料库；计算多领域平行语料库中每个句子与各个特定领域语料库的相似度；从多领域平行语料库中筛选与多个特定领域语料库平均相似度高的句子作为多领域模型的训练集；构建多领域深层神经机器翻译模型和多个特定领域的深层神经机器翻译模型进行训练并存储模型参数；计算各个特定领域语料库与多领域平行语料库的相似度，对多领域模型和各个特定领域模型进行循环知识精炼，最终得到性能提升的多领域神经机器翻译模型。该专利文献提出通过网络爬虫提取文本，通过句向量相似度选择训练数据。但是，该方法没有提供爬虫对象、爬取方式和文本处理方式，更没有提出针对低资源语料的语料选择和过滤算法，没有解决低资源语料的语料选择和过滤的问题。发明内容 [0005]针对现有技术中的缺陷，本发明的目的是提供一种语料库构建与过滤方法及系统。 [0006]根据本发明提供的一种语料库构建与过滤方法，包括： [0007]步骤1：对获取的初始平行语料进行文档分句对齐处理，得到双语平行语料； [0008]步骤2：根据双语平行语料的文本对齐度，进行过滤处理，得到语料库。 [0009]优选地，步骤1，包括： [0010]步骤101：从预设资源库中获取初始平行语料； [0011]步骤102：对初始平行语料进行分句，并进行句子对齐处理，得到双语平行语料。 [0012]优选地，步骤2，包括： [0013]步骤201：将双语平行语料输入翻译模型，以得到翻译模型输出的特征向量； [0014]步骤202：将特征向量输入多层感知机，以获取文本对齐度；说　明　书 1/9 页 3 CN 114780667 A 3

专利 语料库构建与过滤方法及系统

专利语料库构建与过滤方法及系统