专利基于动态词嵌入对齐的无监督泰语依存句法分析方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210240990.0 (22)申请日 2022.03.10 (65)同一申请的已公布的文献号申请公布号 CN 114611487 A (43)申请公布日 2022.06.10 (73)专利权人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人余正涛　张弘弢　王剑　文永华　相艳　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/169(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)(56)对比文件 CN 113268588 A,2021.08.17 CN 113901791 A,202 2.01.07 CN 112699665 A,2021.04.23 CN 112084769 A,2020.12.15 US 2021279414 A1,2021.09.09 KR 20200062885 A,2020.0 6.04 线岩团,余正涛等.融合多策略数据增强的低资源依存句法分析方法. 《计算机科学》 .2022, 余正涛,文永华等.基于依存图网络的汉越神经机器翻译方法. 《中文信息学报》 .2021, 符斯慧.向印尼语的依存句法分析研究. 《中国优秀硕士论文全文数据库》 .2020, Ying Li etc..Self-at tentive Biaf fine Dependency Parsi ng. 《Proce edings of the Twenty-Eighth I nternati onal Joint Conference o n Artificial I ntelligence (IJCAI-19)》 .2019, (续) 审查员王诗玮 (54)发明名称基于动态词嵌入对齐的无监督泰语依存句法分析方法 (57)摘要本发明涉及一种基于动态词嵌入对齐的无监督泰语依存句法分析方法，属于自然语言处理领域。本发明包括步骤：首先分别获取泰语和英语的单语动态词嵌入；然后针对泰语作为低资源语言缺乏双语平行语料，采用对抗训练的方式将泰语和英语的词向量进行对齐，从而构建新的词向量对应关系；最后针对泰语缺乏标注语料，借助泰语和英语间的映射矩阵将在英语依存标注树库上训练的Biaffine解析模型迁移到泰语，以此实现无监督泰语依存句法分析任务。与以往基于迁移学习的泰语依存句法分析方法相比，本发明既不需要平行语料、又不需要泰语依存标注语料，可以在资源成本更低的情况下完成泰语依存句法分析。 [转续页] 权利要求书1页说明书8页附图2页 CN 114611487 B 2022.12.13 CN 114611487 B (56)对比文件 Guy Rotman.De ep Contextual ized Self- training for L ow Resource Dependency Parsing. 《Transacti ons of the As sociation for Computati onal Linguistics (2019)》 .2019,2/2 页 2[接上页] CN 114611487 B1.基于动态词嵌入对齐的无监督泰语依存句法分析方法，其特征在于：所述方法的具体步骤如下： Step1、首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态词嵌入； Step2、然后采用对抗训练的方式将泰语和英语的词向量进行对齐，从而获得泰语和英语的词嵌入对齐矩阵； Step3、接着利用英语依存标注数据训练一个Biaf fine依存解析器； Step4、最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的 Biaffine依存解析器，依据此模型进行无监督泰语依存句法分析；所述Step1的具体步骤为： Step1.1、爬取泰语单语语料和英语单语语料，单语语料为一句一行，且将泰语单语句子进行分词预处理； Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语词向量；计算均值向量用于表示动态词向量，简化上下文相关词向量的映射，此外计算余弦相似度实现同种语言中语义相近词的聚类，来改善向量空间的对齐，将最终的表示作为动态词嵌入；所述Step3的具体步骤为： Step3.1、使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入； Step3.2、将提取到的英语动态词嵌入输入B iaffine模型，训练一个B iaffine依存解析器。 2.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法，其特征在于：所述Step2的具体步骤为： Step2.1、使用带线性生成器的原始GAN通过对抗训练生成一个泰语和英语之间的粗粒度映射矩阵； Step2.2、根据粗粒度的映射矩阵，选取高频词构建平行词对； Step2.3、用Procrustes算法对构建的平行词对进行微调，最小化这些平行词对之间的差异，获得精调后的泰语和英语的词嵌入对齐矩阵。 3.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法，其特征在于：所述Step4的具体步骤为： Step4.1、使用泰语的ELMo预训练模型提取无依存标注的泰语数据的动态词嵌入； Step4.2、将Step2中获取的词嵌入对齐矩阵和泰语词嵌入一起输入Step3中预训练的 Biaffine依存解析器，完成无监督泰语依存句法标注。权　利　要　求　书 1/1 页 2 CN 114611487 B 3

专利 基于动态词嵌入对齐的无监督泰语依存句法分析方法

专利基于动态词嵌入对齐的无监督泰语依存句法分析方法