(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210240990.0
(22)申请日 2022.03.10
(65)同一申请的已公布的文献号
申请公布号 CN 114611487 A
(43)申请公布日 2022.06.10
(73)专利权人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 余正涛 张弘弢 王剑 文永华
相艳
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/169(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)(56)对比文件
CN 113268588 A,2021.08.17
CN 113901791 A,202 2.01.07
CN 112699665 A,2021.04.23
CN 112084769 A,2020.12.15
US 2021279414 A1,2021.09.09
KR 20200062885 A,2020.0 6.04
线岩团,余 正涛等.融合多策略数据增强的
低资源依存句法分析方法. 《计算机科 学》 .2022,
余正涛,文永华等.基于依存图网络的汉 越
神经机器翻译方法. 《中文信息学报》 .2021,
符斯慧.向印尼语的依存句法分析研究. 《中
国优秀硕士论文 全文数据库》 .2020,
Ying Li etc..Self-at tentive Biaf fine
Dependency Parsi ng. 《Proce edings of the
Twenty-Eighth I nternati onal Joint
Conference o n Artificial I ntelligence
(IJCAI-19)》 .2019, (续)
审查员 王诗玮
(54)发明名称
基于动态词嵌入对齐的无监督泰语依存句
法分析方法
(57)摘要
本发明涉及一种基于动态词嵌入对齐的无
监督泰语依存句法分析方法, 属于自然语言处理
领域。 本发明包括步骤: 首先分别获取泰语和英
语的单语动态词嵌入; 然后针对泰语作为低资源
语言缺乏双语平行语料, 采用对抗训练的方式将
泰语和英语的词向量进行对齐, 从而构建新的词
向量对应关系; 最后针对泰语缺乏标注语料, 借
助泰语和英语间的映射矩 阵将在英语依存标注
树库上训练的Biaffine解析模型迁移 到泰语, 以
此实现无监督泰语依存句法分析任务。 与以往基
于迁移学习的泰语依存句法分析方法相比, 本发明既不需要平行语料、 又不需要泰语依存 标注语
料, 可以在资源成本更低的情况下完成泰语依存
句法分析。
[转续页]
权利要求书1页 说明书8页 附图2页
CN 114611487 B
2022.12.13
CN 114611487 B
(56)对比文件
Guy Rotman.De ep Contextual ized Self-
training for L ow Resource Dependency Parsing. 《Transacti ons of the As sociation
for Computati onal Linguistics (2019)》
.2019,2/2 页
2[接上页]
CN 114611487 B1.基于动态词嵌入对齐的无监督泰语依存句法分析方法, 其特征在于: 所述方法的具
体步骤如下:
Step1、 首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态
词嵌入;
Step2、 然后采用对抗训练的方式将泰语和英语的词向量进行对齐, 从而获得泰语和英
语的词嵌入 对齐矩阵;
Step3、 接着利用英语依存标注数据训练一个Biaf fine依存解析器;
Step4、 最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的
Biaffine依存解析器, 依据此模型进行 无监督泰语依存句法分析;
所述Step1的具体步骤为:
Step1.1、 爬取泰语单语语料和英语单语语料, 单语语料为一句一行, 且将泰语单语句
子进行分词预处 理;
Step1.2、 采用ELMo预训练语言模型分别获取英语和泰语的单语词向量; 计算均值向量
用于表示动态词向量, 简化上下文相关词向量的映射, 此外计算余弦相似度实现同种语言
中语义相近词的聚类, 来改善向量空间的对齐, 将最终的表示作为动态词嵌入;
所述Step3的具体步骤为:
Step3.1、 使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入;
Step3.2、 将提取到的英语动态词嵌入输入B iaffine模型, 训练一个B iaffine依存解析
器。
2.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法, 其特
征在于: 所述Step2的具体步骤为:
Step2.1、 使用带线性生成器的原始GAN通过对抗训练生成一个泰语和英语之间的粗粒
度映射矩阵;
Step2.2、 根据粗粒度的映射矩阵, 选取高频词构建平行词对;
Step2.3、 用Procrustes算法对构建的平行词对进行微调, 最小化这些平行词对之间 的
差异, 获得精调后的泰语和英语的词嵌入 对齐矩阵。
3.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法, 其特
征在于: 所述Step4的具体步骤为:
Step4.1、 使用泰语的ELMo预训练模型提取 无依存标注的泰语数据的动态词嵌入;
Step4.2、 将Step2中获取的词嵌入对齐矩阵和泰语词嵌入一起输入Step3中预训练的
Biaffine依存解析器, 完成无监 督泰语依存句法标注。权 利 要 求 书 1/1 页
2
CN 114611487 B
3
专利 基于动态词嵌入对齐的无监督泰语依存句法分析方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:55上传分享