(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210390694.9 (22)申请日 2022.04.14 (71)申请人 西安邮电大 学 地址 710121 陕西省西安市长安区西长安 街618号 (72)发明人 曹小鹏 王凯丽 杨笑  (51)Int.Cl. G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) G06F 40/151(2020.01) G06F 40/126(2020.01) G06F 17/10(2006.01) (54)发明名称 一种多粒度知识增强的语义匹配方法 (57)摘要 本发明提出一种多粒度知识增强的语义匹 配方法, 解决文本匹配一词多义、 分词不当的问 题, 本发明的技术方案主要包括以下步骤: (1)构 建嵌入模型(2)捕获匹配特征(3)计算文本相似 度。 该方法主 要应用于文本 语义匹配任务中。 权利要求书1页 说明书5页 附图1页 CN 114723013 A 2022.07.08 CN 114723013 A 1.一种多粒度知识增强的语义匹配方法, 其特 征在于: (1)构建嵌入模型: 从字符粒度和词粒度对文本进行嵌入, 使用Lattice  LSTM融合字符 和单词级别的信息, 引入HowNet外部知识库, 获取输入句子中所有隐含的单词信息, 解决一 词多义的问题。 (2)捕获匹配特征: 从字符粒度和词粒度对两个句子进行编码, 利用注意力机制捕 获文 本在字符和词两个粒度的隐藏信息。 最终根据池化提取文本特征, 并输入预测层判断两个 句子是否相似。权 利 要 求 书 1/1 页 2 CN 114723013 A 2一种多粒度知识增强的语 义匹配方 法 技术领域 [0001]本发明属于计算机自然语言处理领域, 具体涉及 一种采用多粒度知识增强模式进 行语义匹配的方法。 背景技术 [0002]文本语义 匹配作为自然语言处理领域的一项基本问题和研究热点, 广泛适用于现 实生活中的各个方面。 比如做对话问答任务时, 对 上下文之间的语义进 行匹配, 或者比较问 题与候选答案 之间的语义是否匹配, 从而选出正确答案; 做阅读理解任务时, 可以将文本与 问题进行匹配选出答案, 因此文本匹配技 术在自然语言处 理中占据着比较重要的角色。 [0003]传统的短文本匹配主要从词汇层面对句子做匹配, 一般从词、 句式等方面进行考 虑, 词和词之间是独立的, 缺少词语的上下文语境, 这极大地忽略了词本身的语义信息。 汉 语中大量的词语是多义词, 这为语义理解带来了很大 的困难。 现有的交互模型仅使用单一 的词向量进行交互, 不能有效地利用句 子之间的上下文信息, 导致文本隐含的语义特征不 能被完全挖掘。 [0004]2013年, Huang等人提出了一种深度语义结构 化模型, 这是深度学习应用于文本匹 配的最早作品之一。 通过使用MLP将单词或句子映射到特征向量, 使用两个深度前馈神经网 络将查询文档投影到潜在空间等长的低 维向量中, 并通过余弦相似度来衡量相关性。 该模 型既可以减少切词依赖, 又 可以提高模型的范化能力。 [0005]2015年, 华为诺亚方舟实验室, 采用CNN模型解决语义匹配问题, 提出了两种网络 架构, 分别为ARC ‑I和ARC‑II, 其中ARC ‑II在第一层卷积后把两个文本进行融合。 Wang和 Jiang提出了匹配文本序列的比较聚合模 型, 执行单词级别的匹配, 使用卷积神经网络进 行 聚合。 随后, Wang等人提出BiMP M模型, 从多个角度进行文本匹配, 在释义识别和自然语 言推 理任务上均有良好的效果。 [0006]2016年, Pang等人提出MatchPyramid模型, 该模型聚焦于单词之 间的关系, 对句子 中的词进行点乘、 余弦相似度等计算来获取匹配矩阵, 随后对矩阵进行二维卷积来提取特 征。 MatchPyramid在 文本匹配上具有良好的效果, 但 缺乏词与词形成词组后的匹配信息。 长 短时记忆神经网络LSTM提取长序列文本的特征信息, 获得文本的全局信息, 解决了CNN不能 提取全局特征的缺陷。 Chen等人提出了ESIM模 型, 该模型是LSTM的加强版, 考虑了局部推断 和全局推断, 用句子间的注意力机制, 实现局部的推断, 进一 步实现全局的推断。 [0007]2018年, Google提出了BERT模型, BERT模型利用MLM和NSP进 行预训练, 并且采用深 层的双向Transformer组件, 最终生成融合上下文信息的深层双向语言表征。 BERT在NLP领 域的任务中取 得了良好的效果, 但模型庞大, 网络参数多, 进行 预训练或微调时速度较慢。 发明内容 [0008]本发明提出一种多粒度知识增强的语义匹配方法, 本发明的技术方案主要包括以 下步骤: 1.构建嵌入模 型: 从字符粒度和词粒度对文本进行嵌入, 使用Lattice  LSTM融合字说 明 书 1/5 页 3 CN 114723013 A 3

.PDF文档 专利 一种多粒度知识增强的语义匹配方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多粒度知识增强的语义匹配方法 第 1 页 专利 一种多粒度知识增强的语义匹配方法 第 2 页 专利 一种多粒度知识增强的语义匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。