国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210390694.9 (22)申请日 2022.04.14 (71)申请人 西安邮电大 学 地址 710121 陕西省西安市长安区西长安 街618号 (72)发明人 曹小鹏 王凯丽 杨笑 (51)Int.Cl. G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/216(2020.01) G06F 40/151(2020.01) G06F 40/126(2020.01) G06F 17/10(2006.01) (54)发明名称 一种多粒度知识增强的语义匹配方法 (57)摘要 本发明提出一种多粒度知识增强的语义匹 配方法, 解决文本匹配一词多义、 分词不当的问 题, 本发明的技术方案主要包括以下步骤: (1)构 建嵌入模型(2)捕获匹配特征(3)计算文本相似 度。 该方法主 要应用于文本 语义匹配任务中。 权利要求书1页 说明书5页 附图1页 CN 114723013 A 2022.07.08 CN 114723013 A 1.一种多粒度知识增强的语义匹配方法, 其特 征在于: (1)构建嵌入模型: 从字符粒度和词粒度对文本进行嵌入, 使用Lattice LSTM融合字符 和单词级别的信息, 引入HowNet外部知识库, 获取输入句子中所有隐含的单词信息, 解决一 词多义的问题。 (2)捕获匹配特征: 从字符粒度和词粒度对两个句子进行编码, 利用注意力机制捕 获文 本在字符和词两个粒度的隐藏信息。 最终根据池化提取文本特征, 并输入预测层判断两个 句子是否相似。权 利 要 求 书 1/1 页 2 CN 114723013 A 2一种多粒度知识增强的语 义匹配方 法 技术领域 [0001]本发明属于计算机自然语言处理领域, 具体涉及 一种采用多粒度知识增强模式进 行语义匹配的方法。 背景技术 [0002]文本语义 匹配作为自然语言处理领域的一项基本问题和研究热点, 广泛适用于现 实生活中的各个方面。 比如做对话问答任务时, 对 上下文之间的语义进 行匹配, 或者比较问 题与候选答案 之间的语义是否匹配, 从而选出正确答案; 做阅读理解任务时, 可以将文本与 问题进行匹配选出答案, 因此文本匹配技 术在自然语言处 理中占据着比较重要的角色。 [0003]传统的短文本匹配主要从词汇层面对句子做匹配, 一般从词、 句式等方面进行考 虑, 词和词之间是独立的, 缺少词语的上下文语境, 这极大地忽略了词本身的语义信息。 汉 语中大量的词语是多义词, 这为语义理解带来了很大 的困难。 现有的交互模型仅使用单一 的词向量进行交互, 不能有效地利用句 子之间的上下文信息, 导致文本隐含的语义特征不 能被完全挖掘。 [0004]2013年, Huang等人提出了一种深度语义结构 化模型, 这是深度学习应用于文本匹 配的最早作品之一。 通过使用MLP将单词或句子映射到特征向量, 使用两个深度前馈神经网 络将查询文档投影到潜在空间等长的低 维向量中, 并通过余弦相似度来衡量相关性。 该模 型既可以减少切词依赖, 又 可以提高模型的范化能力。 [0005]2015年, 华为诺亚方舟实验室, 采用CNN模型解决语义匹配问题, 提出了两种网络 架构, 分别为ARC ‑I和ARC‑II, 其中ARC ‑II在第一层卷积后把两个文本进行融合。 Wang和 Jiang提出了匹配文本序列的比较聚合模 型, 执行单词级别的匹配, 使用卷积神经网络进 行 聚合。 随后, Wang等人提出BiMP M模型, 从多个角度进行文本匹配, 在释义识别和自然语 言推 理任务上均有良好的效果。 [0006]2016年, Pang等人提出MatchPyramid模型, 该模型聚焦于单词之 间的关系, 对句子 中的词进行点乘、 余弦相似度等计算来获取匹配矩阵, 随后对矩阵进行二维卷积来提取特 征。 MatchPyramid在 文本匹配上具有良好的效果, 但 缺乏词与词形成词组后的匹配信息。 长 短时记忆神经网络LSTM提取长序列文本的特征信息, 获得文本的全局信息, 解决了CNN不能 提取全局特征的缺陷。 Chen等人提出了ESIM模 型, 该模型是LSTM的加强版, 考虑了局部推断 和全局推断, 用句子间的注意力机制, 实现局部的推断, 进一 步实现全局的推断。 [0007]2018年, Google提出了BERT模型, BERT模型利用MLM和NSP进 行预训练, 并且采用深 层的双向Transformer组件, 最终生成融合上下文信息的深层双向语言表征。 BERT在NLP领 域的任务中取 得了良好的效果, 但模型庞大, 网络参数多, 进行 预训练或微调时速度较慢。 发明内容 [0008]本发明提出一种多粒度知识增强的语义匹配方法, 本发明的技术方案主要包括以 下步骤: 1.构建嵌入模 型: 从字符粒度和词粒度对文本进行嵌入, 使用Lattice LSTM融合字说 明 书 1/5 页 3 CN 114723013 A 3
专利 一种多粒度知识增强的语义匹配方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:09
上传分享
举报
下载
原文档
(616.5 KB)
分享
友情链接
GB 9706.205-2020 医用电气设备 第2-5部分:超声理疗设备的基本安全和基本性能专用要求.pdf
GB-T 2847-2005 用于水泥中的火山灰质混合材料.pdf
T-CISA 046—2020 铬—锰—镍—氮系奥氏体不锈钢冷轧钢板和钢带.pdf
GB-T 33674-2017 气象数据集核心元数据.pdf
GB-T 21254-2017 呼出气体酒精含量检测仪.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
GM-T 0055-2018 电子文件密码应用技术规范.pdf
GB-T 30281-2013 信息安全技术 鉴别与授权 可扩展访问控制标记语言.pdf
GB-T 37095-2018 信息安全技术 办公信息系统安全基本技术要求.pdf
GB-T 41158-2021 汽车后市场配件流通信息管理要求.pdf
DB54-T 0246-2022 电动自行车集中停放场所建设标准 西藏自治区.pdf
DB3310-T 93-2022 公共数据授权运营指南 台州市.pdf
T-CEC 606—2022 电力用直流电源系统蓄电池组远程充放电技术规范.pdf
GB-T 38548.1-2020 内容资源数字化加工 第1部分:术语.pdf
DB43-T 1903-2020 茶园有机肥替减化肥技术规程 湖南省.pdf
GB-T 29422-2012 水泥化学分析废液的处理方法.pdf
Cisco路由器安全配置基线.doc
GB/T 40212-2021 工业机器人云服务平台分类及参考体系结构.pdf
GB-T 30428.5-2017 数字化城市管理信息系统 第5部分:监管信息采集设备.pdf
NB-T 10876-2021 水电工程建设征地移民安置规划设计规范.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(616.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。