国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375009.5 (22)申请日 2022.04.11 (71)申请人 中国航空综合 技术研究所 地址 100028 北京市朝阳区东 直门外京顺 路7号 (72)发明人 董洪飞 贺薇 陶剑 高魁 高龙 武铎 刘俊 王孝天 安然 何柳 (74)专利代理 机构 北京孚睿湾知识产权代理事 务所(普通 合伙) 11474 专利代理师 王冬杰 (51)Int.Cl. G06F 40/295(2020.01) G06K 9/62(2022.01) G06F 40/151(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/242(2020.01) G06Q 50/30(2012.01) (54)发明名称 用于航空领域的知识元抽取方法 (57)摘要 本发明提供一种用于航空领域的知识元抽 取方法, 具体实施步骤包括: 将航空领域的结构 化标注数据输入到Bert模型, 输 出结构化标注数 据的特征向量; 将输 出的特征向量和Word2Vec模 型学习到的特征向量进行融合, 并做Concat 叠加 步骤; 将得到的字向量输入到层次归一化层, 得 到标准化的字向量; 利用高层强化学习过程对 得 到的每个字向量进行解码, 按句识别字向量中的 关系触发词; 建立面向航空领域长实体的头尾指 针模型, 得到预测出的关系和尾实体起止位置序 列; 将预测出的实体输出后, 根据实体的标签信 息进行就近原则以及匹配方式进行匹配。 本发明 面向航空领域, 基于郑码、 五笔、 拼音和笔画等特 征融入的方式, 与Bert输出的向量相结合, 提升 了准确率与召回率。 权利要求书3页 说明书9页 附图2页 CN 114764566 A 2022.07.19 CN 114764566 A 1.一种用于航空领域的知识元抽取 方法, 其特 征在于, 其具体步骤如下: S1、 模型预训练: 将航空领域的结构化标注数据输入到Bert模型, 得到微调预训练的 Bert模型, 并输出 结构化标注数据的特 征向量 S2、 特征融合: 将S1输出的特征向量和Word2Vec模型学习到的特征向量进行融合, 并做 Concat叠加步骤: S21、 利用汉字— 郑码映射表将非结构化的文本数据依字转换为对应的郑码序列; S22、 利用Word2Vec模型得到每个字的郑码特征向量, 所述郑码特征向量的具体表达式 为: p=fzhengma(X) (1) 其中, X表示字符的输入序列, fzhengma表示将输入的非结构化文本数据字符序列映射为 郑码序列的函数, p表示根据字符的输入序列映射得到的郑码特征序列, pi表示xi对应的郑 码序列, ezhengma表示郑码序列和郑码特征向量序列的映射表, 表示与输入序列xi 对应的郑码特 征向量; S23、 利用Word2Vec模型得到每个字的笔画特征向量, 所述笔画特征特征向量的具体表 达式为: p=fbihua(X) (3) 其中, fbihua表示将输入的X字符序列映射为笔画序列的函数, p表示根据输入的X字符序 列得到的笔画序列, pi表示输入字符xi对应的笔画序列, ebihua表示笔画序列和笔画特征向 量的映射表, 表示与输入序列X中的第i个输入字符对应的笔画特 征向量; S24、 利用Word2vec模型得到每个字的五笔特征向量向量 和拼音特征向量 S25、 将S22 ‑S24得到的 和 进行 Concat拼接特 征处理叠加得到 字向量, 所述 拼接特征处理的具体表达式如下: 其中, 分别代表着对BERT、 郑码、 五笔、 拼音 和笔画特 征向量, k 为0.5, 代表第i个字符对应的融合后向量; S3、 归一化处理: 将S2得到的字向量输入到层次归一化层, 得到标准化的字向量, 随后 将标准化的字向量输入BiLSTM模型, 得到包含上下文语义信息的字向量, 并利用对抗训练 进行参数 更新; S4、 实体关系预测: 利用高层强化学习过程对S3得到的每个字向量进行解码, 按句识别权 利 要 求 书 1/3 页 2 CN 114764566 A 2字向量中的关系触发词: S41、 对于识别出的不同结果, 设定对于整体模型的参数优化机制, 若识别出关系触发 词, 则根据识别出 的不同类别的关系实体对高层强化学习过程进行模型参数优化, 而后触 发低层强化学习过程进行实体识别, 对当前关系对应的实体进行解码; S42、 若未识别出关系触发词, 则停止解码; S5、 标签预测: 建立面向航空领域长实体的头尾指针模型, 通过头指针和尾指针做五分 类来识别关系实体的起始位置和结束位置, 并利用S4中的参数优化机制, 得到预测的关系 和尾实体的起止位置序列; S6、 模型后处理: 将预测出的实体输出后, 根据实体的标签信息进行就近原则以及匹配 方式进行匹配: S61、 将预测出的实体以就近原则将识别出的关系实体和尾实体一一配对, 得到三元 组; S62、 依据LTP依存句法抽取航空领域标注数据中的知识元信息, 得到知识元的三元组; S63、 依据关系和尾实体距离抽取航空领域标注数据中的多个知识元信息进行匹配, 得 到多个知识元的三元组; S64、 抽取航空领域标注数据中知识元混淆的知识元信 息: 若知识元中关系实体包含尾 实体或者前一个知识元的尾实体包含下一个知识元的关系, 则根据知识元组的位置及数据 信息, 找到相应混淆的位置, 做对应的截断, 从而得到对应知识元的三元组。 2.根据权利要求1所述的用于航空领域的知识元抽取方法, 其特征在于, 所述步骤S41 具体包括: S411、 获取当前时刻的状态向量 并计算输入文本中每个字与当前关系触发词的距 离; S412、 根据句子最大长度m及位置特 征大小n随机初始化 位置嵌入矩阵P; S413、 通过字向量在向量矩阵中的坐标查询位置嵌入矩阵P得到每个字的关系位置特 征pft; S414、 并根据S413获得的当前时刻的状态 及当前低层强化学习过程对应的高层强化 学习过程的 动作 采 用头尾指针网络进行实体标记的解码 , 产生动作 所述头尾指针网络的表达式如下: 其中, 为对模型给予不同参数优化机制的标准, π为具体的实体识别策略, f为低层强 化学习函数, 为当前时刻的状态向量, 为当前高层强化学习过程的动作, H和T分别为 关系和尾实体, B和I分别为实体头 部和中部, N代 表结果为非实体或非关系。 3.根据权利要求1所述的用于航空领域的知识元抽取方法, 其特征在于, 所述步骤S61 具体包括: S611、 若预测出的实体包 含主实体, 则使用预测的主实体和关系尾实体对配成三元组;权 利 要 求 书 2/3 页 3 CN 114764566 A 3
专利 用于航空领域的知识元抽取方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:50
上传分享
举报
下载
原文档
(882.9 KB)
分享
友情链接
T-CSAE 101—2018 智能网联汽车车载端信息安全技术要求.pdf
T-CRSUD 001—2022 数字化能力服务城市评价指标.pdf
GB-T 19667.1-2005 基于XML的电子公文格式规范 第1部分总则.pdf
GB-T 22264.3-2022 安装式数字显示电测量仪表 第3部分:功率表和无功功率表的特殊要求.pdf
GB-T 34990-2017 信息安全技术 信息系统安全管理平台技术要求和测试评价方法.pdf
国家密码局 信息安全等级保护 商用密码技术实施要求 2009.pdf
GB-T 30991-2014 智能氧弹式热量计通用技术条件.pdf
T-SHJNXH 0008—2021 镁基氢化物固态储运氢系统技术要求.pdf
T-UNP 22—2022 跨境电子商务 交易产品 知识产权侵权鉴定管理规范.pdf
DB23-T 3558—2023 黑龙江省农村生活污水资源化利用技术规程 黑龙江省.pdf
GB-T 17296-2009 中国土壤分类与代码.pdf
T-SLEA 1011.1—2023 实验室设计与建设技术规范 第1部分:通用技术要求.pdf
GB-T 25027-2018 搪玻璃开式搅拌容器型式、主要尺寸及基本参数.pdf
GB-T 29243-2012 信息安全技术 数字证书代理认证路径构造和代理验证规范.pdf
T-CESA 1040—2019 信息技术 人工智能 面向机器学习的数据标注规程.pdf
德勤数字化转型新篇章.pdf
GB-T 20279-2015 信息安全技术 网络和终端隔离产权安全技术要求.pdf
DB15-T 2824—2022 敖汉沙棘油加工技术规程 内蒙古自治区.pdf
GB-T 18018-2019 信息安全技术 路由器安全技术要求.pdf
GB 16670-2006 柜式气体灭火装置.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(882.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。