国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210425656.2 (22)申请日 2022.04.21 (71)申请人 上海携旅信息技 术有限公司 地址 201803 上海市嘉定区金园一路13 31 号401室-4 (72)发明人 王子奕 刘嘉伟 鞠剑勋 李健 (74)专利代理 机构 上海隆天律师事务所 31282 专利代理师 高彦 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 实体别名关系获取方法、 训练方法、 装置及 存储介质 (57)摘要 本公开实施例中提供实体别名关系获取方 法、 训练方法、 装置及存储介质, 应用于实体别名 关系模型; 基于模型的嵌入层输入文本得到文本 特征向量序列; 基于特征编码层得到文本语义特 征向量序列; 基于序列标注层得到文本预测标签 序列, 并得到文本中的每个实体提及片段; 基于 标签融合层融合文本语义特征向量序列和文本 预测标签序列得到文本增强特征向量序列; 基于 多头选择层得到实体别名关系概率矩阵; 根据所 筛选的概率值所在行和列所分别对应的字位于 各自所属实体提及片段中的位置, 获得两个实体 提及片段之间的实体别名关系获取结果。 本公开 实现准确高效挖掘实体别名关系的方案, 利于高 质量知识图谱的构建。 权利要求书4页 说明书17页 附图6页 CN 114881014 A 2022.08.09 CN 114881014 A 1.一种实体别名关系获取方法, 其特征在于, 应用于实体别名关系获取模型, 所述实体 别名关系获取模 型包括: 嵌入层、 特征编码层、 序列标注层、 标签融合层及多头选择层; 所述 方法包括: 获取输入文本并输入所述实体别名关系获取模型; 基于嵌入层处理所述输入文本以生成字级令牌序列、 字级位置索引序列以及文本片段 索引序列, 并基于嵌入层处理所述字级令牌序列、 字级位置索引序列以及文本片段索引序 列所分别映射的特 征向量的融合, 得到文本特 征向量序列; 基于特征编码层处 理所述文本特 征向量序列, 得到文本语义特 征向量序列; 基于序列 标注层处理所述文本语义特征向量序列以得到文本预测标签序列, 并根据 所 述文本预测标签序列得到所述文本中的每 个实体提及片段; 基于标签融合层融合所述文本语义特征向量序列和文本预测标签序列, 以得到文本增 强特征向量序列; 基于多头选择层处理所述文本增强特征向量序列, 得到实体别名关系概率矩阵; 其中, 所述实体别名关系概率矩阵中每个概率值表示输入文本中每两个字分别所属实体提及片 段之间存在实体别名关系的概 率; 从所述实体别名关系概率矩阵筛选达到预设阈值的概率值, 根据 所筛选的概率值所在 行和列所分别对应的字位于各自所属实体提及片段中的位置, 获得两个实体提及片段之间 的实体别名关系获取 结果。 2.根据权利要求1所述的实体别名关系获取方法, 其特征在于, 所述基于所述字级令牌 序列、 字级位置索引序列以及文本片段索引序列所分别映射的序列向量的融合, 得到文本 特征向量序列, 包括: 对所述字级令牌序列、 字级位置索引序列以及文本片段索引序列分别经编码得到各编 码序列; 将各所述编码序列转换为各 所述序列向量; 对各所述序列向量 求和并归一 化得到所述文本特 征向量序列。 3.根据权利要求1所述的实体别名关系获取方法, 其特征在于, 所述特征编码层包括多 头自注意力层及全连接层; 所述基于特征编码层处理所述文本特征向量序列, 得到文本语 义特征向量序列, 包括: 通过多头自注意力层处 理所述文本特 征向量序列, 得到中间特 征向量序列; 通过全连接层处 理所述中间特 征向量序列, 得到所述文本语义特 征向量序列。 4.根据权利要求1所述的实体别名关系获取方法, 其特征在于, 所述基于序列标注层处 理所述文本语义特征向量序列以得到文本预测标签序列, 并根据所述文本预测标签序列得 到所述文本中的每 个实体提及片段, 包括: 对文本语义特征向量序列中每个特征值所对应的字在所属实体提及片段中的位置进 行预测, 得到预测标签, 以形成所述文本预测标签序列; 基于所述文本预测标签序列所 标注的实体提及边界, 得到各 所述实体提及片段。 5.根据权利要求1所述的实体别名关系获取方法, 其特征在于, 所述标签融合层包括门 控神经网络层; 所述基于标签融合层融合所述文本语义特征向量序列和文本预测标签序 列, 以得到文本增强特 征向量序列, 包括:权 利 要 求 书 1/4 页 2 CN 114881014 A 2通过门控神经网络层按字级位置融合所述文本语义特征向量序列及文本预测标签序 列, 以得到文本增强特 征向量序列。 6.根据权利要求1所述的实体别名关系获取方法, 其特征在于, 所述根据 所筛选的概率 值所在行和列所分别对应的字位于各自所属实体提及片段中的位置, 获得两个实体提及片 段之间的实体别名关系获取 结果, 包括: 响应于所述概率值所在行和列所分别对应的字在各自所属实体提及片段中位于相同 边界位置, 确定所述两个实体提及片段之间存在实体别名关系。 7.根据权利要求1所述的实体别名关系获取 方法, 其特 征在于, 还 包括: 生成对应所述输入文本的掩码序列; 将经所述掩码序列 作用后的文本特 征向量序列输入至实体别名关系获取模型。 8.一种实体别名关系获取模型的训练方法, 其特征在于, 所述实体别名关系获取模型 包括: 嵌入层、 特 征编码层、 序列标注层、 标签融合层 及多头选择层; 所述训练方法包括: 获取训练样本集并输入所述实体别名关系获取模型, 所述训练样本集中的每个训练样 本文本具有对应的文本真实标签序列和实体别名关系标签; 基于每个训练样本文本生成字级令牌序列、 字级位置索引序列以及文本片段索引序 列, 并基于所述字级令牌序列、 字级位置索引序列以及文本片段索引序列所分别映射的序 列向量的融合, 得到文本特 征向量序列; 基于特征编码层处 理所述文本特 征向量序列, 得到文本语义特 征向量序列; 基于序列 标注层处理所述文本语义特征向量序列以得到文本预测标签序列, 并根据 所 述文本预测标签序列得到所述文本中的每 个实体提及片段; 计算所述文本预测标签序列 与文本真实标签序列之间的第一损失; 基于标签融合层融合所述文本语义特征向量序列同文本预测标签序列或文本真实标 签序列, 以得到文本增强特 征向量序列; 基于多头选择层处理所述文本增强特征向量序列, 得到实体别名关系概率矩阵; 其中, 所述实体别名关系概率矩阵中每个概率值表示文本中每两个字分别所属实体提及片段之 间存在实体别名关系的概 率; 基于所述实体别名关系概率矩阵中各概率值与 所述实体别名关系标签计算第 二损失; 其中, 所述 实体别名关系标签基于每个概率值相应的行和列所对应的两个字之 间是否存在 实体别名关系所确定; 基于所述第 一损失和第 二损失的融合得到总体损失, 并根据所述总体损失更新所述实 体别名关系获取模型。 9.根据权利要求8所述的训练方法, 其特征在于, 在使用第 一部分训练样本文本的训练 轮次中, 基于标签融合层融合所述文本语义特征向量序列同文本预测标签序列, 以得到文 本增强特征向量序列; 在其余的第二部分训练样本文本的训练轮次中, 基于标签融合层融 合所述文本语义特 征向量序列同文本真实标签序列, 以得到文本增强特 征向量序列。 10.根据权利要求9所述的训练方法, 其特征在于, 所述第二部分的训练样本的样本数 量高于所述第一部分的训练样本 。 11.根据权利要求8所述的训练方法, 其特征在于, 所述基于所述字级令牌序列、 字级位 置索引序列以及文本片段索引序列所分别映射的序列向量的融合, 得到文本特征向量序权 利 要 求 书 2/4 页 3 CN 114881014 A 3
专利 实体别名关系获取方法、训练方法、装置及存储介质
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:14
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
易观分析 AIGC产业研究报告2023——三维生成篇pdf.pdf
T-CFA 031103.5--2018—2018 铸造数字化工厂通用技术要求.pdf
GB-T 40665.1-2021 中医四诊操作规范 第1部分:望诊.pdf
T-CITS 0012—2023 牛乳基婴幼儿配方乳粉及牛乳中A1和A2 β-酪蛋白的测定 液相色谱-串联质谱法.pdf
AIX安全配置基线 .doc
GB-T 28701-2012 胀紧联结套.pdf
GB-T 37033.1-2018 信息安全技术 射频识别系统密码应用技术要求 第1部分:密码安全保护.pdf
GB-T 40809-2021 铸造铝合金 半固态流变压铸成形工艺规范.pdf
T-QGCML 1684—2023 LED大型广告牌制作工艺.pdf
GB-T 38360-2019 裸露坡面植被恢复技术规范.pdf
GB-T 39276-2020 信息安全技术 网络产品和服务安全通用要求.pdf
GB-T 35854-2018 风力发电机组及其组件机械振动测量与评估.pdf
禁止进口限制进口技术管理办法.pdf
GB-T 26834-2011 无损检测仪器 小焦点及微焦点X射线管有效焦点尺寸测量方法.pdf
GB-T 43417-2023 儿童青少年脊柱侧弯矫形器的配置.pdf
GB-T 41540-2022 陆地遥感产品真实性检验地面观测场的选址和布设.pdf
易观分析 AIGC产业研究报告2023——视频生成篇.pdf
GB-T 35295-2017信息技术大数据术语.pdf
GB-T 616-2006 化学试剂 沸点测定通用方法.pdf
GB-T 33018.3-2016 炭素企业节能技术规范 第3部分:机械加工.pdf
1
/
3
28
评价文档
赞助2.5元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。