(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210803340.2 (22)申请日 2022.07.07 (71)申请人 腾讯科技 (武汉) 有限公司 地址 430000 湖北省武汉市江夏经济开发 区庙山阳光五路特1号 (72)发明人 何锦涛 向玥佳 王珩 陈曦  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 崔晓岚 浦彩华 (51)Int.Cl. G06F 40/279(2020.01) G06V 30/42(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) (54)发明名称 文本的实体识别方法、 装置、 设备、 存储介质 及程序产品 (57)摘要 本申请提供了一种文本的实体识别方法、 装 置、 设备、 存储介质及程序产品; 方法包括: 获取 待识别文本、 以及与待识别文本关联的待识别图 像; 对待识别图像进行编码, 得到图像向量, 并对 待识别文本进行编码, 得到文本向量; 将图像向 量和文本向量进行模态融合, 得到目标多模态向 量; 基于目标多模态向量对待识别文本进行实体 识别, 得到待识别文本中的初始实体; 基于文本 向量对待识别文本进行实体识别, 得到待识别文 本中的修正实体; 基于修正实体, 对初始实体进 行修正, 得到待识别文本中的目标实体。 通过本 申请, 能够有效提高实体识别的准确度。 权利要求书4页 说明书23页 附图8页 CN 115169333 A 2022.10.11 CN 115169333 A 1.一种文本的实体识别方法, 其特 征在于, 所述方法包括: 获取待识别文本、 以及与所述待识别文本关联的待识别图像; 对所述待识别图像进行编码, 得到图像向量, 并对所述待识别文本进行编码, 得到文本 向量; 将所述图像向量和所述文本向量进行模态融合, 得到目标多模态向量; 基于所述目标多模态向量对所述待识别文本进行实体识别, 得到所述待识别文本 中的 初始实体; 基于所述文本 向量对所述待识别文本进行实体识别, 得到所述待识别文本中的 修正实体; 基于所述 修正实体, 对所述初始实体进行修 正, 得到所述待识别文本中的目标实体。 2.根据权利要求1所述的方法, 其特 征在于, 所述模态融合通过模态融合网络实现; 所述模态融合网络包括第一模态融合网络、 第 二模态融合网络、 第三模态融合网络; 所述将所述图像向量和所述文本向量进行模态融合, 得到目标多模态向量, 包括: 调用所述第一模态融合网络, 对所述图像向量和所述文本向量进行模态融合, 得到第 一多模态向量; 调用所述第二模态融合网络, 对所述图像向量和所述文本向量进行模态融合, 得到第 二多模态向量; 调用所述第三模态融合网络, 对所述文本向量和所述第一多模态向量进行模态融合, 得到第三多模态向量; 对所述第三多模态向量和所述第二多模态向量进行加权融合, 得到加权融合向量; 将所述加权融合向量和所述第三多模态向量进行向量拼接, 得到所述目标多模态向 量。 3.根据权利要求2所述的方法, 其特征在于, 所述第 一模态融合网络包括多头注意力网 络、 残差连接网络和前馈神经网络; 所述调用所述第一模态融合网络, 对所述图像向量和所述文本向量进行模态融合, 得 到第一多模态向量, 包括: 调用所述多头注意力网络, 对所述图像向量及所述文本向量进行模态融合, 得到第 四 多模态向量; 调用所述残差连接网络, 对所述第 四多模态向量和所述图像向量进行残差连接, 得到 残差连接结果; 调用所述前馈神经网络, 对所述残差连接结果进行激活 处理, 得到激活结果; 调用所述残差连接网络, 对所述激活结果和所述残差连接结果进行残差连接, 得到所 述第一多模态向量。 4.根据权利要求3所述的方法, 其特 征在于, 所述调用所述多头注意力网络, 对所述图像向量及所述文本向量进行模态融合, 得到 第四多模态向量, 包括: 将所述图像向量确定为所述第 一模态融合网络的查询向量, 并将所述文本向量分别确 定为所述第一模态融合网络的键向量和值向量; 调用所述多头注意力网络, 对所述查询向量、 所述键向量和所述值向量进行模态融合,权 利 要 求 书 1/4 页 2 CN 115169333 A 2得到所述第四多模态向量; 所述调用所述残差连接网络, 对所述第 四多模态向量和所述图像向量进行残差连接, 得到残差连接结果, 包括: 调用所述残差连接网络, 对所述第 四多模态向量和所述查询向量进行残差连接, 得到 所述残差连接结果。 5.根据权利要求2所述的方法, 其特征在于, 所述第二模态融合网络、 所述第三模态融 合网络和所述第一模态融合网络的网络结构相同; 所述调用所述第二模态融合网络, 对所述图像向量和所述文本向量进行模态融合, 得 到第二多模态向量, 包括: 将所述文本向量确定为第 二模态融合网络的查询向量, 将所述图像向量分别确定为所 述第二模态融合网络的键向量和值向量; 调用所述第二模态融合网络, 对所述查询向量、 所述键向量和所述值向量进行模态融 合, 得到第二多模态向量; 所述调用所述第 三模态融合网络, 对所述文本向量和所述第 一多模态向量进行模态融 合, 得到第三多模态向量, 包括: 将所述文本向量确定为第 三模态融合网络的查询向量, 将所述第 一多模态向量分别确 定为所述第三模态融合网络的键向量和值向量; 调用所述第三模态融合网络, 对所述查询向量、 所述键向量和所述值向量进行模态融 合, 得到第三多模态向量。 6.根据权利要求2所述的方法, 其特征在于, 所述对所述第 三多模态向量和所述第 二多 模态向量进行加权融合, 得到加权融合向量, 包括: 获取所述第三多模态向量的第一权重矩阵, 以及所述第二多模态向量的第二权重矩 阵; 将所述第三多模态向量和所述第一权重矩阵相乘, 得到第一乘积结果; 将所述第二多 模态向量和所述第二权 重矩阵相乘, 得到第二乘积结果; 将所述第一乘积结果和所述第二乘积结果进行加 和, 得到加 和结果; 对所述加 和结果进行归一 化处理, 得到归一 化向量; 将所述归一 化向量和所述第二多模态向量相乘, 得到所述加权融合向量。 7.根据权利要求1所述的方法, 其特征在于, 所述目标多模态向量包括所述待识别文本 中的各词对应的词向量, 所述基于所述 目标多模态向量对所述待识别文本进行实体识别, 得到所述待识别文本中的初始实体, 包括: 针对所述待识别文本中的各词对应的词向量分别执 行以下处 理: 基于所述词向量, 对所述词进行实体类别预测, 得到所述词分别对应各类别的初始类 别概率值; 将最大的所述初始类别概 率值所对应的类别, 确定为所述词对应的初始类别; 当所述初始类别表征所述词是命名实体时, 获取所述命名实体的实体类别, 将所述词 确定为所述待识别文本中对应所述实体 类别的初始实体。 8.根据权利要求1所述的方法, 其特征在于, 所述文本向量包括所述待识别文本 中的各 词对应的词文本 向量, 所述基于所述文本 向量对所述待识别文本进行实体识别, 得到所述权 利 要 求 书 2/4 页 3 CN 115169333 A 3

.PDF文档 专利 文本的实体识别方法、装置、设备、存储介质及程序产品

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本的实体识别方法、装置、设备、存储介质及程序产品 第 1 页 专利 文本的实体识别方法、装置、设备、存储介质及程序产品 第 2 页 专利 文本的实体识别方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:31:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。