(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210762364.8 (22)申请日 2022.06.30 (65)同一申请的已公布的文献号 申请公布号 CN 114821605 A (43)申请公布日 2022.07.29 (73)专利权人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 李晓川 赵雅倩 李仁刚 郭振华  范宝余  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 刘颖 (51)Int.Cl. G06V 30/41(2022.01)G06V 30/19(2022.01) G06V 30/18(2022.01) G06V 10/80(2022.01) (56)对比文件 CN 114462356 A,2022.05.10 CN 114511860 A,2022.05.17 CN 113761153 A,2021.12.07 CN 114625909 A,202 2.06.14 Mingyan Wu等. “Hierarchical Semantic Enhanced Directi onal Graph Netw ork for Visual Com monsense Reaso ning”. 《Trustw orthy AI21》 .2021, 审查员 王丹丹 (54)发明名称 一种文本的处 理方法、 装置、 设备和介质 (57)摘要 本申请涉及人工智能技术领域, 公开了一种 文本的处理方法、 装置、 设备和介质, 对获取的待 分析图像和文本进行编码处理, 得到输入特征; 文本包括第一文本和第二文本; 输入 特征包括初 始图像特征和初始文本特征。 依据设定的同质注 意力机制, 对初始图像特征和初始文本特征进行 相关性分析, 得到中间图像特征和中间文本特 征; 依据设定的异质 注意力机制, 对中间图像特 征和中间文本特征进行跨模态分析, 得到异质图 像特征和异质文本特征。 利用打分器对异质图像 特征和异质文本特征进行分析, 确定出与第一文 本匹配的目标文本。 通过设定同质注 意力机制和 异质注意力机制, 充分挖掘多模态特征的属性, 可以更加准确的筛选出与第一文本匹配的目标 文本。 权利要求书3页 说明书15页 附图5页 CN 114821605 B 2022.11.25 CN 114821605 B 1.一种文本的处 理方法, 其特 征在于, 包括: 对获取的待分析图像和文本进行编码处理, 得到输入特征; 其中, 所述文本包括第一文 本和第二文本; 所述第一文本和所述第二文本具有映射关系; 所述输入特征包括初始图像 特征和初始文本特 征; 依据设定的同质注意力 机制, 对所述初始图像特征和所述初始文本特征进行相关性分 析, 得到中间图像特征和中间文本特征包括: 根据模型训练得到的特征空间转换矩阵和映 射矩阵, 确定出所述初始图像特征和所述初始文本特征 的初始注意力向量; 依据模型训练 得到的映射矩阵, 对 所述初始注意力向量进 行映射, 得到注 意力向量; 基于所述初始图像特 征、 所述初始文本特征以及所述注意力向量, 构建图结构; 对 所述输入特征进 行筛选和归一 化处理, 得到所述图结构中各节点之间的归一化权重; 依据设定的特征映射矩阵、 更新率、 所述输入特征、 所述归一化权重、 所述注意力向量, 确定出所述图结构中各节点的融合特 征; 其中, 所述融合特征包括添加了相关性特征 的图像特征和添加了相关性特征 的文本特 征; 对所述融合特 征进行编码, 得到中间图像特 征和中间文本特 征; 依据设定的异质注意力 机制, 对所述中间图像特征和所述中间文本特征进行跨模态分 析, 得到异质图像特 征和异质文本特 征; 利用打分器对所述异质图像特征和所述异质文本特征进行分析, 确定出与 所述第一文 本匹配的目标文本; 其中, 所述目标文本为所述第二文本包 含的文本 。 2.根据权利要求1所述的文本的处理方法, 其特征在于, 所述依据设定的特征映射矩 阵、 更新率、 所述输入特征、 所述归一化权重、 所述注 意力向量, 确定出所述图结构中各节 点 的融合特 征包括: 调用特征更新公式, 对所述输入特征和所述注意力向量进行分析, 得到更新特征; 所述 特征更新公式的表达式为: ; 其中, 表示更新特征, f表示输入特征, σ表示更新率, attn(f) 表示注意力向量, 表示归一 化权重,Wd表示特征映射矩阵; 将所述更新特 征与所述注意力向量叠加, 得到融合特 征。 3.根据权利要求1所述的文本的处理方法, 其特征在于, 所述依据设定的异质注意力 机 制, 对所述中间图像特征和所述中间文本特征进行跨模态分析, 得到异质图像特征和异质 文本特征包括: 根据所述中间图像特征、 所述中间文本特征以及模型训练得到的特征空间转换矩阵和 映射矩阵, 构建异质图结构; 按照设定的异质特征更新规则, 对所述异质图结构中各节点的特征进行融合, 得到各 节点的异质融合特征; 其中, 所述异质融合特征包括添加了异质特征 的图像特征和添加了 异质特征的文本特 征; 对所述异质融合特 征进行编码, 得到异质图像特 征和异质文本特 征。 4.根据权利要求3所述的文本的处理方法, 其特征在于, 所述根据所述中间图像特征、 所述中间文本特征以及 模型训练得到的特征空间转换矩阵和映射矩阵, 构建异质图结构包权 利 要 求 书 1/3 页 2 CN 114821605 B 2括: 根据模型训练得到的特征空间转换矩阵和映射矩阵, 确定出所述中间图像特征和所述 中间文本特 征的初始跨注意力向量; 依据模型训练得到的映射矩阵, 对所述初始跨注意力向量进行映射, 得到跨注意力向 量; 基于所述中间图像特 征、 所述中间文本特 征以及所述 跨注意力向量, 构建异质图结构。 5.根据权利要求3所述的文本的处理方法, 其特征在于, 所述按照设定的异质特征更新 规则, 对所述异质图结构中各节点的特 征进行融合, 得到各节点的异质融合特 征包括: 对所述中间图像特征、 所述中间文本特征进行筛选和归一化处理, 得到所述异质图结 构中各节点之间的异质归一 化权重; 依据设定的特征映射矩阵、 更新率、 所述中间图像特征、 所述中间文本特征、 所述异质 归一化权重、 跨注意力向量, 确定出 所述异质图结构中各节点的异质融合特 征。 6.根据权利要求5所述的文本的处理方法, 其特征在于, 所述依据设定的特征映射矩 阵、 更新率、 所述中间图像特征、 所述中间文本特征、 所述异质归一化权重、 所述跨注意力向 量, 确定出 所述异质图结构中各节点的异质融合特 征包括: 调用第一异质特征更新公式, 对所述中间图像特征、 所述中间文本特征和所述跨注意 力向量进行分析, 得到第一异质更新特 征; 所述第一异质特 征更新公式的表达式为: (1) ; 调用第二异质特征更新公式, 对所述中间图像特征、 所述中间文本特征和所述跨注意 力向量进行分析, 得到第二异质更新特 征; 所述第二异质特 征更新公式的表达式为: (2) ; 其中, 表示异质更新特征, p表示中间文本特征, g表示中间图像特征, σ表示更新 率,crossattn(p,g) 表示跨注意力向量, 表示归一 化权重,Wd表示特征映射矩阵; 将所述异质更新特 征与所述 跨注意力向量叠加, 得到异质融合特 征。 7.根据权利要求1至6任意一项所述的文本的处理方法, 其特征在于, 所述利用打分器 对所述异质图像特征和所述异质文本特征进 行分析, 确定出与所述第一文本匹配的目标文 本包括: 对所述异质图像特 征和所述异质文本特 征进行编码, 得到编码特 征; 将所述编码特征作为所述打分器的输入特征, 以得到各所述第 二文本各自对应的概率 得分; 将概率得分最高的第二文本作为与所述第一文本匹配的目标文本 。 8.根据权利要求1所述的文本的处理方法, 其特征在于, 所述第一文本为问句文本, 所 述第二文本为 答案文本 。 9.根据权利要求8所述的文本的处理方法, 其特征在于, 所述答案文本为多个; 所述利 用打分器对所述异质图像特征和所述异质文本特征进 行分析, 确定出与所述第一文本匹配 的目标文本包括: 利用打分器对所述异质图像特征和所述异质文本特征进行分析, 以从多个所述答案文权 利 要 求 书 2/3 页 3 CN 114821605 B 3

.PDF文档 专利 一种文本的处理方法、装置、设备和介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本的处理方法、装置、设备和介质 第 1 页 专利 一种文本的处理方法、装置、设备和介质 第 2 页 专利 一种文本的处理方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:27:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。