(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221041916 3.8
(22)申请日 2022.04.20
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 李煜林 庾悦晨 钦夏孟 章成全
姚锟
(74)专利代理 机构 北京银龙知识产权代理有限
公司 11243
专利代理师 刘念
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06V 30/416(2022.01)
(54)发明名称
关键信息抽取方法、 模型训练方法、 相关装
置及电子设备
(57)摘要
本公开提供了一种关键信息抽取方法、 模 型
训练方法、 相关装置及电子设备, 涉及人工智能
技术领域, 具体涉及深度学习、 图像处理、 计算机
视觉技术领域。 具体实现方案为: 获取第一图像
中第一文档的第一特征, 所述第一特征是基于所
述第一文档的文本特征和所述第一文档的文本
行的视觉 特征拼接得到的; 对所述第一特征进行
语义增强, 得到所述第一文档的第二特征; 基于
所述第二特征对所述第一文档进行关键信息抽
取。
权利要求书6页 说明书16页 附图4页
CN 115130473 A
2022.09.30
CN 115130473 A
1.一种关键信息抽取 方法, 包括:
获取第一图像中第一文档的第 一特征, 所述第 一特征是基于所述第 一文档的文本特征
和所述第一文档的文本行的视 觉特征拼接得到的;
对所述第一特 征进行语义增强, 得到所述第一文档的第二特 征;
基于所述第二特 征对所述第一文档进行关键信息抽取。
2.根据权利要求1所述的方法, 其中, 所述基于所述第 二特征对所述第 一文档进行关键
信息抽取, 包括:
基于所述第二特 征获取所述第一文档中各文本单 元的第一类别标记;
从所述第一文档中抽取关键信 息, 所述关键信 息包括所述第 一文档中第 一类别标记表
征为命名实体的文本单 元。
3.根据权利要求1所述的方法, 其中, 所述获取第一图像中第一文档的第一特 征, 包括:
对所述第一图像进行文本识别, 得到所述第 一文档的文本内容和所述文本行的位置信
息;
对所述第一图像进行 特征提取, 得到第一目标 特征图;
基于所述位置信 息, 对所述第 一目标特征图中截取的所述文本行的图像区域进行特征
编码, 得到所述文本行的图像特 征序列, 所述视 觉特征包括所述图像特 征序列;
对所述文本内容中的文本单 元进行特征编码, 得到所述文本特 征;
将所述文本特 征和所述视 觉特征进行特征拼接, 得到所述第一特 征。
4.根据权利要求3所述的方法, 其中, 所述视觉特征还包括所述文本行的空间特征序
列;
所述方法还 包括:
对所述位置信息进行 特征编码, 得到所述空间特 征序列;
将所述图像特 征序列和所述空间特 征序列进行 特征拼接, 得到所述视 觉特征。
5.根据权利要求1所述的方法, 其中, 所述对所述第一特征进行语义增强, 得到所述第
一文档的第二特 征, 包括:
将所述第一特 征输入至第一模型进行语义增强, 得到所述第一文档的第二特 征;
其中, 所述第 一模型基于预训练任务进行预训练得到, 所述预训练任务包括第 一任务、
第二任务、 第三任务和第四任务中至少一项, 所述第一任务用于预测文档中任意两个不同
文本行的相对方位, 所述第二任务用于预测属于同一文本行 的视觉特征和文本特征, 所述
第三任务用于随机遮掩图像中的文本行区域, 以预测被遮掩文本行区域的内容, 所述第四
任务用于随机遮掩图像中的文本行区域, 对被遮掩文本行区域的输出特征进行重建, 以恢
复被遮掩文本行区域的图像 像素。
6.一种模型训练方法, 包括:
获取训练数据, 所述训练数据包括第二图像和第二文档中各文本单元的类别标记标
签, 所述第二图像包括所述第二文档的图像内容;
获取所述第 二文档的第 三特征, 所述第 三特征是基于所述第 二文档的文本特征和所述
第二文档的文本行的视 觉特征拼接得到的;
将所述第三特 征输入至第一模型进行语义增强, 得到所述第二文档的第四特 征;
基于所述第四特 征获取所述第二文档中各文本单 元的第二类别标记;权 利 要 求 书 1/6 页
2
CN 115130473 A
2基于所述类别标记标签和所述第二类别标记, 更新所述第一模型的模型参数。
7.根据权利要求6所述的方法, 所述获取训练数据之前, 还 包括:
获取预训练样本, 所述预训练样本包括第三图像, 所述第三图像包括第三文档的图像
内容;
将所述预训练样本输入至所述第 一模型进行特征处理, 得到所述预训练样本的特征表
达;
基于所述特 征表达, 利用预训练任务对应的监 督策略确定损失值;
基于所述损失值, 更新所述第一模型的模型参数;
其中, 所述预训练任务包括第一任务、 第二任务、 第三任务和第 四任务中至少一项, 所
述第一任务用于预测文档中任意两个不同文本行的相对方位, 所述第二任务用于预测属于
同一文本行 的视觉特征和文本特征, 所述第三任务用于随机遮掩图像中的文本行区域, 以
预测被遮掩文本行区域的内容, 所述第四任务用于随机遮掩图像中的文本行区域, 对被遮
掩文本行区域的输出 特征进行重建, 以恢复被遮 掩文本行区域的图像 像素。
8.根据权利要求7所述的方法, 其中, 所述损失值包括利用所述第 一任务对应的监督策
略确定的第一损失值, 所述基于所述特征表达, 利用预训练任务对应的监督策略确定损失
值, 包括:
基于所述特 征表达获取 所述第三文档的文本行的视 觉特征;
从所述第三文档的文本行的视觉特征中获取第 一特征元素和第 二特征元素, 所述第 一
特征元素和所述第二特 征元素为所述第三文档中两个不同文本行的特 征元素;
计算所述第一特 征元素和所述第二特 征元素的特征差异信息;
基于所述特 征差异信息进行 方位预测, 得到所述两个不同文本行的相对方位;
基于预测得到的所述两个不同文本行的相对方位和预先获取的所述两个不同文本行
的相对方位的标签, 确定所述第一损失值。
9.根据权利要求8所述的方法, 其中, 所述两个不同文本行包括第 一文本行和第 二文本
行, 所述基于所述特征差异信息进行方位预测, 得到所述两个不同文本行的相对方位, 包
括:
以所述第二文本行的中心点为 圆心, 将所述 圆心的圆圈区域均匀划分为连续预设数量
的区域;
基于所述特征差异信 息, 将所述第 二文本行的中心点在所述第 一文本行的中心点的相
对方向透射到所述连续预设数量的区域中的一个区域, 得到所述两个不同文本行的相对方
位。
10.根据权利要求7所述的方法, 其中, 所述损失值包括利用所述第二任务对应的监督
策略确定的第二损失值, 所述基于所述特征表达, 利用预训练任务对应的监督策略确定损
失值, 包括:
针对所述第三文档 中的第三文本行, 将所述第三文本行的文本内容进行特征编码, 得
到所述第三文本行的文本特 征, 所述第三文本行为所述第三文档中的任一文本行;
将所述第三文本行的文本特征与所述特征表达进行点乘, 以映射得到二维2d掩膜矩
阵;
基于所述2d掩膜矩阵和所述第 三文本行在所述第 三图像的位置信 息, 确定所述第二损权 利 要 求 书 2/6 页
3
CN 115130473 A
3
专利 关键信息抽取方法、模型训练方法、相关装置及电子设备
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:13上传分享