专利关键信息抽取方法、模型训练方法、相关装置及电子设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221041916 3.8 (22)申请日 2022.04.20 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人李煜林　庾悦晨　钦夏孟　章成全　姚锟　 (74)专利代理机构北京银龙知识产权代理有限公司 11243 专利代理师刘念 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06V 30/416(2022.01) (54)发明名称关键信息抽取方法、模型训练方法、相关装置及电子设备 (57)摘要本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：获取第一图像中第一文档的第一特征，所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的；对所述第一特征进行语义增强，得到所述第一文档的第二特征；基于所述第二特征对所述第一文档进行关键信息抽取。权利要求书6页说明书16页附图4页 CN 115130473 A 2022.09.30 CN 115130473 A 1.一种关键信息抽取方法，包括：获取第一图像中第一文档的第一特征，所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的；对所述第一特征进行语义增强，得到所述第一文档的第二特征；基于所述第二特征对所述第一文档进行关键信息抽取。 2.根据权利要求1所述的方法，其中，所述基于所述第二特征对所述第一文档进行关键信息抽取，包括：基于所述第二特征获取所述第一文档中各文本单元的第一类别标记；从所述第一文档中抽取关键信息，所述关键信息包括所述第一文档中第一类别标记表征为命名实体的文本单元。 3.根据权利要求1所述的方法，其中，所述获取第一图像中第一文档的第一特征，包括：对所述第一图像进行文本识别，得到所述第一文档的文本内容和所述文本行的位置信息；对所述第一图像进行特征提取，得到第一目标特征图；基于所述位置信息，对所述第一目标特征图中截取的所述文本行的图像区域进行特征编码，得到所述文本行的图像特征序列，所述视觉特征包括所述图像特征序列；对所述文本内容中的文本单元进行特征编码，得到所述文本特征；将所述文本特征和所述视觉特征进行特征拼接，得到所述第一特征。 4.根据权利要求3所述的方法，其中，所述视觉特征还包括所述文本行的空间特征序列；所述方法还包括：对所述位置信息进行特征编码，得到所述空间特征序列；将所述图像特征序列和所述空间特征序列进行特征拼接，得到所述视觉特征。 5.根据权利要求1所述的方法，其中，所述对所述第一特征进行语义增强，得到所述第一文档的第二特征，包括：将所述第一特征输入至第一模型进行语义增强，得到所述第一文档的第二特征；其中，所述第一模型基于预训练任务进行预训练得到，所述预训练任务包括第一任务、第二任务、第三任务和第四任务中至少一项，所述第一任务用于预测文档中任意两个不同文本行的相对方位，所述第二任务用于预测属于同一文本行的视觉特征和文本特征，所述第三任务用于随机遮掩图像中的文本行区域，以预测被遮掩文本行区域的内容，所述第四任务用于随机遮掩图像中的文本行区域，对被遮掩文本行区域的输出特征进行重建，以恢复被遮掩文本行区域的图像像素。 6.一种模型训练方法，包括：获取训练数据，所述训练数据包括第二图像和第二文档中各文本单元的类别标记标签，所述第二图像包括所述第二文档的图像内容；获取所述第二文档的第三特征，所述第三特征是基于所述第二文档的文本特征和所述第二文档的文本行的视觉特征拼接得到的；将所述第三特征输入至第一模型进行语义增强，得到所述第二文档的第四特征；基于所述第四特征获取所述第二文档中各文本单元的第二类别标记；权　利　要　求　书 1/6 页 2 CN 115130473 A 2基于所述类别标记标签和所述第二类别标记，更新所述第一模型的模型参数。 7.根据权利要求6所述的方法，所述获取训练数据之前，还包括：获取预训练样本，所述预训练样本包括第三图像，所述第三图像包括第三文档的图像内容；将所述预训练样本输入至所述第一模型进行特征处理，得到所述预训练样本的特征表达；基于所述特征表达，利用预训练任务对应的监督策略确定损失值；基于所述损失值，更新所述第一模型的模型参数；其中，所述预训练任务包括第一任务、第二任务、第三任务和第四任务中至少一项，所述第一任务用于预测文档中任意两个不同文本行的相对方位，所述第二任务用于预测属于同一文本行的视觉特征和文本特征，所述第三任务用于随机遮掩图像中的文本行区域，以预测被遮掩文本行区域的内容，所述第四任务用于随机遮掩图像中的文本行区域，对被遮掩文本行区域的输出特征进行重建，以恢复被遮掩文本行区域的图像像素。 8.根据权利要求7所述的方法，其中，所述损失值包括利用所述第一任务对应的监督策略确定的第一损失值，所述基于所述特征表达，利用预训练任务对应的监督策略确定损失值，包括：基于所述特征表达获取所述第三文档的文本行的视觉特征；从所述第三文档的文本行的视觉特征中获取第一特征元素和第二特征元素，所述第一特征元素和所述第二特征元素为所述第三文档中两个不同文本行的特征元素；计算所述第一特征元素和所述第二特征元素的特征差异信息；基于所述特征差异信息进行方位预测，得到所述两个不同文本行的相对方位；基于预测得到的所述两个不同文本行的相对方位和预先获取的所述两个不同文本行的相对方位的标签，确定所述第一损失值。 9.根据权利要求8所述的方法，其中，所述两个不同文本行包括第一文本行和第二文本行，所述基于所述特征差异信息进行方位预测，得到所述两个不同文本行的相对方位，包括：以所述第二文本行的中心点为圆心，将所述圆心的圆圈区域均匀划分为连续预设数量的区域；基于所述特征差异信息，将所述第二文本行的中心点在所述第一文本行的中心点的相对方向透射到所述连续预设数量的区域中的一个区域，得到所述两个不同文本行的相对方位。 10.根据权利要求7所述的方法，其中，所述损失值包括利用所述第二任务对应的监督策略确定的第二损失值，所述基于所述特征表达，利用预训练任务对应的监督策略确定损失值，包括：针对所述第三文档中的第三文本行，将所述第三文本行的文本内容进行特征编码，得到所述第三文本行的文本特征，所述第三文本行为所述第三文档中的任一文本行；将所述第三文本行的文本特征与所述特征表达进行点乘，以映射得到二维2d掩膜矩阵；基于所述2d掩膜矩阵和所述第三文本行在所述第三图像的位置信息，确定所述第二损权　利　要　求　书 2/6 页 3 CN 115130473 A 3

专利 关键信息抽取方法、模型训练方法、相关装置及电子设备

专利关键信息抽取方法、模型训练方法、相关装置及电子设备