(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210223134.4 (22)申请日 2022.03.07 (71)申请人 华南理工大 学 地址 510641 广东省广州市天河区五山路 381号 (72)发明人 唐国志 薛洋 金连文  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 郑宏谋 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/418(2022.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01)G06V 10/764(2022.01) G06V 30/42(2022.01) (54)发明名称 基于布局关联性的视觉富文档信息抽取方 法、 系统及 介质 (57)摘要 本发明公开了一种基于布局关联性的视觉 富文档信息抽取方法、 系统及介质, 其中方法包 括: 获取视觉富文档图像, 并对视觉富文档图像 进行标注, 获得数据集; 构建针对布局关联性的 文档信息抽取模 型, 采用数据集对文档信息抽取 模型进行训练; 获取视觉富文档图片, 将视觉富 文档图片输入训练后的文档信息抽取模型, 获得 信息抽取结果; 其中, 布局关联性指 的是静态字 段和动态字段之间的位置关系, 静态字段为同一 模板中文字固定的字段, 动态字段为同一模板中 根据实际内容变化的字段。 本发 明提供了一种利 用文档布局关联性的视觉富文档信息抽取的方 案, 这种方案可在在小样本数据下即可实现高精 度的视觉富文档信息抽取任务, 可广泛应用于视 觉信息抽取 领域。 权利要求书2页 说明书8页 附图2页 CN 114782965 A 2022.07.22 CN 114782965 A 1.一种基于布局关联性的视 觉富文档 信息抽取 方法, 其特 征在于, 包括以下步骤: 获取视觉富文档图像, 并对视 觉富文档图像进行 标注, 获得 数据集; 构建针对布局关联性的文档信息抽取模型, 采用数据集对文档信息抽取模型进行训 练; 获取视觉富文档图片, 将视觉富文档图片输入训练后的文档信息抽取模型, 获得信息 抽取结果; 其中, 布局关联性指的是静态字段和动态字段之间的位置关系, 静态字段为同一模板 中文字固定的字段, 动态字段为同一模板中根据实际内容变化的字段。 2.根据权利要求1所述的一种基于布局关联性的视觉富文档信息抽取方法, 其特征在 于, 所述文档 信息抽取模型的训练过程, 包括: 将字段中不同的语义表示为一个1024维的嵌入向量, 将字段的位置特征量化为数字, 将处理好的语义和位置特 征输入作为输入特 征; 对预设模型中每个类别计算这个类别里面所有输入特征的均值, 作为每个类别的类别 中心; 通过衡量样本与类别中心的距离来完成分类。 3.根据权利要求1所述的一种基于布局关联性的视觉富文档信息抽取方法, 其特征在 于, 所述文档 信息抽取模型对输入的视 觉富文档图片进行如下处 理: 获取视觉富文档图片中每 个独立的字段, 作为图中的节点; 获取节点之间的边连接关系; 其中, 边连接关系为{|Xi‑j|, |Yi‑j|, Wi/Wj, Hi/Hj}, |Xi‑j|表 示两个字段节点在 横坐标上的距离, | Yi‑j|表示两个字段节点在纵坐 标上的距离, Wi/Wj表示 两个字段节点对 应的两个矩形框的宽的比值, Hi/Hj表示两个字段节点对 应的两个矩形框的 高的比值; 获取所有的静态字段和动态字段之间连接关系, 根据连接关系获取静态字段和动态字 段之间的匹配关系。 4.根据权利要求3所述的一种基于布局关联性的视觉富文档信息抽取方法, 其特征在 于, 所述匹配关系通过以下 方式获得: 获取预设字段和所有字段之间的匹配概 率值; 选取匹配概 率值大于阈值的匹配关系表示两个字段之间是一种匹配关系。 5.根据权利要求3所述的一种基于布局关联性的视觉富文档信息抽取方法, 其特征在 于, 所述匹配关系包括 一对一的匹配关系 、 一对多的匹配关系以及多对一的匹配关系; 当出现一对多的匹配关系以及多对一的匹配关系时, 根据概率值获取最优的概率匹 配。 6.根据权利要求4所述的一种基于布局关联性的视觉富文档信息抽取方法, 其特征在 于, 所述根据概率值获取最优的概 率匹配, 包括:权 利 要 求 书 1/2 页 2 CN 114782965 A 2获取每个动态字段的关于分类结果的概 率值R; 将每个动态字段的关于分类结果的概 率值R按从大到小顺序排序; 遍历概率值R的集合中的元 素i; 将概率值排名前三的元 素i添加到集 合Q中; 遍历概率值R的集合中除了元 素i的其他元素j; 如果当前概率值的累加概率和, 大于集合中已有的概率累加和, 则将当前的概率值添 加进集合Q中, 同时剔除掉旧的值; 更新集合Q。 7.根据权利要求1所述的一种基于布局关联性的视觉富文档信息抽取方法, 其特征在 于, 所述视觉富文档图像包括车票图像、 发票图像、 证书图像以及证件图像。 8.一种基于布局关联性的视 觉富文档 信息抽取系统, 其特 征在于, 包括: 数据采集模块, 用于获取视觉富文档图像, 并对视觉富文档 图像进行标注, 获得数据 集; 模型训练模块, 用于构建针对布局关联性的文档信息抽取模型, 采用数据集对文档信 息抽取模型进行训练; 信息抽取模块, 用于获取视觉富文档图片, 将视觉富文档图片输入训练后的文档信息 抽取模型, 获得信息抽取 结果; 其中, 布局关联性指的是静态字段和动态字段之间的位置关系, 静态字段为同一模板 中文字固定的字段, 动态字段为同一模板中根据实际内容变化的字段。 9.一种基于布局关联性的视 觉富文档 信息抽取系统, 其特 征在于, 包括: 至少一个处 理器; 至少一个存 储器, 用于存 储至少一个程序; 当所述至少一个程序被所述至少一个处理器执行, 使得所述至少一个处理器实现权利 要求1‑7任一项所述方法。 10.一种计算机可读存储介质, 其中存储有处理器可执行的程序, 其特征在于, 所述处 理器可执行的程序在由处 理器执行时用于执 行如权利要求1 ‑7任一项所述方法。权 利 要 求 书 2/2 页 3 CN 114782965 A 3

.PDF文档 专利 基于布局关联性的视觉富文档信息抽取方法、系统及介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于布局关联性的视觉富文档信息抽取方法、系统及介质 第 1 页 专利 基于布局关联性的视觉富文档信息抽取方法、系统及介质 第 2 页 专利 基于布局关联性的视觉富文档信息抽取方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。