(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210441727.8 (22)申请日 2022.04.25 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 刘东煜  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 洪铭福 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/22(2019.01) G06V 30/416(2022.01)G06V 30/414(2022.01) G06V 30/412(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 表格信息提取方法、 装置、 设备及 介质 (57)摘要 本申请涉及信息处理技术领域, 提供了一种 表格信息提取方法、 装置、 设备及介质, 所述方法 包括: 获取待处理的表 格, 对表格进行识别处理, 得到多个文本块, 并将各个文本块输入到预训练 的命名实体识别模型, 以通过命名实体识别模型 得到属于内容记录的目标文本块对应的语义标 签, 语义标签用于表征目标文本块对应的表头标 题, 之后根据各个目标文本块对应的语义标签, 确定表格中对应于语义标签的目标语义实体, 最 终根据语义标签以及语义标签对应的目标语义 实体, 生成结构化数据。 本实施例提供的表格提 取方法在提高提取准确率的同时简化提取流程, 提高了信息提取的时效性。 权利要求书2页 说明书15页 附图6页 CN 114818710 A 2022.07.29 CN 114818710 A 1.一种表格信息提取 方法, 其特 征在于, 包括: 获取待处 理的表格, 其中, 所述表格包括表头标题以及所述表头标题对应的内容记录; 对所述表格进行识别处 理, 得到多个文本块; 将各个所述文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识别模型 得到属于所述内容记录的目标文本块对应的语义标签, 所述语义标签用于表征所述目标文 本块对应的所述表头标题; 根据各个所述目标文本块对应的语义标签, 确定所述表格中对应于所述语义标签的目 标语义实体; 根据所述语义标签以及所述语义标签对应的所述目标语义实体, 生成结构化数据。 2.根据权利要求1所述的表格信 息提取方法, 其特征在于, 所述根据各个所述目标文本 块对应的语义标签, 确定所述表格中对应于所述语义标签的目标语义实体, 包括: 根据各个所述目标文本块对应的语义标签, 确定所述语义标签的出现频次; 按照所述出现频次从高到低, 对所述语义标签进行排序; 按照排序依次遍历各个所述语义标签, 将当前遍历的语义标签作为当前标签, 执行以 下处理: 基于所述当前标签, 对所述内容记录中的各行文本进行数字替换, 得到对应于各行文 本的多个 语义数字序列; 确定各个所述语义数字序列中的最大子串和、 所述最大子串和对应的文本, 并将所述 最大子串和对应的文本作为所述当前 标签对应的初始语义实体; 根据各个所述当前标签对应的初始语义实体, 确定所述表格中对应于所述语义标签的 目标语义实体。 3.根据权利要求2所述的表格信 息提取方法, 其特征在于, 所述根据各个所述当前标签 对应的初始语义实体, 确定所述表格中对应于所述语义标签的目标语义实体, 包括: 获取所述初始语义实体的位置信息; 根据所述 位置信息, 确定所述表格中属于同列的初始语义实体; 对所述属于同列的初始语义实体进行判断, 以确定属于同个内容记录的初始语义实 体; 合并所述属于同个内容记录的初始语义实体, 确定所述表格中对应于所述语义标签的 目标语义实体。 4.根据权利要求3所述的表格信 息提取方法, 其特征在于, 所述对所述属于同列的初始 语义实体进行判断, 以确定属于同个内容记录的初始语义实体, 包括: 获取预设的字典数据集; 基于所述字典数据集, 将所述属于同列的初始语义实体输入到预设的AC自动机 中进行 匹配, 以通过 所述AC自动机得到属于同个内容记录的初始语义实体。 5.根据权利要求3所述的表格信 息提取方法, 其特征在于, 所述对所述属于同列的初始 语义实体进行判断, 以确定属于同个内容记录的初始语义实体, 包括: 获取预设的正则表达式; 利用所述正则表达 式对所述属于同列的初始语义实体进行匹配, 得到属于同个 内容记 录的初始语义实体。权 利 要 求 书 1/2 页 2 CN 114818710 A 26.根据权利要求3所述的表格信 息提取方法, 其特征在于, 所述对所述属于同列的初始 语义实体进行判断, 以确定属于同个内容记录的初始语义实体, 包括: 获取所述属于同列的初始语义实体的字符特 征矩阵; 将所述字符特 征矩阵进行最大池化, 得到所述初始语义实体的字符特 征向量; 将所述字符特征向量输入到Xgboost模型, 以通过所述Xgboost模型得到属于同个内容 记录的初始语义实体。 7.根据权利要求1所述的表格信 息提取方法, 其特征在于, 所述命名实体识别模型为基 于LayoutLM模型的二维命名实体识别模型; 在所述将各个所述文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识 别模型得到属于所述内容记录的目标文本块对应的语义标签之前, 所述方法还 包括: 获取预设的表格训练数据集; 利用所述表格训练数据集对所述二维命名实体识别模型进行增广预训练, 其中, 所述 增广预训练采用基于掩码视 觉语言模型的自监 督预训练方式。 8.一种表格信息提取装置, 其特 征在于, 所述装置包括: 表格获取模块, 用于获取待处理的表格, 其中, 所述表格包括表头标题以及所述表头标 题对应的内容记录; 表格识别模块, 用于对所述表格进行识别处 理, 得到多个文本块; 语义标签提取模块, 用于将各个所述文本块输入到预训练的命名实体识别模型, 以通 过所述命名实体识别模型得到属于所述内容记录的目标文本块对应的语义标签, 所述语义 标签用于表征 所述目标文本块对应的所述表头标题; 语义实体提取模块, 用于根据各个所述目标文本块对应的语义标签, 确定所述表格中 对应于所述语义标签的目标语义实体; 表格信息提取模块, 根据所述语义标签以及所述语义标签对应的所述目标语义实体, 生成结构化数据。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储程序; 处理器, 用于执行所述存储器存储的程序, 当所述处理器执行所述存储器存储的程序 时, 所述处 理器用于执 行: 如权利要求1至7中任一项所述的表格信息提取 方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机可执行指令, 所述计算机可 执行指令用于执 行: 如权利要求1至7中任一项所述的表格信息提取 方法。权 利 要 求 书 2/2 页 3 CN 114818710 A 3

.PDF文档 专利 表格信息提取方法、装置、设备及介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格信息提取方法、装置、设备及介质 第 1 页 专利 表格信息提取方法、装置、设备及介质 第 2 页 专利 表格信息提取方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。