国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210441727.8 (22)申请日 2022.04.25 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 刘东煜 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 洪铭福 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/22(2019.01) G06V 30/416(2022.01)G06V 30/414(2022.01) G06V 30/412(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 表格信息提取方法、 装置、 设备及 介质 (57)摘要 本申请涉及信息处理技术领域, 提供了一种 表格信息提取方法、 装置、 设备及介质, 所述方法 包括: 获取待处理的表 格, 对表格进行识别处理, 得到多个文本块, 并将各个文本块输入到预训练 的命名实体识别模型, 以通过命名实体识别模型 得到属于内容记录的目标文本块对应的语义标 签, 语义标签用于表征目标文本块对应的表头标 题, 之后根据各个目标文本块对应的语义标签, 确定表格中对应于语义标签的目标语义实体, 最 终根据语义标签以及语义标签对应的目标语义 实体, 生成结构化数据。 本实施例提供的表格提 取方法在提高提取准确率的同时简化提取流程, 提高了信息提取的时效性。 权利要求书2页 说明书15页 附图6页 CN 114818710 A 2022.07.29 CN 114818710 A 1.一种表格信息提取 方法, 其特 征在于, 包括: 获取待处 理的表格, 其中, 所述表格包括表头标题以及所述表头标题对应的内容记录; 对所述表格进行识别处 理, 得到多个文本块; 将各个所述文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识别模型 得到属于所述内容记录的目标文本块对应的语义标签, 所述语义标签用于表征所述目标文 本块对应的所述表头标题; 根据各个所述目标文本块对应的语义标签, 确定所述表格中对应于所述语义标签的目 标语义实体; 根据所述语义标签以及所述语义标签对应的所述目标语义实体, 生成结构化数据。 2.根据权利要求1所述的表格信 息提取方法, 其特征在于, 所述根据各个所述目标文本 块对应的语义标签, 确定所述表格中对应于所述语义标签的目标语义实体, 包括: 根据各个所述目标文本块对应的语义标签, 确定所述语义标签的出现频次; 按照所述出现频次从高到低, 对所述语义标签进行排序; 按照排序依次遍历各个所述语义标签, 将当前遍历的语义标签作为当前标签, 执行以 下处理: 基于所述当前标签, 对所述内容记录中的各行文本进行数字替换, 得到对应于各行文 本的多个 语义数字序列; 确定各个所述语义数字序列中的最大子串和、 所述最大子串和对应的文本, 并将所述 最大子串和对应的文本作为所述当前 标签对应的初始语义实体; 根据各个所述当前标签对应的初始语义实体, 确定所述表格中对应于所述语义标签的 目标语义实体。 3.根据权利要求2所述的表格信 息提取方法, 其特征在于, 所述根据各个所述当前标签 对应的初始语义实体, 确定所述表格中对应于所述语义标签的目标语义实体, 包括: 获取所述初始语义实体的位置信息; 根据所述 位置信息, 确定所述表格中属于同列的初始语义实体; 对所述属于同列的初始语义实体进行判断, 以确定属于同个内容记录的初始语义实 体; 合并所述属于同个内容记录的初始语义实体, 确定所述表格中对应于所述语义标签的 目标语义实体。 4.根据权利要求3所述的表格信 息提取方法, 其特征在于, 所述对所述属于同列的初始 语义实体进行判断, 以确定属于同个内容记录的初始语义实体, 包括: 获取预设的字典数据集; 基于所述字典数据集, 将所述属于同列的初始语义实体输入到预设的AC自动机 中进行 匹配, 以通过 所述AC自动机得到属于同个内容记录的初始语义实体。 5.根据权利要求3所述的表格信 息提取方法, 其特征在于, 所述对所述属于同列的初始 语义实体进行判断, 以确定属于同个内容记录的初始语义实体, 包括: 获取预设的正则表达式; 利用所述正则表达 式对所述属于同列的初始语义实体进行匹配, 得到属于同个 内容记 录的初始语义实体。权 利 要 求 书 1/2 页 2 CN 114818710 A 26.根据权利要求3所述的表格信 息提取方法, 其特征在于, 所述对所述属于同列的初始 语义实体进行判断, 以确定属于同个内容记录的初始语义实体, 包括: 获取所述属于同列的初始语义实体的字符特 征矩阵; 将所述字符特 征矩阵进行最大池化, 得到所述初始语义实体的字符特 征向量; 将所述字符特征向量输入到Xgboost模型, 以通过所述Xgboost模型得到属于同个内容 记录的初始语义实体。 7.根据权利要求1所述的表格信 息提取方法, 其特征在于, 所述命名实体识别模型为基 于LayoutLM模型的二维命名实体识别模型; 在所述将各个所述文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识 别模型得到属于所述内容记录的目标文本块对应的语义标签之前, 所述方法还 包括: 获取预设的表格训练数据集; 利用所述表格训练数据集对所述二维命名实体识别模型进行增广预训练, 其中, 所述 增广预训练采用基于掩码视 觉语言模型的自监 督预训练方式。 8.一种表格信息提取装置, 其特 征在于, 所述装置包括: 表格获取模块, 用于获取待处理的表格, 其中, 所述表格包括表头标题以及所述表头标 题对应的内容记录; 表格识别模块, 用于对所述表格进行识别处 理, 得到多个文本块; 语义标签提取模块, 用于将各个所述文本块输入到预训练的命名实体识别模型, 以通 过所述命名实体识别模型得到属于所述内容记录的目标文本块对应的语义标签, 所述语义 标签用于表征 所述目标文本块对应的所述表头标题; 语义实体提取模块, 用于根据各个所述目标文本块对应的语义标签, 确定所述表格中 对应于所述语义标签的目标语义实体; 表格信息提取模块, 根据所述语义标签以及所述语义标签对应的所述目标语义实体, 生成结构化数据。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储程序; 处理器, 用于执行所述存储器存储的程序, 当所述处理器执行所述存储器存储的程序 时, 所述处 理器用于执 行: 如权利要求1至7中任一项所述的表格信息提取 方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机可执行指令, 所述计算机可 执行指令用于执 行: 如权利要求1至7中任一项所述的表格信息提取 方法。权 利 要 求 书 2/2 页 3 CN 114818710 A 3
专利 表格信息提取方法、装置、设备及介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:52:14
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GA-T 1980-2022 道路交通事故与违法地点表述规范.pdf
T-NIFA 23—2023 公共数据在企业征信领域应用的指南.pdf
GB-T 32268-2015 十八烷基键合相 C18 高效液相色谱柱性能测定方法.pdf
GB-T 22080-XXXX ISO IEC 27001 2022 信息安全技术 信息安全管理体系 要求.pdf
禁止进口限制进口技术管理办法.pdf
GB-T 28537-2012 高压开关设备和控制设备中六氟化硫(SF6)的使用和处理.pdf
GB-T 42581-2023 信息技术服务 数据中心业务连续性等级评价准则.pdf
安全牛 现代企业零信任安全构建应用指南研究报告 2021.pdf
GB-T 39908-2021 科技计划形成的科学数据汇交 通用代码集.pdf
ISO IEC 19770-6 2024 Information technology — IT asset management — Part 6 Hard.pdf
GB/T 40581-2021 电力系统安全稳定计算规范.pdf
DB31-T 1311-2021 上海市 数据去标识化共享指南 .pdf
许天翔 人工智能与网络空间安全.pdf
JR-T 0231—2021 银行业第三方软件开发工具包(SDK)安全接入指南.pdf
DB22-T 2123-2014 栗山天牛综合防治技术规程 吉林省.pdf
T-CEC 611—2022 变电站设备声成像测试技术导则.pdf
GB-T 42627-2023 机械安全 围栏防护系统 安全要求.pdf
GB-T 15843.4-2008 信息技术 安全技术 实体鉴别 第4部分 采用密码校验函数的机制.pdf
DB43-T 1903-2020 茶园有机肥替减化肥技术规程 湖南省.pdf
DB37-T 4614.1—2023 “爱山东”政务服务平台移动端 第1部分:总体架构 山东省.pdf
1
/
3
24
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。