(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210266996.5 (22)申请日 2022.03.18 (65)同一申请的已公布的文献号 申请公布号 CN 114359313 A (43)申请公布日 2022.04.15 (73)专利权人 北京点聚信息技 术有限公司 地址 100000 北京市海淀区西三 旗昌临813 号7号楼1层10 01 (72)发明人 陆猛 孙高健 赵云 庄玉龙  朱静宇 张伟 谢文迅 孙肖辉  郭尚 杨瑞钦  (74)专利代理 机构 郑州知倍 通知识产权代理事 务所(普通 合伙) 41191 专利代理师 夏开松 (51)Int.Cl. G06T 7/11(2017.01)G06T 7/194(2017.01) G06T 7/90(2017.01) H04L 1/00(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) (56)对比文件 CN 114118011 A,2022.03.01 CN 113963232 A,202 2.01.21 CN 10876 3196 A,2018.1 1.06 US 8254681 B1,2012.08.28 夏志明等.一种基 于语义的中文 文本相似度 算法. 《计算机与现代化》 .2015,(第04期), 李倩倩等.图像 语义的图形化标注和检索研 究. 《计算机 应用与软件》 .20 08,(第12期), 审查员 姚子琪 (54)发明名称 一种基于版式文 件处理大文件的方法 (57)摘要 本发明涉及计算机技术领域, 具体涉及一种 基于版式文件处理大文件的方法。 该方法包括: 获取大文件的每页子文件中的可视化图像, 获取 每个语义元素的位置索引; 对可视化图像中的文 本数据进行分词并获取每个词的重要程度; 同时 获取可视化图像的分割图像; 对于分割图像的每 个语义元素, 获取前景区域中的图像数据与背景 区域的第一差异、 文本数据与背景区域的第二差 异, 根据每个词对应的第二差异以及重要程度获 取语义元素中的文本优先级, 根据第一差异和文 本优先级获取每个语义元素的显著度; 按照显著 度的大小将每页子文件的所有语义元素依次传 输至客户端, 以使客户端对其进行元素组装。 本 发明实施例能够使大文件传输流畅的同时首先 显示重要部分。 权利要求书2页 说明书6页 附图1页 CN 114359313 B 2022.05.27 CN 114359313 B 1.一种基于版式文件处 理大文件的方法, 其特 征在于, 该 方法包括以下步骤: 获取大文件的每页子文件的可视化图像, 所述可视化图像包括多个语义元素; 对每页 子文件进行解析获取每 个语义元素的位置索引; 对可视化图像 中的文本数据进行分词处理并获取每个词的重要程度; 同时对可视化图 像进行语义分割, 获取分割图像, 所述分割图像包括前 景区域和背景区域; 对于分割图像的每个语义元素, 获取前景区域中的图像数据与背景区域的第一差异, 以及文本数据与背景区域的第二差异, 根据所述第二差异以及所有词的重要程度 平均值获 取每个语义元素中的文本优先级, 根据第一差异和文本优先级获取每个语义元素的显著 度; 按照显著度的大小将每页子文件的所有语义元素依次传输至客户端, 以使客户端根据 所述位置索引对其进行 元素组装; 所述对可视化图像中的文本数据进行分词处 理并获取每 个词的重要程度, 包括: 提取可视化图像中的文本数据, 利用数据库对其进行分词, 得到词语集合, 计算每个词 的词频、 包 含该词的段 数以及当前页子文件的总段 数, 进而获取该词的重要程度; 所述第一差异的获取 方法为: 将所述可视化图像转换为CIELAB颜色空间, 利用色差公式获取每个语义元素内前景中 每个图像像素与所述背景区域的颜色平均LAB值之间的第一色差, 以该语义元素中的第一 色差平均值作为所述第一差异; 所述第二差异的获取 方法为: 获取每个语义元素内前景中每个文本像素与所述背景区域的颜色平均LAB值之间的第 二色差, 将其进行排序得到 色差序列, 检测色差序列中的变点, 利用变点将所述色差序列切 割为多个子序列, 依据所有第二色差的平均色差以及变点前后的子序列 平均色差获取所述 第二差异。 2.根据权利要求1所述的一种基于版式文件处理大文件的方法, 其特征在于, 所述文本 优先级的获取 方法为: 对于每个语义元素的文本数据, 以所有词的重要程度的平均值作为该语义元素的文本 重要程度, 以文本 重要程度和第二差异的乘积作为所述文本优先级。 3.根据权利要求1所述的一种基于版式文件处理大文件的方法, 其特征在于, 所述第 二 差异的获取 方法该包括: 获取每个变点对应的前后两个子序列的平均序列色差的差值绝对值作为变点对应的 序列差值, 为所有第二色差的平均色差赋予第一权重, 为所有变点对应的序列差值的和赋 予第二权 重, 以两者的加权求和结果作为所述第二差异。 4.根据权利要求1所述的一种基于版式文件处理大文件的方法, 其特征在于, 所述元素 组装包括: 按照传输顺序依次在语义元素的位置索引处显示对应内容, 直至当前页子文件显示完 全。 5.根据权利要求1所述的一种基于版式文件处理大文件的方法, 其特征在于, 该方法还 包括以下步骤: 当客户端查看大文件时, 优先传输客户端跳转页面对应的子文件, 次优传输该跳转页权 利 要 求 书 1/2 页 2 CN 114359313 B 2面相邻页面对应的子文件; 当客户端仅传输大文件时, 按照页码顺序传输 子文件。权 利 要 求 书 2/2 页 3 CN 114359313 B 3

.PDF文档 专利 一种基于版式文件处理大文件的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于版式文件处理大文件的方法 第 1 页 专利 一种基于版式文件处理大文件的方法 第 2 页 专利 一种基于版式文件处理大文件的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。