(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210776958.4 (22)申请日 2022.06.30 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 章成全 乔美娜 吕鹏原 刘珊珊  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 纪雯 (51)Int.Cl. G06V 30/14(2022.01) G06V 30/18(2022.01) G06V 10/40(2022.01) G06V 10/75(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称 文本识别方法及装置、 设备、 介质和产品 (57)摘要 本公开提供了一种文本识别方法及装置、 设 备、 介质和产品, 涉及人工智能技术领域, 具体为 深度学习、 图像处理、 计算机视觉技术领域, 可应 用于OCR等场景。 具体实现方案包括: 确定图像序 列中的第一文本图像的待识别文本行; 对待识别 文本行进行切分, 得到候选文本片区; 根据图像 序列中与第一文本图像相邻的第二文本图像中 的第一有效文本片区, 确定候选文本片区中的第 二有效文本片区; 以及对第二有效文本片区进行 识别, 得到第一文本图像的文本识别结果。 权利要求书3页 说明书10页 附图5页 CN 115171110 A 2022.10.11 CN 115171110 A 1.一种文本识别方法, 包括: 确定图像序列中的第一文本图像的待识别文本行; 对所述待识别文本行进行切分, 得到候选文本片区; 根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片 区, 确定所述 候选文本片区中的第二有效文本片区; 以及 对所述第二有效文本片区进行识别, 得到所述第一文本图像的文本识别结果。 2.根据权利要求1所述的方法, 其中, 所述根据所述图像序列中与所述第 一文本图像相 邻的第二文本图像中的第一有效文本片区, 确定所述候选文本片区中的第二有效文本片 区, 包括: 确定所述候选文本片区中重复出现的第一有效文本片区, 得到第三有效文本片区; 以 及 从所述候选文本片区中删除所述第三有效文本片区, 得到所述第二有效文本片区。 3.根据权利要求2所述的方法, 其中, 所述确定所述候选文本片区中重复出现的第 一有 效文本片区, 得到第三有效文本片区, 包括: 确定所述第一有效文本片区的第一图像特 征和所述 候选文本片区的第二图像特 征; 获取所述第一图像特 征和所述第二图像特 征之间的匹配 计算结果; 根据所述匹配 计算结果确定所述第三有效文本片区, 其中, 所述第 三有效文本片区对应的所述匹配计算结果指示的特征匹配度高于预设阈 值。 4.根据权利要求3所述的方法, 其中, 所述获取所述第 一图像特征和所述第 二图像特征 之间的匹配 计算结果, 包括: 在所述第二文本 图像中包括基于片区坐标排序的M个第一有效文本片区、 所述第一文 本图像中包括基于片区坐标排序的N个候选文本片区的情况下, 获取第M个第一有效文本片 区的第一图像特 征和前n个候选文本片区的第二图像特 征之间的匹配 计算结果; 所述根据所述匹配 计算结果确定所述第三有效文本片区, 包括: 在所述匹配计算结果指示所述第M个第一有效文本片区与第n个候选文本片区的特征 匹配度高于预设阈值的情况下, 确定前n ‑1个候选文本片区与第m个第一有效文本片区的对 应特征匹配度是否高于预设阈值; 以及 在所述对应特征匹配度高于预设阈值的情况下, 将前n个候选文本片区作为所述第三 有效文本片区, 其中, M、 N 为大于1的整数, n 为整数且n∈[1, N], m为 正整数且m={M ‑(n‑1)、 ...、 M‑1}。 5.根据权利要求3所述的方法, 其中, 所述对所述第二有效文本片区进行识别, 得到所 述第一文本图像的文本识别结果, 包括: 对所述第二有效文本片区的第三图像特 征进行序列化编码, 得到基础编码序列; 在所述基础编码序列中加入第一方向信息, 得到第一编码序列; 在所述基础编码序列中加入第二方向信息, 得到第二编码序列; 以及 基于所述第一编码序列和所述第二编码序列进行文本识别, 得到所述文本识别结果, 其中, 所述第一方向信息指示与所述第二有效文本片区的分布方向相同的方向, 所述 第二方向信息指示与所述分布方向相反的方向。权 利 要 求 书 1/3 页 2 CN 115171110 A 26.根据权利要求1所述的方法, 其中, 所述在图像序列中确定第 一文本图像中的待识别 文本行, 包括: 对所述第 一文本图像进行文本检测, 得到文本检测结果, 其中, 所述文本检测结果包括 用于在所述第一文本图像中框 选文本图像区域的边界框坐标信息; 以及 根据所述 坐标信息, 确定所述待识别文本行。 7.根据权利要求1所述的方法, 其中, 所述对所述待识别文本行进行切分, 得到候选文 本片区, 包括: 对所述待识别文本行进行基于预设像素尺度的切分处理, 得到所述候选文本片区, 其 中, 所述候选文本片区对应至少部分字符所在的文本图像区域。 8.根据权利要求1至7中任一项所述的方法, 还 包括: 根据所述图像序列中的至少两个文本图像之间的时序关系, 对与所述至少两个文本图 像关联的文本识别结果进行组合, 得到针对所述图像序列的文本识别结果。 9.一种文本识别装置, 包括: 待识别文本行确定模块, 用于确定图像序列中的第一文本图像的待识别文本行; 候选文本片区确定模块, 用于对所述待识别文本行进行切分, 得到候选文本片区; 第二有效文本片区确定模块, 用于根据所述图像序列中与所述第 一文本图像相邻的第 二文本图像中的第一有效文本片区, 确定所述 候选文本片区中的第二有效文本片区; 以及 文本识别模块, 用于对所述第二有效文本片区进行识别, 得到所述第一文本 图像的文 本识别结果。 10.根据权利要求9所述的装置, 其中, 所述第二有效文本片区确定模块包括: 第三有效文本片区确定子模块, 用于确定所述候选文本片区中重复出现的第 一有效文 本片区, 得到第三有效文本片区; 以及 第三有效文本片区删除子模块, 用于从所述候选文本片区中删除所述第 三有效文本片 区, 得到所述第二有效文本片区。 11.根据权利要求10所述的装置, 其中, 所述第三有效文本片区确定 子模块包括: 图像特征确定单元, 用于确定所述第 一有效文本片区的第 一图像特征和所述候选文本 片区的第二图像特 征; 特征匹配度计算单元, 用于获取所述第 一图像特征和所述第 二图像特征之间的匹配计 算结果; 第三有效文本片区确定单元, 用于根据所述匹配计算结果确定所述第三有效文本片 区, 其中, 所述第 三有效文本片区对应的所述匹配计算结果指示的特征匹配度高于预设阈 值。 12.根据权利要求1 1所述的装置, 其中, 所述特 征匹配度计算单 元用于: 在所述第二文本 图像中包括基于片区坐标排序的M个第一有效文本片区、 所述第一文 本图像中包括基于片区坐标排序的N个候选文本片区的情况下, 获取第M个第一有效文本片 区的第一图像特 征和前n个候选文本片区的第二图像特 征之间的匹配 计算结果; 所述第三有效文本片区确定单 元包括: 特征匹配度计算子单元, 用于在所述匹配计算结果指示所述第M个第一有效文本片区权 利 要 求 书 2/3 页 3 CN 115171110 A 3

.PDF文档 专利 文本识别方法及装置、设备、介质和产品

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本识别方法及装置、设备、介质和产品 第 1 页 专利 文本识别方法及装置、设备、介质和产品 第 2 页 专利 文本识别方法及装置、设备、介质和产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:31:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。