专利文本识别方法及装置、设备、介质和产品 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210776958.4 (22)申请日 2022.06.30 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人章成全　乔美娜　吕鹏原　刘珊珊　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师纪雯 (51)Int.Cl. G06V 30/14(2022.01) G06V 30/18(2022.01) G06V 10/40(2022.01) G06V 10/75(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称文本识别方法及装置、设备、介质和产品 (57)摘要本公开提供了一种文本识别方法及装置、设备、介质和产品，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。具体实现方案包括：确定图像序列中的第一文本图像的待识别文本行；对待识别文本行进行切分，得到候选文本片区；根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区，确定候选文本片区中的第二有效文本片区；以及对第二有效文本片区进行识别，得到第一文本图像的文本识别结果。权利要求书3页说明书10页附图5页 CN 115171110 A 2022.10.11 CN 115171110 A 1.一种文本识别方法，包括：确定图像序列中的第一文本图像的待识别文本行；对所述待识别文本行进行切分，得到候选文本片区；根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区，确定所述候选文本片区中的第二有效文本片区；以及对所述第二有效文本片区进行识别，得到所述第一文本图像的文本识别结果。 2.根据权利要求1所述的方法，其中，所述根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区，确定所述候选文本片区中的第二有效文本片区，包括：确定所述候选文本片区中重复出现的第一有效文本片区，得到第三有效文本片区；以及从所述候选文本片区中删除所述第三有效文本片区，得到所述第二有效文本片区。 3.根据权利要求2所述的方法，其中，所述确定所述候选文本片区中重复出现的第一有效文本片区，得到第三有效文本片区，包括：确定所述第一有效文本片区的第一图像特征和所述候选文本片区的第二图像特征；获取所述第一图像特征和所述第二图像特征之间的匹配计算结果；根据所述匹配计算结果确定所述第三有效文本片区，其中，所述第三有效文本片区对应的所述匹配计算结果指示的特征匹配度高于预设阈值。 4.根据权利要求3所述的方法，其中，所述获取所述第一图像特征和所述第二图像特征之间的匹配计算结果，包括：在所述第二文本图像中包括基于片区坐标排序的M个第一有效文本片区、所述第一文本图像中包括基于片区坐标排序的N个候选文本片区的情况下，获取第M个第一有效文本片区的第一图像特征和前n个候选文本片区的第二图像特征之间的匹配计算结果；所述根据所述匹配计算结果确定所述第三有效文本片区，包括：在所述匹配计算结果指示所述第M个第一有效文本片区与第n个候选文本片区的特征匹配度高于预设阈值的情况下，确定前n ‑1个候选文本片区与第m个第一有效文本片区的对应特征匹配度是否高于预设阈值；以及在所述对应特征匹配度高于预设阈值的情况下，将前n个候选文本片区作为所述第三有效文本片区，其中， M、 N 为大于1的整数， n 为整数且n∈[1， N]， m为正整数且m＝{M ‑(n‑1)、 ...、 M‑1}。 5.根据权利要求3所述的方法，其中，所述对所述第二有效文本片区进行识别，得到所述第一文本图像的文本识别结果，包括：对所述第二有效文本片区的第三图像特征进行序列化编码，得到基础编码序列；在所述基础编码序列中加入第一方向信息，得到第一编码序列；在所述基础编码序列中加入第二方向信息，得到第二编码序列；以及基于所述第一编码序列和所述第二编码序列进行文本识别，得到所述文本识别结果，其中，所述第一方向信息指示与所述第二有效文本片区的分布方向相同的方向，所述第二方向信息指示与所述分布方向相反的方向。权　利　要　求　书 1/3 页 2 CN 115171110 A 26.根据权利要求1所述的方法，其中，所述在图像序列中确定第一文本图像中的待识别文本行，包括：对所述第一文本图像进行文本检测，得到文本检测结果，其中，所述文本检测结果包括用于在所述第一文本图像中框选文本图像区域的边界框坐标信息；以及根据所述坐标信息，确定所述待识别文本行。 7.根据权利要求1所述的方法，其中，所述对所述待识别文本行进行切分，得到候选文本片区，包括：对所述待识别文本行进行基于预设像素尺度的切分处理，得到所述候选文本片区，其中，所述候选文本片区对应至少部分字符所在的文本图像区域。 8.根据权利要求1至7中任一项所述的方法，还包括：根据所述图像序列中的至少两个文本图像之间的时序关系，对与所述至少两个文本图像关联的文本识别结果进行组合，得到针对所述图像序列的文本识别结果。 9.一种文本识别装置，包括：待识别文本行确定模块，用于确定图像序列中的第一文本图像的待识别文本行；候选文本片区确定模块，用于对所述待识别文本行进行切分，得到候选文本片区；第二有效文本片区确定模块，用于根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区，确定所述候选文本片区中的第二有效文本片区；以及文本识别模块，用于对所述第二有效文本片区进行识别，得到所述第一文本图像的文本识别结果。 10.根据权利要求9所述的装置，其中，所述第二有效文本片区确定模块包括：第三有效文本片区确定子模块，用于确定所述候选文本片区中重复出现的第一有效文本片区，得到第三有效文本片区；以及第三有效文本片区删除子模块，用于从所述候选文本片区中删除所述第三有效文本片区，得到所述第二有效文本片区。 11.根据权利要求10所述的装置，其中，所述第三有效文本片区确定子模块包括：图像特征确定单元，用于确定所述第一有效文本片区的第一图像特征和所述候选文本片区的第二图像特征；特征匹配度计算单元，用于获取所述第一图像特征和所述第二图像特征之间的匹配计算结果；第三有效文本片区确定单元，用于根据所述匹配计算结果确定所述第三有效文本片区，其中，所述第三有效文本片区对应的所述匹配计算结果指示的特征匹配度高于预设阈值。 12.根据权利要求1 1所述的装置，其中，所述特征匹配度计算单元用于：在所述第二文本图像中包括基于片区坐标排序的M个第一有效文本片区、所述第一文本图像中包括基于片区坐标排序的N个候选文本片区的情况下，获取第M个第一有效文本片区的第一图像特征和前n个候选文本片区的第二图像特征之间的匹配计算结果；所述第三有效文本片区确定单元包括：特征匹配度计算子单元，用于在所述匹配计算结果指示所述第M个第一有效文本片区权　利　要　求　书 2/3 页 3 CN 115171110 A 3

专利 文本识别方法及装置、设备、介质和产品

专利文本识别方法及装置、设备、介质和产品