专利多行文本识别方法、装置、设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210377461.5 (22)申请日 2022.04.11 (71)申请人深圳市星桐科技有限公司地址 518027 广东省深圳市福田区华强北街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人秦勇　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师范彦扬 (51)Int.Cl. G06V 30/40(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 30/10(2022.01) (54)发明名称多行文本识别方法、装置、设备及介质 (57)摘要本公开提供一种多行文本识别方法、装置、设备及介质，其中该方法包括：将待处理的多行文本图像输入至预先训练得到的多行文本识别模型；其中，所述多行文本识别模型包括特征提取网络和解码网络；通过所述特征提取网络对所述多行文本图像进行特征提取，得到携带有语义信息的图像特征；通过所述解码网络对所述图像特征进行多行解码得到第一解码结果，以及对所述图像特征进行多列解码得到第二解码结果，并根据所述第一解码结果和所述第二解码结果得到多行文本识别结果。上述方式能够直接对多行文本图像进行整体识别，可以有效提升多行文本识别效率。权利要求书4页说明书16页附图4页 CN 114581926 A 2022.06.03 CN 114581926 A 1.一种多行文本识别方法，包括：将待处理的多行文本图像输入至预先训练得到的多行文本识别模型；其中，所述多行文本识别模型包括特征提取网络和解码网络；通过所述特征提取网络对所述多行文本图像进行特征提取，得到携带有语义信息的图像特征；通过所述解码网络对所述图像特征进行多行解码得到第一解码结果，以及对所述图像特征进行多列解码得到第二解码结果，并根据所述第一解码结果和所述第二解码结果得到多行文本识别结果。 2.如权利要求1所述的多行文本识别方法，其中，所述特征提取网络包括第一特征提取子网络和第二特征提取子网络；通过所述特征提取网络对所述多行文本图像进行特征提取，得到携带有语义信息的图像特征的步骤，包括：通过所述第一特征提取子网络对所述多行文本图像进行浅层特征提取，得到第一特征向量；通过所述第二特征提取子网络基于所述第一特征向量进行深层特征提取，得到第二特征向量；所述第二特征向量为携带有语义信息的图像特征，且所述第二特征向量与所述第一特征向量的尺寸相同。 3.如权利要求2所述的多行文本识别方法，其中，所述尺寸中的高参数为预设的最大可识别行数，所述尺寸中的宽参数为预设的每行可包含最大字符数。 4.如权利要求2所述的多行文本识别方法，其中，所述第二特征提取子网络包括基于注意力机制的编码器，且所述基于注意力机制的编码器是基于Tr ansformer编码器构建得到的。 5.如权利要求4所述的多行文本识别方法，其中，所述基于注意力机制的编码器是将所述Transformer编码器中所包含的编码器数量进行缩减，且剔除每个所述编码器中的层归一化单元得到的。 6.如权利要求4所述的多行文本识别方法，其中，所述第二特征提取子网络还包含与所述基于注意力机制的编码器相连的双向LSTM网络，且所述双向LSTM网络和所述基于注意力机制的编码器均与所述第一特征提取子网络相连；通过所述第二特征提取子网络基于所述第一特征向量进行深层特征提取，得到第二特征向量的步骤，包括：将所述第一特征向量输入至所述双向LSTM 网络，得到所述双向LSTM 网络输出的特征向量，并将所述双向LSTM网络输出的特征向量作为所述基于注意力机制的编码器的位置编码；通过所述基于注意力机制的编码器根据所述位置编码和所述第一特征向量进行深层特征提取，得到第二特征向量。 7.如权利要求2所述的多行文本识别方法，其中，所述第一特征提取子网络包括残差网络。 8.如权利要求1至7任一项所述的多行文本识别方法，其中，所述解码网络包括第一CTC 解码器和第二CTC解码器；所述第一CTC解码器和所述第二CTC解码器均包含多个并列的全权　利　要　求　书 1/4 页 2 CN 114581926 A 2连接层，且所述第一CTC解码器中的全连接层的数量为预设的最大可识别行数，所述第二 CTC解码器中的全连接层的数量为预设的每行可包含最大字符数；通过所述解码网络对所述图像特征进行多行解码得到第一解码结果，以及，对所述图像特征进行多列解码得到第二解码结果包括：通过所述第一CTC解码器对所述图像特征进行多行解码得到第一字符概率矩阵，将所述第一字符概率矩阵作为第一解码结果；通过所述第二CTC解码器对所述图像特征进行多列解码得到第二字符概率矩阵，将所述第二字符概率矩阵作为第二解码结果。 9.如权利要求8所述的多行文本识别方法，其中，根据所述第一解码结果和所述第二解码结果得到多行文本识别结果的步骤，包括：将所述第一字符概率矩阵和所述第二字符概率矩阵按照指定方式进行融合，得到最终字符概率矩阵；根据所述最终字符概率矩阵得到多行文本识别结果。 10.如权利要求9所述的多行文本识别方法，其中，将所述第一字符概率矩阵和所述第二字符概率矩阵按照指定方式进行融合，得到最终字符概率矩阵的步骤，包括：获取所述第一字符概率矩阵的第一权重以及所述第二字符概率矩阵的第二权重；根据所述第一权重和所述第二权重，对所述第一字符概率矩阵和所述第二字符概率矩阵进行逐点加权平均处理，得到最终字符概率矩阵。 11.如权利要求9所述的多行文本识别方法，其中，根据所述最终字符概率矩阵得到多行文本识别结果的步骤，包括：通过贪心搜索算法或集束搜索算法对所述最终字符概率矩阵进行字符解码，得到所述多行文本图像中的文本字符串，并将所述文本字符串作为多行文本识别结果。 12.如权利要求8所述的多行文本识别方法，其中，根据所述第一解码结果和所述第二解码结果得到多行文本识别结果的步骤，包括：对所述第一字符概率矩阵进行字符解码，得到第一字符串；以及，对所述第二字符概率矩阵进行字符解码，得到第二字符串；从所述第一字符串和所述第二字符串中选取一个字符串作为纠错字符串，另一个字符串作为目标字符串；采用所述纠错字符串对所述目标字符串进行修正，得到最终字符串，并将所述最终字符串作为多行文本识别结果。 13.如权利要求12所述的多行文本识别方法，其中，所述第一字符串为目标字符串，所述第二字符串为纠错字符串；采用所述纠错字符串对所述目标字符串进行修正的步骤，包括：对于所述目标字符串中的每一列，判断该列内的字符与所述纠错字符串中相应列内的字符不一致的数量是否超过预设第一阈值；在超过所述预设第一阈值的情况下，采用所述纠错字符串中相应列整体替换该列。 14.如权利要求12所述的多行文本识别方法，其中，所述第一字符串为纠错字符串，所述第二字符串为目标字符串；采用所述纠错字符串对所述目标字符串进行修正的步骤，包括：权　利　要　求　书 2/4 页 3 CN 114581926 A 3

专利 多行文本识别方法、装置、设备及介质

专利多行文本识别方法、装置、设备及介质