专利一种基于语义增强机制的场景文本识别方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210375908.5 (22)申请日 2022.04.11 (71)申请人华南理工大学地址 510641 广东省广州市天河区五山路 381号 (72)发明人廖倩颖　梁凌宇　金连文　 (74)专利代理机构北京盛询知识产权代理有限公司 11901 专利代理师陈巍 (51)Int.Cl. G06V 20/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 30/19(2022.01) (54)发明名称一种基于语义增强机制的场景文本识别方法及系统 (57)摘要本发明公开一种基于语义增强机制的场景文本识别方法及系统，包括获取场景文本图像，对场景文本图像进行校正，对校正后的场景文本图像进行特征提取，获取视觉特征，基于视觉特征提取全局语义信息，基于全局语义信息，对视觉特征进行解码转录，得到场景文本识别字符串结果。通过上述技术方案，本发明使场景文本图像的识别能够更加准确。权利要求书2页说明书6页附图2页 CN 114581905 A 2022.06.03 CN 114581905 A 1.一种基于语义增强机制的场景文本识别方法，其特征在于，包括：获取场景文本图像，对场景文本图像进行校正，对校正后的场景文本图像进行特征提取，获取视觉特征，基于视觉特征提取全局语义信息，基于全局语义信息，对视觉特征进行解码转录，得到场景文本识别字符串结果。 2.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：对所述场景文本图像进行校正的过程包括：对所述场景文本图像进行预测，获取场景文本图像对应的仿射变换矩阵；基于所述仿射变换矩阵，对场景文本图像进行空间变换，得到采样网格，基于采样网格，对场景文本图像进行采样，得到校正后的场景文本图像，其中空间变换包括旋转、缩放和平移。 3.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：对校正后的场景文本图像进行特征提取的过程包括：将所述校正后的场景文本图像进行二维视觉特征提取，并对二维视觉特征提取结果进行上下文建模，获取视觉特征。 4.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：所述全局语义信息的提取过程包括：将所述视觉特征从视觉空间映射到语言空间，对语音空间中的视觉特征进行预测，得到全局语义信息。 5.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：对视觉特征进行解码转录的过程包括：将所述全局语义信息作为初始向量，基于初始向量，对所述视觉特征进行逐步解码获取字符向量，将所述字符向量进行转录，得到场景文本识别字符串结果。 6.根据权利要求1 ‑5任一项所述基于语义增强机制的场景文本识别方法的识别系统，其特征在于，包括：文本校正器、特征编码器、语义增强器、序列解码器；所述文本矫正器用于获取场景文本图像，对场景文本图像进行校正，所述特征编码器用于对校正后的场景文本图像进行特征提取，获取视觉特征，所述语义增强器基于视觉特征提取全局语义信息，所述序列解码器基于全局语义信息，对视觉特征进行解码转录，得到场景文本识别字符串结果。 7.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：所述文本矫正器包括定位网络、网格生成器及采样器；所述定位网络用于对所述场景文本图像进行预测，获取场景文本图像对应的仿射变换矩阵；所述网格生成器基于所述仿射变换矩阵，对场景文本图像进行空间变换，生成采样网格；所述采样器基于采样网络，对场景文本图像进行采样，得到校正后的场景文本图像。 8.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：所述特征编码器采用卷积神经网络结构及基于自注意力的网络结构；所述卷积神经网络结构用于将所述校正后的场景文本图像进行二维视觉特征提取；权　利　要　求　书 1/2 页 2 CN 114581905 A 2基于自注意力的网络结构用于对二维视觉特征提取结果进行上下文建模，获取视觉特征。 9.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：所述语义增强器采用卷积和循环神经网络结构；所述卷积和循环神经网络结构用于将所述视觉特征从视觉空间映射到语言空间，对语音空间中的视觉特征进行预测，得到全局语义信息。 10.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：所述序列解码器采用Transformer结构的解码器；采用Transformer结构的解码器用于将所述全局语义信息作为初始向量，基于初始向量，对所述视觉特征进行逐步解码获取字符向量，将所述字符向量进行转录，得到场景文本识别字符串结果。权　利　要　求　书 2/2 页 3 CN 114581905 A 3

专利 一种基于语义增强机制的场景文本识别方法及系统

专利一种基于语义增强机制的场景文本识别方法及系统