国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375908.5 (22)申请日 2022.04.11 (71)申请人 华南理工大 学 地址 510641 广东省广州市天河区五山路 381号 (72)发明人 廖倩颖 梁凌宇 金连文 (74)专利代理 机构 北京盛询知识产权代理有限 公司 11901 专利代理师 陈巍 (51)Int.Cl. G06V 20/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 30/19(2022.01) (54)发明名称 一种基于语义增强机制的场景文本识别方 法及系统 (57)摘要 本发明公开一种基于语义增强机制的场景 文本识别方法及系统, 包括获取场景文本图像, 对场景文本图像进行校正, 对 校正后的场景文本 图像进行特征提取, 获取视觉特征, 基于视觉特 征提取全局语义信息, 基于全局语义信息, 对视 觉特征进行解码转录, 得到场景文本识别字符串 结果。 通过上述技术方案, 本发明使场景文本图 像的识别能够更加准确。 权利要求书2页 说明书6页 附图2页 CN 114581905 A 2022.06.03 CN 114581905 A 1.一种基于语义增强机制的场景文本识别方法, 其特 征在于, 包括: 获取场景文本 图像, 对场景文本 图像进行校正, 对校正后的场景文本 图像进行特征提 取, 获取视觉特征, 基于视觉特征提取全局语义信息, 基于全局语义信息, 对视觉特征进行 解码转录, 得到场景文本识别字符串结果。 2.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 对所述场景文本图像进行 校正的过程包括: 对所述场景文本图像进行 预测, 获取场景文本图像对应的仿射变换矩阵; 基于所述仿射变换矩阵, 对场景文本图像进行空间变换, 得到采样网格, 基于采样网 格, 对场景文本图像进行采样, 得到校正后的场景文本图像, 其中空间变换包括旋转、 缩放 和平移。 3.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 对校正后的场景文本图像进行 特征提取的过程包括: 将所述校正后的场景文本图像进行二维视觉特征提取, 并对二维视觉特征提取结果进 行上下文建模, 获取视 觉特征。 4.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 所述全局语义信息的提取 过程包括: 将所述视觉特征从视觉空间映射到语言空间, 对语音空间中的视觉特征进行预测, 得 到全局语义信息 。 5.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 对视觉特征进行解码转录的过程包括: 将所述全局语义信息作为初始向量, 基于初始向量, 对所述视觉特征进行逐步解码获 取字符向量, 将所述字符向量进行转录, 得到场景文本识别字符串结果。 6.根据权利要求1 ‑5任一项所述基于语义增强机制的场景文本识别方法的识别系统, 其特征在于, 包括: 文本校正器、 特 征编码器、 语义增强器、 序列解码器; 所述文本矫 正器用于获取场景文本图像, 对场景文本图像进行 校正, 所述特征编码器用于对校正后的场景文本图像进行 特征提取, 获取视 觉特征, 所述语义增强器 基于视觉特征提取全局语义信息, 所述序列解码器基于全局语义信息, 对视觉特征进行解码转录, 得到场景文本识别字 符串结果。 7.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述文本矫 正器包括定位网络、 网格生成器及采样器; 所述定位网络用于对所述场景文本图像进行预测, 获取场景文本图像对应的仿射变换 矩阵; 所述网格生成器基于所述仿射变换矩阵, 对场景文本 图像进行空间变换, 生成采样网 格; 所述采样器 基于采样网络, 对场景文本图像进行采样, 得到校正后的场景文本图像。 8.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述特征编码器采用卷积神经网络结构及基于自注意力的网络结构; 所述卷积神经网络结构用于将所述校正后的场景文本图像进行二维视 觉特征提取;权 利 要 求 书 1/2 页 2 CN 114581905 A 2基于自注意力的网络结构用于对二维视觉特征提取结果进行上下文建模, 获取视觉特 征。 9.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述语义增强器采用卷积和循环神经网络结构; 所述卷积和循环神经网络结构用于将所述视觉特征从视觉空间 映射到语言空间, 对语 音空间中的视 觉特征进行预测, 得到全局语义信息 。 10.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述序列解码器采用Transformer结构的解码器; 采用Transformer结构的解码器用于将所述全局语义信息作为初始向量, 基于初始 向 量, 对所述视觉特征进 行逐步解码获取字符向量, 将所述字符向量进 行转录, 得到场景文本 识别字符串结果。权 利 要 求 书 2/2 页 3 CN 114581905 A 3
专利 一种基于语义增强机制的场景文本识别方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:45:55
上传分享
举报
下载
原文档
(737.4 KB)
分享
友情链接
GB-T 8905-2012 六氟化硫电气设备中气体管理和检测导则.pdf
GB-Z 30286-2013 信息安全技术 信息系统保护轮廓和信息系统安全目标产生指南.pdf
GB-T 41895-2022 细胞中DNA病毒测定 MNP标记法.pdf
GB-T 37756-2019 产品水足迹评价和报告指南.pdf
GB-T 4356-2016 不锈钢盘条.pdf
DB43-T 2746-2023 特种设备使用单位安全风险评估和管控导则 湖南省.pdf
GB-T 712-2022 船舶及海洋工程用结构钢.pdf
DB34-T 1692-2016 能源计量示范单位评价要求 安徽省.pdf
GB-T 11346-2018 铝合金铸件射线照相检测 缺陷分级.pdf
GB-T 35003-2018 非易失性存储器耐久和数据保持试验方法.pdf
GB-T 18175-2014 水处理剂缓蚀性能的测定 旋转挂片法.pdf
GB-T 34960.4-2017信息技术服务治理第4部分审计导则.pdf
GB-Z 18727-2002 企业应用产品数据管理(PDM)实施规范.pdf
GB-T 12924-2008 船舶工艺术语 船体建造和安装工艺.pdf
LY-T 1286-2022 刨花干燥机节能监测方法.pdf
GM-Z 0001—2013 密码术语.pdf
T-XCCX 001—2022 大佛龙井数字化茶园建设与管理.pdf
GB-T 42806-2023 婴童用品 餐具与喂食器具通用技术要求.pdf
GB-T 25759-2010 无损检测 数字化超声检测数据的计算机传输数据段指南.pdf
ISO 5393 2017 Rotary tools for threaded fasteners — Performance test method.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(737.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。