(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210713483.4
(22)申请日 2022.06.22
(30)优先权数据
17/355,979 2021.0 6.23 US
(71)申请人 黑芝麻智能科技有限公司
地址 430080 湖北省武汉市青山区和平大
道1278号印力中心32 楼
(72)发明人 黄子贤 屠方闻 李博
(74)专利代理 机构 北京布瑞知识产权代理有限
公司 11505
专利代理师 宗广静
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/08(2006.01)
G06V 10/22(2022.01)
(54)发明名称
图像处理系统、 方法以及多媒体处 理系统
(57)摘要
本发明公开了一种图像处理系统、 方法以及
多媒体处理系统。 该系统采用多模式可扩展网络
系统和重新 分组架构。 该系统是使用神经网络的
基于人工智 能的系统。 该系统包括预处理、 处理
和后处理单元。 该系统使用由移动设备的摄像头
记录的光学信息来提取和分析诸如照片或视频
剪辑之类的图像中的内容。 基于检索到的信息,
给出一个标签来 最恰当地描述图像的场景。
权利要求书2页 说明书7页 附图6页
CN 115131609 A
2022.09.30
CN 115131609 A
1.一种用于识别图像的场景的图像处 理系统, 其特 征在于, 所述图像处 理系统包括:
预处理单元, 所述预处理单元用于处理所述图像, 其中所述预处理包括调整所述图像
的大小并生成所述图像的注意力区域和背 景区域, 其中所述预 处理还包括在所述背景区域
上重新叠印所述注意力区域以生成融合图像;
处理单元, 所述处 理单元用于处 理所述融合图像, 其中所述处 理单元包括:
编码器, 所述编码器用于生成所述融合图像的多个区别特 征向量;
标签生成器, 所述标签生成器用于从一组预定义标签中分配标签给所述多个区别特征
向量中的每 个区别特 征向量, 以生成标签向量;
深度神经网络, 所述深度神经网络用于预测每 个所述标签向量的概 率; 和
类重组器, 所述类重组器用于基于概率值对多个所述标签向量进行重新分组, 以生成
一个或多个父 标签向量; 和
后处理单元, 所述后处理单元用于为所述一个或多个父标签向量生成分数, 其中最终
标签是由所述父 标签向量基于所述分数生成的, 从而识别所述图像的场景。
2.根据权利要求1所述的图像处理系统, 其特征在于, 所述图像被捕 获或存储在电子设
备上。
3.根据权利要求2所述的图像处理系统, 其特征在于, 所述电子设备是智能手机、 平板
和数码相机中的任一种。
4.根据权利要求1所述的图像处理系统, 其特征在于, 所述预处理器通过减小经调 整大
小的图像的像素 大小来生成所述注意力区域。
5.根据权利要求1所述的图像处理系统, 其特征在于, 所述处理单元能够对深度 学习和
主体分类模型进行处 理。
6.根据权利要求1所述的图像处理系统, 其特征在于, 所述深度神经网络利用概率门
控, 以通过分析 所述融合图像的光照、 纹 理、 结构和主体来预测每 个所述标签向量的概 率。
7.根据权利要求1所述的图像处理系统, 其特征在于, 所述编码器通过多个描述符生成
所述多个区别特 征向量。
8.根据权利要求7所述的图像处理系统, 其特征在于, 所述描述符是基于所述融合图像
的颜色、 纹 理或形状的像素属性的组合。
9.根据权利要求1所述的图像处理系统, 其特征在于, 所述类重组器基于所述标签向量
之间的语义相似性对所述多个标签向量进行分组。
10.根据权利要求1所述的图像处理系统, 其特征在于, 所述后处理单元基于一个或多
个条件阈值 为每个所述父 标签向量 生成分数。
11.一种用于处 理图像的方法, 其特 征在于, 所述方法包括:
对所述图像进行 预处理, 其中, 所述预处 理包括:
调整所述图像的大小以生成经调整大小的图像;
生成所述经调整大小的图像的注意力区域和背景区域;
在所述背景区域上重新叠印所述注意力区域以生成融合图像;
对所述融合图像进行处 理, 其中, 所述处 理包括:
生成所述融合图像的多个区别特 征向量;
从一组预定义标签中分配标签给所述多个区别特征向量中的每个区别特征向量, 以生权 利 要 求 书 1/2 页
2
CN 115131609 A
2成标签向量;
预测每个所述标签向量的概 率; 和
基于概率值对多个所述标签向量进行重新分组, 以生成一个或多个父 标签向量; 和
为所述一个或多个父标签向量生成分数, 其中最终标签是由所述父标签向量基于所述
分数生成的, 从而识别所述图像的场景。
12.一种基于人工智能的多媒体处理系统, 用于从多媒体中识别场景, 其特征在于, 所
述基于人工智能的多媒体处 理系统包括:
预处理单元, 所述预处理单元用于处理所述多媒体, 其中所述预处理包括调整所述多
媒体的大小并生成所述多媒体的注意力区域和背 景区域, 其中所述预 处理包括在所述背 景
区域上重新叠印所述注意区域以生成融合多媒体;
处理单元, 所述处 理单元用于处 理所述融合多媒体, 其中所述处 理单元包括:
编码器, 所述编码器用于生成所述融合多媒体的多个区别特 征向量;
标签生成器, 所述标签生成器用于从一组预定义标签中分配标签给所述多个区别特征
向量中的每 个区别特 征向量, 以生成标签向量;
深度神经网络, 所述深度神经网络用于预测每 个所述标签向量的概 率; 和
类重组器, 所述类重组器用于基于概率值对多个所述标签向量进行重新分组, 以生成
一个或多个父 标签向量; 和
后处理单元, 所述后处理单元用于为所述一个或多个父标签向量生成分数, 其中最终
标签是由所述父 标签向量基于所述分数生成的, 从而识别所述多媒体的场景。
13.根据权利要求12所述的基于人工智能的多媒体处理系统, 其特征在于, 主体标签识
别系统将多模式信息的一个或多个通道与原始图像相结合, 其中, 所述一个或多个通道包
括自动对焦值、 曝光 值和运动值。
14.一种计算机存储介质, 其特征在于, 所述计算机存储介质具有计算机程序逻辑, 所
述计算机程序逻辑用于使计算机系统中的至少一个处理器能够经由软件平台识别图像的
场景, 所述计算机程序逻辑包括:
对图像进行 预处理, 其中, 所述预处 理包括:
调整所述图像的大小以生成经调整大小的图像;
生成所述经调整大小的图像的注意力区域和背景区域;
在所述背景区域上重新叠印所述注意力区域以生成融合图像;
对所述融合图像进行处 理, 其中, 所述处 理包括:
生成所述融合图像的多个区别特 征向量;
从一组预定义标签中分配标签给所述多个区别特征向量中的每个区别特征向量, 以生
成标签向量;
预测每个所述标签向量的概 率; 和
基于概率值对多个所述标签向量进行重新分组, 以生成一个或多个父 标签向量; 和
为所述一个或多个父标签向量生成分数, 其中最终标签是由所述父标签向量基于所述
分数生成的, 从而识别所述图像的场景。权 利 要 求 书 2/2 页
3
CN 115131609 A
3
专利 图像处理系统、方法以及多媒体处理系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:29:01上传分享