(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110717686.6
(22)申请日 2021.06.28
(65)同一申请的已公布的文献号
申请公布号 CN 113434918 A
(43)申请公布日 2021.09.24
(73)专利权人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 余月 杨越 李博闻
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 邬晓楠
(51)Int.Cl.
G06F 30/10(2020.01)
G06F 30/27(2020.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)(56)对比文件
CN 111968193 A,2020.1 1.20
CN 110390638 A,2019.10.2 9
CN 112818646 A,2021.0 5.18
CN 112765316 A,2021.0 5.07
US 20202 94309 A1,2020.09.17
Menglan Wang 等.Jo int Embed ding based
Text-to-Ima ge Synthesis. 《2020 IE EE 32nd
Internati onal Conference o n Tools with
Artificial I ntelligence (ICTAI)》 .2020,全
文.
Bowen Li 等.LBWGAN: Label Based Shape
Synthesis From Text W ith WGANs. 《2020
Internati onal Conference o n Virtual
Reality and Visual ization (ICVRV)》 .2020,
全文. (续)
审查员 郭东榕
(54)发明名称
一种基于文本的三维体素模型生成方法
(57)摘要
本发明公开的一种基于文本的三维体素模
型生成方法, 属于从文本到三维体素模型的跨模
态生成领域。 本发明通过文本编码器将自然语言
处理为计算机能够理解的文本向量; 通过条件生
成对抗网络框架使生成器获得生成匹配文本描
述模型的能力; 通过重建模型标签的判别器, 指
导生成器训练生成更为精致的模 型; 通过使生成
器在不同阶段生成不同分辨率下的三维体素模
型, 将三维体素模型传递给不同阶段的判别器,
并对其结果进行联合训练, 使生成器能够应对高
分辨率模型生成任务且生 成模型更精 致; 通过在
高分辨率模型判别器中加入局部判别器提升其
处理高数据量及模型细 节能力, 提升三维体素模
型生成结果的精致度和分辨率。 本发 明具有适用
性广、 生成效果 好的优点。
[转续页]
权利要求书4页 说明书10页 附图6页
CN 113434918 B
2022.12.02
CN 113434918 B
(56)对比文件
刘尚争等.生成对抗网络图像 类别标签跨模态识别系统设计. 《现代电子技 术》 .2020,(第08
期),全文.2/2 页
2[接上页]
CN 113434918 B1.一种基于文本的三维体素模型生成方法, 其特 征在于: 包括如下步骤,
步骤一: 将文本描述输入到语义编码器中得到文本和三维体素模型的联合语义特征,
语义编码器由语义编码器架构中预训练得到的文本编码器实现;
步骤二: 通过条件生成对抗网络框架使生成器获得生成匹配文本来描述三维体素模型
的能力;
步骤三: 通过重建模型 标签的判别器, 指导 生成器训练生成更为精致的三维体素模型;
步骤四: 通过使生成器在不同阶段生成不同分辨率下的三维体素模型, 将所述三维体
素模型传递给不同阶段的判别器, 并对其结果进行联合训练, 使生成器能够应对高分辨率
模型生成任务且生成三维体素模型 更精致;
步骤四实现方法为,
在生成高分辨率三维体素模型的任务中, 数据量随模型分辨率提高而提高, 拟合难度
也随之提升; 通过构建级联的生成对抗网络, 同时生成多个不同分辨率下的结果, 再使用多
个不同分辨率下的判别器结合真实数据对生成结果进 行评判, 通过将所述评判结果进 行综
合并作为损失函数计算梯度, 实现在生成器网络的不同部分对其添加约束的功能, 实现同
时对生成器的中间及结尾添加约束的目的; 其过程表示 为如下公式;
此公式中fi表示第i个判别器, 此公式综合所有分辨率下判别器对其对应的三维体素模
型生成结果的评估, 使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精
致;
步骤五: 通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细
节能力, 提升三维体素模型生成结果的精致度和分辨 率;
步骤五实现方法为,
在高分辨率模型的判别器中, 分辨率提高的同时三维体素模型的纹理细节增多, 采用
原判别器会导致部分局部细节被忽略, 网络无法达到最好的效果, 原有的方法只能对整体
进行评估; 通过引入局部判别器的方案, 在原判别器网络的基础上添设新的局部判别器, 该
判别器只针对于判断模型 的局部细节并将其反馈给生成器用于其对生成模型细节任务的
训练; 由于同时只处理模型 的一小部分, 此网络在能够应对高分辨率模型带来的高数据量
问题与高分辨率模型被高度压缩所导致的模型特征不能充分地描述模型的问题; 其过程表
示为如下公式;
此公式中,
代表模型的局部, 此处通过将模型各个部分判别结果的平均值作为损失训
练, 此系统获得处理局部细节特征的能力; 在实际训练中, 判别器尽可能使此公式值更大而
生成器尽可能使此公式值缩小;
改进后的高分辨率判别器神经网络以三维体素模型和文本向量为输入, 此判别器实现
三个功能, 包括对模 型整体真伪的判别, 对模型局部 真伪的判别 及对模型类别标签的重 建,
以对模型整体及局部的判别结果与重建的类别标签为输出; 此判别器首先通过一段卷积神权 利 要 求 书 1/4 页
2
CN 113434918 B
3
专利 一种基于文本的三维体素模型生成方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:54:03上传分享