(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210843607.0
(22)申请日 2022.07.18
(71)申请人 中国人民警察大 学
地址 102300 北京市门头沟区潭柘寺镇朱
砂岭街9号院
(72)发明人 赖志茂
(74)专利代理 机构 广州市智远创达专利代理有
限公司 4 4619
专利代理师 卓幼红
(51)Int.Cl.
G06V 40/16(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/10(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
(54)发明名称
基于图像特征融合的深度伪造人脸视频检
测方法及系统
(57)摘要
本发明公开了一种基于图像特征融合的深
度伪造人脸视频检测方法,该方法包括下述步
骤: 先对视频分帧; 提取待测视频的人脸区域获
得人脸图像; 对待测人脸图像的空域数据、 频域
数据及PL GF图分别进行预处理操作, 且以一个统
一相同的尺 寸要求结果为目的分别进行调整, 获
取到人脸图像空域特征、 人脸图像频域特征和人
脸图像PL GF特征; 将上述特征采用网络 结构进行
拼接融合, 输入双层LSTM网络结构, 提取得到最
终的融合特征, 再输入用于分类的全连接层; 最
后经过Softmax激活函数输出判断。 本发明采用
不同信息域数据预处理方式, 再进行融合特征,
在保证库内较好检测效果的同时, 还显著降低了
跨库检测的平均错误率, 该方法提升了检测器的
泛化能力, 具有较强的鲁棒 性。
权利要求书3页 说明书8页 附图3页
CN 115273186 A
2022.11.01
CN 115273186 A
1.一种基于 图像特征融合的深度伪造人脸视频检测方法, 其特征在于, 该方法包括下
述步骤:
使用FFmpeg工具对视频进行分帧, 按一定频率采样提取各帧人脸区域获得待测人脸图
像;
对待测人脸图像的空域数据、 频域数据和PLGF图分别进行预处理操作, 且以一个统一
相同的尺寸要求结果为 目的分别进行调整, 获取到人脸图像空域特征、 人脸图像频域特征
和人脸图像PLGF 特征;
将上述3个支路的特征采用网络结构进行拼接融合, 输入双层LSTM网络结构, 提取得到
最终的融合特征, 再输入用于分类的全连接层; 最后经过Softmax激活函数输出, 判断视频
是否为深度伪造 视频。
2.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法, 其特征在
于, 所述获得待测人脸图像, 具体步骤 包括:
使用FFmpeg工具对训练集和测试集的视频进行分帧, 得到视频帧系列图像, 然后利用
Python中DLib机器学习 库的人脸提取模 型提取待测视频的人脸区域 获得人脸图像, 该人脸
图像以I表 示, 为具有R、 G、 B三个颜色通道, 且尺寸不定的图像, 或利用RetinaFace人脸检测
网络进行 人脸区域 提取。
3.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法, 其特征在
于, 所述对待测人脸图像的空域数据进 行预处理操作, 输入空域特征提取网络, 获取得到人
脸图像空域特 征, 具体步骤 包括:
在提取空域特征 时, 需要对I进行双线性插值, 将其尺寸调整为224 ×224×3, 并进行归
一化, 将得到的空域图像记为IS作为提取空域特征的分支网络的输入, 然后输入Xception
网络进行 特征提取, 或采用ResNet ‑50网络结构, 获取 得到2048维人脸图像空域特 征。
4.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法, 其特征在
于, 所述对待测人脸图像的频域数据进 行预处理操作, 输入频域特征提取网络, 获取得到人
脸图像频域特 征, 具体步骤 包括:
在提取频域特征时, 首先需要对I中各通道进行DFT变换, 并将低频分量移到中心, 得到
各颜色通道的频谱图, 假设R通道(x,y)位置的幅值为AR(x,y), 则频域图像对应位置的数值
如下式所示:
其中x∈[0,W ‑1],y∈[0,H ‑1]为位置坐标, W为人脸图像I的宽, H为人脸图像I的高, AR
(x,y)∈[0,255], 其他位置的数值以此类推, 其后对各通道的频域图像均利用双线性插值
方法将尺寸调整为224 ×224, 最终得到尺寸为224 ×224×3的频域图像IF作为提取频域特
征的分支网络的输入, 然后输入 Xception网络或采用ResNet ‑50网络结构进行特征提取, 获
取得到2048维人脸图像频域特 征。
5.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法, 其特征在
于, 所述对待测人脸图像的PLGF图进行预 处理操作, 输入PLGF图特征提取网络, 获取得到人
脸图像PLGF 特征, 具体步骤 包括:
在提取PLGF图特征时, 首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算权 利 要 求 书 1/3 页
2
CN 115273186 A
2子进行卷积得到水平梯度Ghor和垂直梯度Gver, PLGF卷积具体表达如下式所示:
其中, fhor和fver分别为局部重力模式(PLGF)的水平方向和垂直方向的3 ×3卷积核, x∈
[0,W‑1],y∈[0,H ‑1]为位置坐标, W为人脸图像I的宽, H为人脸图像I的高, I[x, y]为坐标
(x, y)的像素值, I[x, y]∈[0,25 5],Gd[x, y]为坐标(x, y)的方向梯度;
然后根据朗伯模型, 对水平方向和 垂直方向的梯度进行光照分离得到水平光照分离梯
度ISGhor和垂直光照分离梯度ISGver, 光照分离进行的操作是将梯度除以加上防止除零的极
小值的自身像素值, 由于在很小的区域内光照强度变化缓慢为恒值L, 则消除光照分量L得
到仅与反射系 数相关的人脸材质性特征, 具有丰富的纹理信息, 作为检测人脸真伪的有效
特征, 光照分离具体表达如下列式子所示:
其中x∈[0,W ‑1],y∈[0,H ‑1]为位置坐标, W 为人脸图像I的宽, H为人脸图像I的高;
接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG, 组
成PLGF图, 如下式所示:
最后对各通道的PLGF 图进行双线性插值, 将其尺寸调整为224 ×224, 得到最终的PLGF
输入图像IP, 然后输入Xception网络进行提取, 或采用ResNet ‑50网络结构, 获取得到2048
维人脸图像PLGF 特征。
6.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法, 其特征在
于, 其输入双 层LSTM网络结构, 提取 得到最终的融合特 征, 包括如下:
在通过特征提取网络从空域、 频域及PLGF提取3个2048维特征后, 将提取的特征进行拼
接融合, 得到6144维的特征, 接着将10帧人脸图像的6144维融合特征输入双层LSTM网络结
构, 提取得到最终的512维融合特 征;
其第一层LSTM 的输出含有10个时间步, 输出的特征再送入第二层LSTM, 第二层LSTM输
入为512维特 征, 输出为只含1个时间步的512维特 征。
7.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法, 其特征在
于, 其输入用于分类的全连接层, 以最后512维特征通过一个全连接层, 输出2维的向量, 再
经过Softmax激活函数输出视频 所含人脸 为真实人脸或伪造人脸的二分类结果。
8.一种用于如权利要求1~7任一所述的图像特征融合的深度伪造人脸视频检测方法
的系统, 其特征在于, 由图像特征融合的深度伪造人脸视频检测方法顺序形成的系统, 包
括: 所述系统包括数据集划分模块、 人脸图像区域提取模块、 不同信息域的数据预处理模权 利 要 求 书 2/3 页
3
CN 115273186 A
3
专利 基于图像特征融合的深度伪造人脸视频检测方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:29:42上传分享