专利基于图像特征融合的深度伪造人脸视频检测方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210843607.0 (22)申请日 2022.07.18 (71)申请人中国人民警察大学地址 102300 北京市门头沟区潭柘寺镇朱砂岭街9号院 (72)发明人赖志茂　 (74)专利代理机构广州市智远创达专利代理有限公司 4 4619 专利代理师卓幼红 (51)Int.Cl. G06V 40/16(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/10(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称基于图像特征融合的深度伪造人脸视频检测方法及系统 (57)摘要本发明公开了一种基于图像特征融合的深度伪造人脸视频检测方法,该方法包括下述步骤：先对视频分帧；提取待测视频的人脸区域获得人脸图像；对待测人脸图像的空域数据、频域数据及PL GF图分别进行预处理操作，且以一个统一相同的尺寸要求结果为目的分别进行调整，获取到人脸图像空域特征、人脸图像频域特征和人脸图像PL GF特征；将上述特征采用网络结构进行拼接融合，输入双层LSTM网络结构，提取得到最终的融合特征，再输入用于分类的全连接层；最后经过Softmax激活函数输出判断。本发明采用不同信息域数据预处理方式，再进行融合特征，在保证库内较好检测效果的同时，还显著降低了跨库检测的平均错误率，该方法提升了检测器的泛化能力，具有较强的鲁棒性。权利要求书3页说明书8页附图3页 CN 115273186 A 2022.11.01 CN 115273186 A 1.一种基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，该方法包括下述步骤：使用FFmpeg工具对视频进行分帧，按一定频率采样提取各帧人脸区域获得待测人脸图像；对待测人脸图像的空域数据、频域数据和PLGF图分别进行预处理操作，且以一个统一相同的尺寸要求结果为目的分别进行调整，获取到人脸图像空域特征、人脸图像频域特征和人脸图像PLGF 特征；将上述3个支路的特征采用网络结构进行拼接融合，输入双层LSTM网络结构，提取得到最终的融合特征，再输入用于分类的全连接层；最后经过Softmax激活函数输出，判断视频是否为深度伪造视频。 2.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述获得待测人脸图像，具体步骤包括：使用FFmpeg工具对训练集和测试集的视频进行分帧，得到视频帧系列图像，然后利用 Python中DLib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像，该人脸图像以I表示，为具有R、 G、 B三个颜色通道，且尺寸不定的图像，或利用RetinaFace人脸检测网络进行人脸区域提取。 3.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述对待测人脸图像的空域数据进行预处理操作，输入空域特征提取网络，获取得到人脸图像空域特征，具体步骤包括：在提取空域特征时，需要对I进行双线性插值，将其尺寸调整为224 ×224×3，并进行归一化，将得到的空域图像记为IS作为提取空域特征的分支网络的输入，然后输入Xception 网络进行特征提取，或采用ResNet ‑50网络结构，获取得到2048维人脸图像空域特征。 4.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述对待测人脸图像的频域数据进行预处理操作，输入频域特征提取网络，获取得到人脸图像频域特征，具体步骤包括：在提取频域特征时，首先需要对I中各通道进行DFT变换，并将低频分量移到中心，得到各颜色通道的频谱图，假设R通道(x,y)位置的幅值为AR(x,y)，则频域图像对应位置的数值如下式所示：其中x∈[0,W ‑1],y∈[0,H ‑1]为位置坐标， W为人脸图像I的宽， H为人脸图像I的高， AR (x,y)∈[0,255]，其他位置的数值以此类推，其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224 ×224，最终得到尺寸为224 ×224×3的频域图像IF作为提取频域特征的分支网络的输入，然后输入 Xception网络或采用ResNet ‑50网络结构进行特征提取，获取得到2048维人脸图像频域特征。 5.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，所述对待测人脸图像的PLGF图进行预处理操作，输入PLGF图特征提取网络，获取得到人脸图像PLGF 特征，具体步骤包括：在提取PLGF图特征时，首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算权　利　要　求　书 1/3 页 2 CN 115273186 A 2子进行卷积得到水平梯度Ghor和垂直梯度Gver， PLGF卷积具体表达如下式所示：其中， fhor和fver分别为局部重力模式(PLGF)的水平方向和垂直方向的3 ×3卷积核， x∈ [0,W‑1],y∈[0,H ‑1]为位置坐标， W为人脸图像I的宽， H为人脸图像I的高， I[x， y]为坐标 (x， y)的像素值， I[x， y]∈[0,25 5],Gd[x， y]为坐标(x， y)的方向梯度；然后根据朗伯模型，对水平方向和垂直方向的梯度进行光照分离得到水平光照分离梯度ISGhor和垂直光照分离梯度ISGver，光照分离进行的操作是将梯度除以加上防止除零的极小值的自身像素值，由于在很小的区域内光照强度变化缓慢为恒值L，则消除光照分量L得到仅与反射系数相关的人脸材质性特征，具有丰富的纹理信息，作为检测人脸真伪的有效特征，光照分离具体表达如下列式子所示：其中x∈[0,W ‑1],y∈[0,H ‑1]为位置坐标， W 为人脸图像I的宽， H为人脸图像I的高；接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG，组成PLGF图，如下式所示：最后对各通道的PLGF 图进行双线性插值，将其尺寸调整为224 ×224，得到最终的PLGF 输入图像IP，然后输入Xception网络进行提取，或采用ResNet ‑50网络结构，获取得到2048 维人脸图像PLGF 特征。 6.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，其输入双层LSTM网络结构，提取得到最终的融合特征，包括如下: 在通过特征提取网络从空域、频域及PLGF提取3个2048维特征后，将提取的特征进行拼接融合，得到6144维的特征，接着将10帧人脸图像的6144维融合特征输入双层LSTM网络结构，提取得到最终的512维融合特征；其第一层LSTM 的输出含有10个时间步，输出的特征再送入第二层LSTM，第二层LSTM输入为512维特征，输出为只含1个时间步的512维特征。 7.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法，其特征在于，其输入用于分类的全连接层，以最后512维特征通过一个全连接层，输出2维的向量，再经过Softmax激活函数输出视频所含人脸为真实人脸或伪造人脸的二分类结果。 8.一种用于如权利要求1～7任一所述的图像特征融合的深度伪造人脸视频检测方法的系统，其特征在于，由图像特征融合的深度伪造人脸视频检测方法顺序形成的系统，包括：所述系统包括数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模权　利　要　求　书 2/3 页 3 CN 115273186 A 3

专利 基于图像特征融合的深度伪造人脸视频检测方法及系统

专利基于图像特征融合的深度伪造人脸视频检测方法及系统