引用
张芃芃, 宋宗泽, 彭勃, 等. 面向人脸深度伪造检测模型的校准性评测[J]. 网络空间安全科学学报, 2023, 1(3): 97-106.
ZHANG Pengpeng, SONG Zongze, PENG Bo, et al. Calibration Evaluation of Models Oriented to Deepfake Detection[J]. Journal of Cybersecurity, 2023, 1(3): 97-106.
背 景
随着人脸深度伪造技术的发展,其在娱乐、文化交流产业的积极作用与潜在的网络攻击威胁并存。目前,社交网络中的深度伪造内容主要以“换脸”为主,且生成的伪造人脸图像已逐渐达到真假难辨的程度。尽管现有深度学习模型在深度伪造检测任务中的预测准确度已达到较高水平,但预测置信度的可靠性——即模型的校准性,仍有待检验和提高。本文以弱监督数据增强网络(WS-DAN)[1]为例,探讨了该模型在不同测试数据情况下的校准性,并对比分析了蒙特卡洛Dropout[2]和Deep Ensembles[3]两种校准性提升方法的效果。
图1 模型检测流程图
创新点
本文核心创新在于探索了蒙特卡洛Dropout和Deep Ensembles这两种经典的校准性提升方法在人脸深度伪造检测任务中的应用情况。针对目前已有检测方法未能评估模型输出置信度校准性的现状,本文进一步引入蒙特卡洛Dropout和Deep Ensembles方法对网络输出进行校准,从而使模型输出的置信度更加可靠。
实 验
考虑到WS-DAN中Attension机制的完整性,本文在蒙特卡洛Dropout方法中将Dropout层加在最后一个全连接层之前,训练和测试时均将Dropout概率置为0.5。同时为简化问题,本文使用的Deep Ensembles方法在不加入对抗样本的情况下集成多个同样结构的模型以获得检测结果的分布。
实验在DFDC[4]、Celeb-DF[5]和Faceforensic++[6] 3个数据集上进行,使用平均精度(AP)指标评测模型预测准确度,使用对数损失(Log Loss)与期望校准误差(ECE)指标评测模型预测的校准度。实验结果表明,WS-DAN结合EfficientNet-b3[7]和Xception[8]2种网络结构,在准确性与校准性上都表现出提升趋势。特别是Deep Ensembles方法,随着集成网络数量的增加,模型的校准性得到有效提升。
表1 不同方法在DFDC数据集上对比
表2 不同方法在Celeb-DF数据集上对比
表3 不同方法在FF++(HQ) Deepfakes数据集上对比
表4 不同方法在FF++(HQ) Face2Face数据集上对比
表5 不同方法在FF++(HQ) FaceSwap数据集上对比
表6 不同方法在FF++(HQ) Neural Textures数据集上对比
为进一步研究Deep Ensembles方法对模型预测效果的提升情况,实验以Xception网络提取特征的WS-DAN模型,并用Deep Ensembles方法在不同数据集上评测。计算每个测试样本的置信度,统计在给定置信度阈值之上的分类正确率及样本所占比例,实验结果如图2(a)、(b)所示。实验结果显示,利用该方法的模型在不同数据集上分类效果随置信度阈值的升高而加强,这说明在实际应用场景下,能够通过计算置信度的方式来判断能否信任模型的预测结果。
(a) (b)
图2 Deep Ensembles方法下模型在不同数据集上的正确率、样本比例与置信度关系
总 结
本文首先验证了弱监督数据增强模块对模型检测的有效性,其中的Attention Cropping和Attention Dropping模块能够使得模型关注到输入图像的细节信息,从而为检测结果的准确性和校准性带来显著提升;然后对比了蒙特卡洛Dropout和Deep Ensembles 两种方法对模型校准性的提升效果。实验证明,Deep Ensembles方法能够使模型的表现随着所集成网络的数量增加而加强,更能够减少模型对样本分类输出较高置信度而预测错误情况的发生。同时,使用该方法的模型在遇到未知分布的样本时,能够适当降低预测的置信度,谨慎地对样本进行判别,从而使得模型的校准性得到有效提升。
论文全文下载方式
1 识别下方二维码;2 点击文末“阅读原文”。
来源:《网络空间安全科学学报》第三期
《网络空间安全科学学报》由中国航天科技集团有限公司主管、 中国航天系统科学与工程研究院主办,双月刊,国内外公开发行(CN 10-1901/TP,ISSN 2097-3136)。办刊宗旨为“搭建网络空间安全领域学术研究交流平台,传播学术思想与理论,展示科学研究、创新技术与应用成果,助力网络空间安全学科建设,为网络强国建设提供坚实支撑与服务”。
电话:010-89061756/ 89061778