近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2024 NTIRE」中,抖音基础体验QA团队与AI 平台团队同学组成的“BDVQAGroup”小组,在 DXOMARK的图像质量评估赛道中,凭借自研算法「SampleIQA」取得了全球第二名的好成绩。
比赛排名
本次“BDVQAGroup”参加的CVPR 2024 NTIRE 图像质量评估赛事,共包括AIGC生成图像质量评价、人像质量评价、视频质量评价等多条赛道,对应了VQA/IQA领域目前主流的研究方向。
该赛事吸引了「数百支优秀队伍」参赛,包括华为、小红书、美团,浙江大学、清华大学、北京大学等知名企业和院校均有团队参赛。“BDVQAGroup”小组在参加的赛道中均有不俗的表现,成功击败了来自美团、华为、浙江大学、南洋理工大学等企业和高校的多支参赛队伍,相关算法也已形成专利和论文进行投递。
在DXOMARK举办的肖像质量评估Portrait Quality Assessment 赛道中,夺得亚军,多个子项指标排行第一。
在快手举办的UGC视频质量评估Short-form UGC Video Quality Assessment赛道 中,部分子指标排行第二。具体排名与比赛细节可以参考比赛报告:https://arxiv.org/pdf/2404.11313、https://arxiv.org/pdf/2404.11159
赛事介绍
New Trends in Image Restoration and Enhancement (NTIRE) 竞赛由苏黎世联邦理工学院计算机视觉实验室(Computer Vision Laboratory, ETH Zurich)主办,主要内容聚焦图像 low level 处理任务,是「最具影响力的国际竞赛之一」。
本次 “BDVQAGroup” 主要参加了「CVPR 2024 NTIRE」中的Portrait Quality Assessment 赛道和Short-form UGC Video Quality Assessment 赛道。这两条赛道分别由DXOMARK和快手承办,DXOMARK 是智能手机、镜头与相机评测的权威机构,而快手是目前国内流行的短视频和直播应用之一。
Portrait Quality Assessment 赛道主要由 DXOMARK 承办,旨在选出准确高效的人像质量评价算法。数据的标注维度有“总分”、“人脸曝光度”、“人脸细节保留度”三个,最终评价的指标为:模型在“总分”维度上的输出与标签之间的 SROCC。整个赛事主要分为两个阶段:
初赛阶段,使用人像质量数据集 PIQ23 训练模型,训练集 100+ 款手机拍摄的 5116 张人像数据集。
测试阶段,基于 PIQ23 测试集评价模型的性能。
PIQ23-数据集
Short-form UGC Video Quality Assessment 赛道由快手承办,比赛旨在评价短视频的画质。 最终的评价指标包括四个维度:预测单调性,使用 Spearman 等级相关系数(SROCC);预测准确度,使用 Person 线性相关系数(PLCC);同源视频对之间的细粒度排名准确度,即 Rank1;非同源视频对之间的挑战性排名准确度,即 Rank2,将这四个指标加权后得到最终的分数。
在本次赛事中,快手发布了一个 名为KVQ 数据集作为比赛测试集,素材均为用户上传至快手平台的视频,视频场景包括 “美食、舞台、夜景、字幕、人群、风景和肖像”,视频类型包括“三明治视频、直播、和特效视频”等。
数据集概况-1
KVQ数据集共包含 4200 个 UGC 视频,包括 600 条用户上传的视频,采用去模糊(De-Blur)、去伪像(De-Artifact)、去噪(De-Noise)等前处理增强算法,以及转码(Transcode)等方式,对视频全局或局部做处理,产生了 7 个档位的劣化视频,共 3600 条。
数据集概况-2
训练集共 2926 个视频及对应的 MOS 分数,由 15 名专业研究员标注,分数区间 1-5 分,间隔 0.5 分。验证和测试阶段,对质量分数相近的视频对增加了排名的标注方式,其中验证集包括 62 个同源视频对(即内容相同但退化程度不同的视频,效果参考上图中的 Before 和 After)和 38 个非同源视频对,测试集包括 169 个同源视频对和 231 个非同源视频对。
研究背景
自媒体时代,用户可以随时随地用手机拍摄照片和视频并上传社交平台,然而,由于非专业创作、采集环境不当或处理流程有限,UGC 图片/视频不可避免地会出现主观质量不一致甚至质量差的情况,因此人像质量评价和短视频质量评价成为手机厂商和视频平台日益关注的一个命题。
普通图像/视频质量评价算法主要关注图像的整体质量,包括清晰度、色彩还原、噪点等方面,除了用户采集设备带来的画质损失,前处理、转码、传输过程中也不可避免地会产生一些画质劣化,如块效应、振铃效应、条带效应等。而人像质量评价算法更注重人物主体的表现,如面部细节、肤色还原、表情自然度、背景复杂度、背景与人物的对比度等方面。除此之外,人像质量评价还受一些美学因素的影响,如人物的情感表达、构图等。综上所述,在模型量级、泛化性、准确性等方面,人像/短视频质量评价现阶段仍面临巨大挑战。
参赛情况
方案概述
针对DXO的的人像数据场景,抖音团队设计了一种基于数据重采样和vision transformer的图像质量评估模型,名为「SampleIQA」。
在深度学习中,训练数据的分布会影响模型的训练效果,例如,分类模型训练中,如果模型见到的某类数据过少,那么模型对于这类信息的识别能力就会偏差。类似的,在IQA任务中,训练数据大都呈现不规则分布,例如在PIQ23的人像质量评估数据集中,分数中等的数据占比较多,而分数较高和较低的数据占比较少。
业界有一些方法可以解决这种分布的问题,例如weighted-sampling,它可以对采样器赋予权重,例如少数比例的样本加大采样比重,来达到均衡sample的目标。然而,这种sample的策略考虑的维度较少,sample的方式较为粗糙。我们提出了一种基于混合整数线性规划的数据整形方法,可以对源数据进行重采样,以保证各个维度服从预设的目标分布(如高斯分布、均匀分布)。
BDVQAGroup在比赛中使用了一种基于Swin transfoformer 和rank loss的无参考打分方法。该算法是一种深度学习算法,训练时在具有MOS的数据集上进行学习。抖音团队使用了孪生网络,一次输入两张图片来进行对比学习,使得模型可以针对图片的好坏程度进行排序。
损失函数层面,使用了mse和rank两个函数来进行模型优化。
在训练阶段,BDVQAGroup使用了一种基于内容感知的随机裁剪方法,可以随机将原始图像裁剪为一个 448x448 的patch并保留全脸信息。该程序使用人脸识别模型来检测人脸位置。我们使用随机裁剪,来将图片随机裁剪成448x448的pathch,但如果随机裁剪区域未完全包含面部区域,随机裁剪步骤将重试。这种数据增强方法既保留了人像的完整性,又增加了背景内容的数据patch丰富度。
实验结果
在PIQ的数据集中,BDVQA Group提出的SampleIQA超越现有IQA SOTA方法。
SROCC指标
抖音团队在PLCC指标取得第一,SRCC和KRCC指标取得第二。TOP5的得分如下表所示。
整体排名
名词解释:
SROCC(Spearman rank-order correlation coefficient),常用来衡量IQA算法的单调性
PLCC(Pearson product-moment correlation coefficient),常用来衡量IQA算法的准确性
总结
在CVPR 2024中,抖音评测实验室团队在图片质量相关赛道取得了优秀成绩,展现了卓越的技术实力。这一成绩证明了抖音在体验质量方面的重视和投入。未来,我们也将继续努力,创造更多应用价值,为用户带来更优质的体验。
附录
[1]比赛官网:https://codalab.lisn.upsaclay.fr/competitions/17311
[2]比赛成绩:https://arxiv.org/pdf/2404.11313、https://arxiv.org/pdf/2404.11159