行业资讯

ICCV 2021 人物面对面的QQ最新资讯基于生成数据的人脸识别技术革新

作者:邱海波

编辑:王晔

本文是对发表于计算机视觉领域会议ICCV 2021的论文“SynFace: Face Recognition with Synthetic Data”(基于生成数据的人脸识别)的解读。这篇论文由京东探索研究院、悉尼大学以及腾讯数据平台部共同完成,旨在解决当前人脸识别模型训练中真实人脸数据存在隐私权限、标签噪声和长尾分布等问题。该论文提出利用生成仿真的人脸数据代替真实数据进行训练,并通过引入Identity Mixup和Domain Mixup极大地缩小了生成数据训练得到的模型与真实数据得到模型的准确率差距。

研究背景近年来,人脸识别任务取得了巨大进展,其中大规模人脸训练数据集扮演了非常重要的角色。但是,由于隐私问题,大部分大规模的公开数据库已经被下架。此外,这些从互联网上收集而来的数据集还存在标签噪声以及长尾分布的问题。

探索分析为了解决这些问题,我们准备引入生成数据代替真实数据来进行人脸识别模型的训练。近些年来,基于GAN(通用自适应算法)开发出的生成模型发展十分迅猛,其生成得出的人工图片在某些场景下已经可以做到以假乱真的效果。

方法介绍Identity Mixup(身份混合)

为了增大生成-data-中的类内距离,我们受到Mixup的一般启发,在生-face-Generator中引入mixup,即Identity Mixup (IM),得到Mixup Face Generator。在两个身份系数a和b之间引入一个新的身份系数c,该系数为a和b之间的一个内插值,对应的标签也随之线性改变。通过可视化发现,此类新身份系数同样能够生产高质量的人像图片,而且其身份信息随着权重系数变化逐渐从一个身份转变到另一个身份。

Domain Mixup(领域混合)

为了进一步缩小用生成-data-train 得到的模型与真实-data-train 得到的模型之间准确率差距,我们引入Domain Mixup(DM)作为一种通用的domain adaptation方法来缓解具体来说,只利用一小部分带有标注的真实-data 加上大量的大规模-generate-data 通过DM方式进行model train, DM数学形式参见公式2. 然后我们利用DM来混合real 和generate data 进行model train 与只用real data 进行train model 的对比结果如表2 可以观察得到,我们引入DM能够极大的且稳定的提升各种不同设置下的准确率,比如最后一组实验中95.78相较于91.22的大幅度提升非常明显推测这是由于混合同样数量的小部分real data 能够给generate data 带来实际世界外观信息比如模糊光照等,从而缩小两个领域差异提高准确率。如果继续增加real data 到2K_20,那么准确率可以进一步提升至97.65。整体流程图包括Identity Mixup以及Domain Mixup可参见图4.

实验分析利用我们获得Mix-up-Face-Generator,可以控制生-face 的数量、identity、expression、pose以及lighting故而接下来我们将系统性地分析这些因素在person recognition任务中的具体影响。

首先我们将会分析long-tail distribution的问题,由于true person face 数据基本都是从internet上收集而来的导致某些class拥有大量样本,而某些class则只有少量几张样本,这样的不平衡分布会使得trained model性能较差。我们控制generate 数据每个class样本数量模拟这一问题,如图5, 2K_UB1到2K_UB2再到2K_50,它们分布越平衡越多次看出它们对应精度也是逐步提高。此外通过引入 Identity-Mix-up(IM)所有设置都得到了很大的提升。

然后我们再探讨generate 数据宽度(即class 数量)深度(即class 内sample 数量)对recognition 精度影响,参见表3 可以看到随着深度宽度增加精度都是逐步提高,但深度达到20之后精度开始出现饱和。此外通过观察(a)(e)可以看到它们具有相同总sample 数量但(a)远远超过(e),说明width相对于depth承担更重要角色。

最后我将分析生-face 各个特性的影响,我通过保持其他特性不变只改变当前探索特性比如Expression就是该classe保持其他pose and lighting 不变只变化expression 得到的generate 数据它所train 模型精确率参见图6 可以看到什么都不变Non 和仅表情取得最低结果这可能是因为这里表情种类过少基本上只有微笑因此相当于什么都不变 变换pose and lighting 取得巨大提升可能是因为test dataset 中poses and lightings 变化非常多此外同样地 引入 IM 带来了稳定

你可能也会喜欢...