作者:邱海波
编辑:王晔
本文是对ICCV 2021会议上发表的论文“SynFace: Face Recognition with Synthetic Data”(基于生成数据的人脸识别)的解读。这篇论文由京东探索研究院、悉尼大学和腾讯数据平台部合作完成。该论文旨在解决当前人脸识别模型训练中真实人脸数据存在隐私问题、标签噪声和长尾分布等问题。提出了使用生成仿真的人脸数据代替真实数据进行模型训练。
文章通过引入Identity Mixup以及Domain Mixup极大地缩小了生成数据训练得到的模型与真实数据得到模型的准确率差距,并且系统性分析了训练数据中各种特性的影响。
研究背景近年来,人脸识别任务取得巨大进展,其中大规模人脸训练数据库扮演重要角色。但由于隐私问题,一些大型数据库已经下架无法访问。此外,这类从互联网收集而来的数据库还存在标签噪声和长尾分布的问题,使得网络结构设计和损失函数设计变得困难,从而降低了识别准确率。此外,这些没有特定面部特征标注(如表情、姿态光照条件)的图片使我们无法系统性分析这些因素在人脸识别中的具体影响。
探索分析为了解决这些问题,我们准备引入生成数据代替真实数据进行人脸认人的模型训练。近年来,基于GAN[2]的生成模型发展迅速,其能在某些场景下以假乱真的效果产生面孔图片,如图1所示。
图1: 第一行为真实面孔,第二行则为生造面孔
为了进一步控制生造面的各种特性(身份、表情、姿态和光照条件),我们采用DiscoFaceGAN[3]作为基本的生成模型,与真实面孔相比较。RealFace代表利用真实面孔做成的模块,而SynFace代表利用生造面的模块,然后两者分别评估于测试集上结果见表1。
表1: 对于使用真是或生造面的不同领域评估结果
实验结果显示两者之间精度差距主要来自于两个领域差异。观察同一类(即同一个人)中的样本,我们发现其内距离较小。在MDS可视化深度特征后,如绿色五边形及青色三角形可以看出,生的内距离明显小于真是。
方法介绍 Identity Mixup (身份混合)
为了增加生的内距离,以Mixup[5]为灵感,在生造个体系数空间引入mixup,即Identity Mixup (IM),得到Mixup Face Generator。在两个系数间取线性插值作为新的系数及其对应标签随之改变,如公式1所示。此外通过可视化发现这样的新系数也能产生高质量的人像图片,同时身份信息随权重变化逐渐从一个身份到另一个身份,如图3所示。
公式1: 身份系数空间mixup
图3: 身份随着Identity Mixup权重变化平滑过渡
验证IM是否能增大生的内距离,我们可视化三种不同程度IM后的生物样本(参见图2) 从青色三角形至蓝色正方形再至红色圆圈,它们内距离逐渐加宽,对应准确率也是逐步提高。而加入IM后准确率从88.98提升至91.97,此外其他实验结果同样证明了IM有效性。
Domain Mixup (领域混合)
为了进一步缩小用生的模式与真正模式之间精度差距,我们引入Domain Mixup(DM)作为一种通用的domain adaptation方法来缓解DM具体数学形式参见公式2, 分別表示有標籤實際與大量無標籤合成樣本,其對應標籤隨之線性變化。
公式2: 領域空間mixpu
于是我們通過DM將實際與合成樣本進行混合訓練,並與僅僅使用實際資料訓練結果作比較見表2 可觀察到DM極大且穩定的提升各種設定下的準確率,
如最後一組試驗中95.78比91.22的大幅提升推測是由於混淆少量實際資料給予合成資料帶來世界級外觀信息如模糊及光照等進一步縮減兩個領域之間差異從而提高準確率。如果繼續增加實際數據到20K_20,那麼準確率就會從95.78進一步提升至97.65整體流程圖包括Identity MixUp以及Domain mixUp參見圖4.
圖4:整個框架流程圖4実验分析利用我們獲得的一致識別器,我們可以控制生物樣品數量,個體ID, 表情, 姿態及光照,因此接著我們來系統地探討這些因素在個人識別任務中的具體影響。
首先我們來探討長尾分布問題,由於現有的生物數據主要都是從網絡上收集而來,因此某些類別擁有大量樣本,而一些則只有幾十個,這種不平衡分佈導致訓練出的模式性能較差。我們通過調節每一個類別內含有的生物樣品數量模擬這種問題並檢查它們對應準確性的改變如圖5 所顯示,這裡展示的是UB_50/UB_100/UB_200,它們分別為25/50/100張照片,每次都比前一次多10張,但隨著物件數量增加,可以看到它們對應到的準確度也越來越高。此外透過引入Identity mixUp(IM),所有設置都得到了巨大的提高。
圖5:長尾分布問題然后我還要探究產生式庫存寬度(即類別数量) 和深度(即內部樣品数量) 對於識別精度影響見表3 可以看到隨著寬度和深度增加,精度也會逐漸升高但當達到20後就開始出現饱和跡象另外通過觀察(a)(e) 我們可以發現它們具有相同總數(50K),但是(a)嚴重超過(e),距離為4.37 顯示廣闊承擔起更重要角色此外透過加入Identity mixUp(IM), 我們可以發現所有設置都得到了很大的提高,再次證明了IM 的有效性最后我還要考慮每一項生物特色(即表情, 姿態 & 光照 ) 的影響,我們保持其他特色不變,只改變當前探索的一項特色,比如Expression 就是在保持其他姿態& 光照 不变的情况下仅仅改变表情并形成带有这种表情的生产样品它们被用于建立一个新的判斷機制,该机制将被用于判断这个样品是否属于这个类群这项工作对于未来可能会是一个非常关键的一个部分因为现在我们的判斷機制依赖完全人类监督来完成分类任务所以如果我们能够找到一种方法使机器自己能够学习如何区分不同的类群那么将会是一个非常伟大的突破