php做網(wǎng)站中下一步按鈕中國職業(yè)培訓(xùn)在線平臺
介紹
論文地址:https://arxiv.org/pdf/2011.12032.pdf
近年來,人臉識別技術(shù)越來越普及。在智能手機(jī)解鎖和進(jìn)出機(jī)場時,理所當(dāng)然地會用到它。人臉識別也有望被用于管理今年奧運(yùn)會的相關(guān)人員。但與此同時,人們對人臉欺騙的關(guān)注度也越來越高,而人臉反欺騙(FAS)這一防止人臉欺騙的技術(shù)領(lǐng)域也備受關(guān)注。
惡搞技術(shù)每年都在發(fā)展。隨著新類型的欺騙變得越來越現(xiàn)實,需要有一種穩(wěn)健的算法,能夠在沒有經(jīng)過現(xiàn)有模型訓(xùn)練的場景下檢測欺騙。傳統(tǒng)的基于二進(jìn)制分類的模型(如"0"代表真實,"1"代表欺騙)比較容易建立,性能也比較高,但有一個弱點,就是難以學(xué)習(xí)到內(nèi)在的、有辨識度的欺騙模式。
因此,最近在FAS任務(wù)中提出了Pixel-Wise Supervision,其目的是學(xué)習(xí)更細(xì)粒度的像素/斑點級特征,對識別更有用。
在本文中,在綜合回顧了以往的方法后,如上表所示,他們提出了一個新的框架,稱為Pyramid Supervision,它可以從多尺度的空間環(huán)境中學(xué)習(xí)局部細(xì)節(jié)和全局語義信息。在本文中,他們將介紹該框架及其性能。
在5個FAS基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量的實驗,發(fā)現(xiàn)Pyramid Supervision不僅提高了現(xiàn)有的Pixel-Wise Supervision的性能,而且還能在補(bǔ)丁層面識別欺騙的痕跡,提高了模型的可解釋性??山忉屝?#xff1b;
新框架"金字塔監(jiān)督
金字塔 在現(xiàn)有的方法中很容易引入監(jiān)督,以提高其績效。在本文中,我們展示了一個在兩種典型方法中引入金字塔監(jiān)督的例子。二進(jìn)制掩模監(jiān)督和深度圖監(jiān)督。
首先,金字塔二元掩碼監(jiān)督的圖,將金字塔監(jiān)督應(yīng)用于二元掩碼監(jiān)督,如下圖所示。
從RGB輸入圖像(3×256×256)中提取多尺度特征(_F__8,_F__4,F__2,F1),提取各特征后采用平均池化法。此外,每個特征(_F__8,_F__4,F__2,F1),用1x1 Conv進(jìn)行特征到掩模的映射,得到多尺度二元掩模(Θ8、Θ4、Θ2、Θ1)。多尺度二元掩模預(yù)測可以表述為: 1.可制定如下:
每一個生成的多尺度二元掩碼都要進(jìn)行變換和并聯(lián),最后應(yīng)用二元分類。對于每個像素的地面真值_(Y_),可以直接使用已經(jīng)注釋的二進(jìn)制掩碼標(biāo)簽,也可以使用生成的粗二進(jìn)制掩碼。轉(zhuǎn)換為與輸入圖像相同的多尺度掩模標(biāo)簽(Y8、Y4、Y2、Y1)。
預(yù)測的多尺度二進(jìn)制掩碼和地面真相大小相同,通過累積每個尺度每個位置的二進(jìn)制交叉熵(BCE)來計算損失函數(shù)(Lpyramid)。
在訓(xùn)練過程中,網(wǎng)絡(luò)的整體損失函數(shù)(Loverall)可以表述如下_Lbinary_將是最后一次二進(jìn)制分類的BCE。在測試過程中,只使用最終的二進(jìn)制分?jǐn)?shù)。
接下來,金字塔深度圖監(jiān)督應(yīng)用于深度圖監(jiān)督,如下圖所示。
如圖所示,CDCN從輸入圖像(3×256×256)中提取多級特征,并預(yù)測灰度深度圖(32×32)。與金字塔二元掩模監(jiān)督類似,預(yù)測的深度圖D32(32×32)和生成的Pseduo深度都被下采樣并調(diào)整為相同的比例(32×32、16×16等)。
金字塔深度損失(LdepthPyramid)可制定如下。
這里,Di代表預(yù)測深度圖的比例尺_(dá)i_。另外,LMSE和LCDL分別代表均方誤差(MSE)和對比度深度損失(CDL)。對比深度損失(CDL)是CVPR2020中提出的損失函數(shù),其公式如下。
這是一種新引入的損失,因為常用的使用歐氏距離的Contrasive Loss沒有考慮相鄰像素信息,細(xì)節(jié)信息丟失,影響泛化性能。
(出典:深度空間梯度和時間深度學(xué)習(xí)的人臉防欺騙技術(shù))
在訓(xùn)練過程中,只使用LdepthPyramid,在測試過程中,計算所有尺度預(yù)測的深度圖的平均值作為最終得分。
實驗
如上所述,在基于Pixel-Wise Supervision的FAS中,主流的Backbone可以分為兩類。
1)基于二進(jìn)制掩碼監(jiān)督的網(wǎng)絡(luò)(如ResNet和DenseNet)。
2)基于偽深度監(jiān)督的網(wǎng)絡(luò)(如DepthNet)。
在此,分別以具有代表性的ResNet50和CDCN作為基線,并與金字塔監(jiān)督的模型進(jìn)行比較。
數(shù)據(jù)集內(nèi)類型測試 (OULU-NPU)
數(shù)據(jù)庫內(nèi)測試是對特定數(shù)據(jù)集的性能評估。使用一個代表性的數(shù)據(jù)集OULU-NPU來評估性能。為了公平的比較,使用原始協(xié)議和指標(biāo),指標(biāo)是攻擊展示分類錯誤率(APCER)、展示分類錯誤率(BPCER)和ACER的平均值計算出來的。使用ACER,其計算方法是APCER是指被誤判為真實的欺騙行為的百分比,PCER是指被誤判為欺騙行為的百分比。PCER是指被欺騙和誤判的真品比例。下表顯示了使用OULU-NPU進(jìn)行Intra-Dataset測試的結(jié)果,其中Prot.代表OULU-NPU提供的四種協(xié)議。
從ACER來看,重點是提出的金字塔監(jiān)督(PS),可以看到它在四個協(xié)議中持續(xù)降低和提高性能。換句話說,它在光照、攻擊介質(zhì)和輸入攝像機(jī)等外部環(huán)境方面的泛化性能有所提高。
從模型來看,CDCN-PS在四個協(xié)議中實現(xiàn)了比SOTA的模型更好或性能相當(dāng)。ResNet50-PS顯示出非常好的效果,在協(xié)議4中表現(xiàn)得比CDCN-PS更好,雖然前三個協(xié)議的性能沒有那么高,但在協(xié)議4中最難達(dá)到高性能。這表明,即使在訓(xùn)練數(shù)據(jù)有限的情況下,金字塔監(jiān)督也是非常有效的。
數(shù)據(jù)集內(nèi)交叉類型測試(SiW-M)
通過SiW-M的跨類型測試驗證未知攻擊的泛化性能。如下表所示,與傳統(tǒng)的Pixel-Wise Supervision相比,ResNet50-PS和CDCN-PS實現(xiàn)了整體更好的EER,分別提高了17%和12%。
跨數(shù)據(jù)集內(nèi)類型測試
他們使用四個數(shù)據(jù)集,OULU-NPU(O),CASIA-MFSD(C),Idiap Replay-Attack(I)和MSU-MFSD(M)。其中,隨機(jī)選取3個數(shù)據(jù)集進(jìn)行訓(xùn)練,剩余1個數(shù)據(jù)集用于測試。下表顯示了結(jié)果。
可以看出,金字塔監(jiān)督的實施顯著提高了ResNet50-PS的性能(HTER),尤其是"O&C & I to M"和"I&C & M to O"的性能(HTER)提高了-4.48%和-5.03%。
同樣,CDCN-PS在"O & C & I to M"、“O & M & I to C”、"I & C & M to O"的表現(xiàn)(HTER)分別提高了-2.48%、-4.21%、-1.16%。我們表明,金字塔監(jiān)督也有助于在多源域上提供豐富的多尺度指導(dǎo)。
可視化
下圖是SiW-M在Cross-Type測試中預(yù)測的真假二元圖。
從"Live"、"Replay"和"Transp.Mask"的預(yù)測結(jié)果來看,ResNet50 8x8和ResNet50-PS的表現(xiàn)都不錯,表現(xiàn)出較高的識別可信度。另一方面,對于未知攻擊方法的預(yù)測,如部分打印和半掩模,顯示出信心的下降。
從ResNet50 8x8的結(jié)果中,可以看到,在第3行第2列中,除了眼睛區(qū)域的Print區(qū)域外,其他面部區(qū)域的預(yù)測置信度都很低。另一方面,金字塔監(jiān)督的使用顯著提高了欺騙定位方面的可解釋性。預(yù)測的8x8和4x4地圖分別揭示了面部皮膚區(qū)域和冒充媒介的高(真)和低(假)分?jǐn)?shù)位置。
隨著欺騙攻擊的發(fā)展,網(wǎng)絡(luò)的可解釋性將在欺騙的定位和理解上變得越來越重要。
總結(jié)
在本文中,他們提出了一種新的金字塔監(jiān)督,為精細(xì)化學(xué)習(xí)提供了更豐富的多尺度空間背景。
它可以很容易地引入傳統(tǒng)方法。實驗結(jié)果也表明其在泛化和解釋性能上都有很高的有效性。要實現(xiàn)安全可靠的人臉識別系統(tǒng),高泛化性能和高可解釋性是不可缺少的。
未來,我們期望通過將其納入更先進(jìn)的架構(gòu)和基于像素的標(biāo)簽,進(jìn)一步提高系統(tǒng)的性能。