国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站策劃做營銷推廣廣告營銷

網(wǎng)站策劃做營銷推廣,廣告營銷,各大網(wǎng)站搜索引擎,好孩子官方網(wǎng)站王建設(shè)摘要 https://arxiv.org/pdf/2205.01529 知識蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過模仿教師的輸出來提高學(xué)生的性能。本文表明,教師還可以通過指導(dǎo)學(xué)生的特征恢復(fù)來提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā),我們提出了掩碼生成蒸餾&#xff08…

摘要

https://arxiv.org/pdf/2205.01529
知識蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過模仿教師的輸出來提高學(xué)生的性能。本文表明,教師還可以通過指導(dǎo)學(xué)生的特征恢復(fù)來提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā),我們提出了掩碼生成蒸餾(Masked Generative Distillation,MGD),該方法很簡單:我們隨機(jī)掩碼學(xué)生的特征像素,并通過一個(gè)簡單的塊強(qiáng)迫其生成教師的完整特征。MGD是一種真正通用的基于特征的蒸餾方法,可用于各種任務(wù),包括圖像分類、目標(biāo)檢測、語義分割和實(shí)例分割。我們在不同模型和廣泛的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明所有學(xué)生都取得了顯著的改進(jìn)。特別地,我們將ResNet-18在ImageNet上的top-1準(zhǔn)確率從69.90%提高到71.69%,將基于ResNet-50骨干的RetinaNet的Boundingbox mAP從37.4提高到41.0,將基于ResNet-50的SOLO的Mask mAP從33.1提高到36.2,以及將基于ResNet-18的DeepLabV3的mIoU從73.20提高到76.02。我們的代碼已公開在https://github.com/yzd-v/MGD。

關(guān)鍵詞:知識蒸餾,圖像分類,目標(biāo)檢測,語義分割,實(shí)例分割

1、引言

深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已被廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)。通常,較大的模型具有更好的性能但推理速度較慢,這使得在資源有限的情況下難以部署。為了克服這一問題,提出了知識蒸餾技術(shù)[18]。根據(jù)蒸餾發(fā)生的位置,它可以分為兩類。第一類是專門為不同任務(wù)設(shè)計(jì)的,例如,基于logits的蒸餾[18,40]用于分類任務(wù)和基于頭部的蒸餾[10,39]用于檢測任務(wù)。第二類是基于特征的蒸餾[28,17,4]。由于各種網(wǎng)絡(luò)之間僅在特征之后的頭部或投影器上存在差異,理論上,基于特征的蒸餾方法可以在各種任務(wù)中使用。然而,為特定任務(wù)設(shè)計(jì)的蒸餾方法通常在其他任務(wù)中不可用。例如,OFD[17]和KR[4]對檢測器的改進(jìn)有限。FKD[37]和FGD[35]是專門為檢測器設(shè)計(jì)的,由于缺少頸部結(jié)構(gòu),無法在其他任務(wù)中使用。

先前的基于特征的蒸餾方法通常讓學(xué)生盡可能地模仿教師的輸出,因?yàn)榻處煹奶卣骶哂懈鼜?qiáng)的表示能力。然而,我們認(rèn)為,為了提高學(xué)生的特征表示能力,并不需要直接模仿教師。用于蒸餾的特征通常是通過深度網(wǎng)絡(luò)提取的高階語義信息。特征像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此,如果我們能夠通過一個(gè)簡單的模塊使用部分像素來恢復(fù)教師的完整特征,那么這些使用的像素的表示能力也會得到提高。從這一點(diǎn)出發(fā),我們提出了掩碼生成蒸餾(Masked Generative Distillation,MGD),這是一種簡單且高效的基于特征的蒸餾方法。如圖2所示,我們首先隨機(jī)掩碼學(xué)生的特征像素,然后通過一個(gè)簡單的模塊使用掩碼后的特征來生成教師的完整特征。由于在每次迭代中都使用隨機(jī)像素,訓(xùn)練過程中會用到所有像素,這意味著特征將更具魯棒性,并且其表示能力也會得到提高。在我們的方法中,教師僅作為指導(dǎo)學(xué)生恢復(fù)特征的指南,并不要求學(xué)生直接模仿它。
在這里插入圖片描述

為了驗(yàn)證我們的假設(shè),即在不直接模仿教師的情況下,通過掩碼特征生成可以提高學(xué)生的特征表示能力,我們對學(xué)生和教師頸部特征的注意力進(jìn)行了可視化。如圖1所示,學(xué)生和教師的特征差異很大。與教師相比,學(xué)生特征在背景區(qū)域的響應(yīng)更高。教師的mAP也顯著高于學(xué)生,為41.0%對37.4%。在使用最先進(jìn)的蒸餾方法FGD[35]進(jìn)行蒸餾后,該方法強(qiáng)制學(xué)生模仿教師特征的注意力,學(xué)生的特征變得更接近教師,mAP也大幅提高到40.7%。然而,在使用MGD進(jìn)行訓(xùn)練后,盡管學(xué)生和教師的特征之間仍然存在顯著差異,但學(xué)生對背景的響應(yīng)大大降低。我們也驚訝地發(fā)現(xiàn),學(xué)生的性能超過了FGD,甚至達(dá)到了與教師相同的mAP。這也表明使用MGD進(jìn)行訓(xùn)練可以提高學(xué)生特征的表示能力。
在這里插入圖片描述

此外,我們還在圖像分類和密集預(yù)測任務(wù)上進(jìn)行了豐富的實(shí)驗(yàn)。結(jié)果顯示,MGD可以為各種任務(wù)帶來顯著的改進(jìn),包括圖像分類、目標(biāo)檢測、語義分割和實(shí)例分割。MGD還可以與其他基于logits或頭部的蒸餾方法結(jié)合使用,以獲得更大的性能提升。

綜上所述,本文的貢獻(xiàn)如下:

  1. 我們?yōu)榛谔卣鞯闹R蒸餾引入了一種新方法,使學(xué)生通過其掩碼特征生成教師的特征,而不是直接模仿。
  2. 我們提出了一種新穎的基于特征的蒸餾方法——掩碼生成蒸餾(MGD),該方法簡單易用,僅包含兩個(gè)超參數(shù)。
  3. 我們通過在不同數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了該方法在各種模型上的有效性。對于圖像分類和密集預(yù)測任務(wù),使用MGD的學(xué)生都取得了顯著的改進(jìn)。

2、相關(guān)工作

2.1、分類中的知識蒸餾

知識蒸餾最初由Hinton等人提出[18],其中學(xué)生模型不僅受到真實(shí)標(biāo)簽的監(jiān)督,還受到教師模型最后線性層產(chǎn)生的軟標(biāo)簽的監(jiān)督。然而,除了基于logits的蒸餾方法外,更多蒸餾方法是基于特征圖的。FitNet[28]從中間層提取語義信息進(jìn)行蒸餾。AT[36]匯總通道維度上的值,并將注意力知識傳遞給學(xué)生模型。OFD[17]提出了邊際ReLU,并設(shè)計(jì)了一種新的函數(shù)來衡量蒸餾中的距離。CRD[30]利用對比學(xué)習(xí)將知識傳遞給學(xué)生。最近,KR[4]建立了一個(gè)回顧機(jī)制,并利用多級信息進(jìn)行蒸餾。SRRL[33]將表示學(xué)習(xí)和分類解耦,利用教師模型的分類器來訓(xùn)練學(xué)生模型的倒數(shù)第二層特征。WSLD[40]從偏差-方差權(quán)衡的角度提出了加權(quán)軟標(biāo)簽用于蒸餾。

2.2、密集預(yù)測的知識蒸餾

分類與密集預(yù)測之間存在很大差異。許多針對分類的知識蒸餾方法在密集預(yù)測上失敗了。理論上,基于特征的知識蒸餾方法應(yīng)該對分類和密集預(yù)測任務(wù)都有幫助,這也是我們方法的目標(biāo)。

對象檢測的知識蒸餾。Chen等人[1]首先在檢測器的頸部和頭部計(jì)算蒸餾損失。對象檢測中蒸餾的關(guān)鍵在于由于前景和背景之間的極端不平衡,應(yīng)該在哪里進(jìn)行蒸餾。為了避免從背景中引入噪聲,FGFI[31]利用細(xì)粒度掩碼來蒸餾物體附近的區(qū)域。然而,Defeat[13]指出前景和背景的信息都很重要。GID[10]選擇學(xué)生和教師表現(xiàn)不同的區(qū)域進(jìn)行蒸餾。FKD[37]使用教師和學(xué)生的注意力之和來使學(xué)生關(guān)注可變區(qū)域。FGD[35]提出了焦點(diǎn)蒸餾,迫使學(xué)生學(xué)習(xí)教師的關(guān)鍵部分,以及全局蒸餾,以彌補(bǔ)缺失的全局信息。

語義分割的知識蒸餾。Liu等人[23]提出了成對和整體蒸餾,強(qiáng)制學(xué)生和教師的輸出之間保持成對和高階一致性。He等人[16]將教師網(wǎng)絡(luò)的輸出重新解釋為重新表示的潛在域,并從教師網(wǎng)絡(luò)中捕獲長期依賴關(guān)系。CWD[29]最小化了通過歸一化每個(gè)通道的激活圖計(jì)算得到的概率圖之間的Kullback-Leibler(KL)散度。

3、方法

不同任務(wù)的模型架構(gòu)差異很大。此外,大多數(shù)蒸餾方法都是為特定任務(wù)設(shè)計(jì)的。然而,基于特征的知識蒸餾可以應(yīng)用于分類和密集預(yù)測?;谔卣髡麴s的基本方法可以表示為:

L fea = ∑ k = 1 C ∑ i = 1 H ∑ j = 1 W ( F k , i , j T ? f align ( F k , i , j S ) ) 2 L_{\text{fea}} = \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(F_{k, i, j}^{T} - f_{\text{align}}\left(F_{k, i, j}^{S}\right)\right)^{2} Lfea?=k=1C?i=1H?j=1W?(Fk,i,jT??falign?(Fk,i,jS?))2

其中, F T F^{T} FT F S F^{S} FS 分別表示教師和學(xué)生的特征,而 f align f_{\text{align}} falign? 是適配層,用于將學(xué)生特征 F S F^{S} FS 與教師特征 F T F^{T} FT 對齊。C、H、W 表示特征圖的形狀。

這種方法有助于學(xué)生直接模仿教師的特征。然而,我們提出了掩碼生成蒸餾(MGD),其目標(biāo)在于迫使學(xué)生生成教師的特征,而不是簡單地模仿它,從而在分類和密集預(yù)測方面都為學(xué)生帶來顯著改進(jìn)。MGD的架構(gòu)如圖2所示,我們將在本節(jié)中詳細(xì)介紹它。

3.1、使用掩碼特征的生成

對于基于CNN的模型,深層特征具有較大的感受野和更好的原始輸入圖像表示。換句話說,特征圖像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此,我們可以使用部分像素來恢復(fù)完整的特征圖。我們的方法旨在通過學(xué)生的掩碼特征生成教師的特征,這有助于學(xué)生實(shí)現(xiàn)更好的表示。

我們分別用 T l ∈ R C × H × W T^{l} \in R^{C \times H \times W} TlRC×H×W S l ∈ R C × H × W ( l = 1 , … , L ) S^{l} \in R^{C \times H \times W} (l=1, \ldots, L) SlRC×H×W(l=1,,L) 表示教師和學(xué)生的第 l l l 層特征圖。首先,我們設(shè)置第 l l l 個(gè)隨機(jī)掩碼來覆蓋學(xué)生的第 l l l 層特征,可以表示為:

M i , j l = { 0 , 如果? R i , j l < λ 1 , 其他情況 M_{i, j}^{l}=\left\{ \begin{array}{ll} 0, & \text{如果 } R_{i, j}^{l}<\lambda \\ 1, & \text{其他情況} \end{array} \right. Mi,jl?={0,1,?如果?Ri,jl?<λ其他情況?

其中 R i , j l R_{i, j}^{l} Ri,jl? 是一個(gè)在 ( 0 , 1 ) (0,1) (0,1) 范圍內(nèi)的隨機(jī)數(shù), i , j i, j i,j 分別是特征圖的橫縱坐標(biāo)。 λ \lambda λ 是一個(gè)超參數(shù),表示掩碼比例。第 l l l 層特征圖被第 l l l 個(gè)隨機(jī)掩碼覆蓋。

然后,我們使用相應(yīng)的掩碼來覆蓋學(xué)生的特征圖,并嘗試用剩下的像素生成教師的特征圖,可以表示為:

G ( f align ( S l ) ? M l ) ? T l G ( F ) = W l 2 ( ReLU ( W l 1 ( F ) ) ) \begin{array}{c} \mathcal{G}\left(f_{\text{align}}\left(S^{l}\right) \cdot M^{l}\right) \longrightarrow T^{l} \\ \mathcal{G}(F) = W_{l 2}\left(\text{ReLU}\left(W_{l 1}(F)\right)\right) \end{array} G(falign?(Sl)?Ml)?TlG(F)=Wl2?(ReLU(Wl1?(F)))?

G \mathcal{G} G 表示投影層,包括兩個(gè)卷積層 W l 1 W_{l 1} Wl1? W l 2 W_{l 2} Wl2?,以及一個(gè)激活層 ReLU。在本文中,我們?yōu)檫m配層 f align f_{\text{align}} falign? 采用 1 × 1 1 \times 1 1×1 卷積層,為投影層 W l 1 W_{l 1} Wl1? W l 2 W_{l 2} Wl2? 采用 3 × 3 3 \times 3 3×3 卷積層。

根據(jù)這種方法,我們?yōu)镸GD設(shè)計(jì)了蒸餾損失 L dis L_{\text{dis}} Ldis?

L dis ( S , T ) = ∑ l = 1 L ∑ k = 1 C ∑ i = 1 H ∑ j = 1 W ( T k , i , j l ? G ( f align ( S k , i , j l ) ? M i , j l ) ) 2 L_{\text{dis}}(S, T) = \sum_{l=1}^{L} \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(T_{k, i, j}^{l} - \mathcal{G}\left(f_{\text{align}}\left(S_{k, i, j}^{l}\right) \cdot M_{i, j}^{l}\right)\right)^{2} Ldis?(S,T)=l=1L?k=1C?i=1H?j=1W?(Tk,i,jl??G(falign?(Sk,i,jl?)?Mi,jl?))2

其中 L L L 是進(jìn)行蒸餾的層數(shù)總和, C , H , W C, H, W C,H,W 表示特征圖的形狀。 S S S T T T 分別表示學(xué)生和教師的特征。

3.2、總損失

在提出用于MGD的蒸餾損失 L dis L_{\text{dis}} Ldis? 之后,我們使用總損失來訓(xùn)練所有模型,具體形式如下:

L all = L original + α ? L dis L_{\text{all}} = L_{\text{original}} + \alpha \cdot L_{\text{dis}} Lall?=Loriginal?+α?Ldis?

其中 L original L_{\text{original}} Loriginal? 是所有任務(wù)中模型的原始損失,而 α \alpha α 是一個(gè)超參數(shù),用于平衡兩種損失。

MGD 是一種簡單而有效的蒸餾方法,可以很容易地應(yīng)用于各種任務(wù)。我們的方法流程在算法1中進(jìn)行了總結(jié)。

在這里插入圖片描述

4、主要實(shí)驗(yàn)

MGD 是一種基于特征的蒸餾方法,可以輕松應(yīng)用于不同模型和各種任務(wù)。在本文中,我們在包括分類、目標(biāo)檢測、語義分割和實(shí)例分割在內(nèi)的各種任務(wù)上進(jìn)行了實(shí)驗(yàn)。我們針對不同任務(wù)使用了不同的模型和數(shù)據(jù)集,并且所有模型在使用 MGD 后都取得了顯著的改進(jìn)。

4.1、分類

數(shù)據(jù)集。對于分類任務(wù),我們在 ImageNet[11] 上評估了我們的知識蒸餾方法,它包含了 1000 個(gè)對象類別。我們使用 120 萬張圖像進(jìn)行訓(xùn)練,并使用 50k 張圖像進(jìn)行所有分類實(shí)驗(yàn)的測試。我們使用準(zhǔn)確率來評估模型。

實(shí)現(xiàn)細(xì)節(jié)。對于分類任務(wù),我們在主干網(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。關(guān)于這一點(diǎn)的消融研究將在第 5.5 節(jié)中展示。MGD 使用一個(gè)超參數(shù) α \alpha α 來平衡方程 6 中的蒸餾損失。另一個(gè)超參數(shù) λ \lambda λ 用于調(diào)整方程 2 中的掩碼比例。我們在所有分類實(shí)驗(yàn)中都采用了超參數(shù) { α = 7 × 1 0 ? 5 , λ = 0.5 } \left\{\alpha=7 \times 10^{-5}, \lambda=0.5\right\} {α=7×10?5,λ=0.5}。我們使用 SGD 優(yōu)化器對所有模型進(jìn)行 100 個(gè)周期的訓(xùn)練,其中動量設(shè)置為 0.9,權(quán)重衰減為 0.0001。我們初始化學(xué)習(xí)率為 0.1,并在每 30 個(gè)周期后衰減。這一設(shè)置基于 8 個(gè) GPU。實(shí)驗(yàn)是使用基于 Pytorch[26] 的 MMClassification[6] 和 MMRazor[7] 進(jìn)行的。

分類結(jié)果。我們針對分類任務(wù)進(jìn)行了兩種流行的蒸餾設(shè)置實(shí)驗(yàn),包括同構(gòu)蒸餾和異構(gòu)蒸餾。第一種蒸餾設(shè)置是從 ResNet-34[15] 到 ResNet-18,另一種設(shè)置是從 ResNet-50 到 MobileNet[19]。如表 1 所示,我們將我們的方法與各種知識蒸餾方法[18, 36, 17, 25, 30, 4, 40, 33]進(jìn)行了比較,這些方法包括基于特征的方法、基于邏輯的方法以及它們的組合。使用我們的方法,學(xué)生模型 ResNet-18 和 MobileNet 的 Top-1 準(zhǔn)確率分別提高了 1.68 和 3.14。此外,如上所述,MGD 只需要在特征圖上計(jì)算蒸餾損失,并且可以與基于邏輯的其他圖像分類方法相結(jié)合。因此,我們嘗試在 WSLD[40] 中添加基于邏輯的蒸餾損失。通過這種方式,兩個(gè)學(xué)生模型分別達(dá)到了 71.80 和 72.59 的 Top-1 準(zhǔn)確率,分別再提高了 0.22 和 0.24。

在這里插入圖片描述

4.2、目標(biāo)檢測與實(shí)例分割

數(shù)據(jù)集。我們在 COCO2017 數(shù)據(jù)集[22]上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集包含 80 個(gè)對象類別。我們使用 120k 張訓(xùn)練圖像進(jìn)行訓(xùn)練,并使用 5k 張驗(yàn)證圖像進(jìn)行測試。模型的性能通過平均精度(Average Precision)進(jìn)行評估。

實(shí)現(xiàn)細(xì)節(jié)。我們在頸部(neck)的所有特征圖上計(jì)算蒸餾損失。對于所有單階段模型,我們采用超參數(shù) { α = 2 × 1 0 ? 5 , λ = 0.65 } \left\{\alpha=2 \times 10^{-5}, \lambda=0.65\right\} {α=2×10?5,λ=0.65};對于所有兩階段模型,我們采用超參數(shù) { α = 5 × 1 0 ? 7 , λ = 0.45 } \left\{\alpha=5 \times 10^{-7}, \lambda=0.45\right\} {α=5×10?7,λ=0.45}。我們使用 SGD 優(yōu)化器對所有模型進(jìn)行訓(xùn)練,其中動量設(shè)置為 0.9,權(quán)重衰減為 0.0001。除非另有說明,我們訓(xùn)練模型 24 個(gè)周期。當(dāng)師生具有相同的頭結(jié)構(gòu)時(shí),我們使用繼承策略[20, 35],即用教師的頸部和頭部參數(shù)初始化學(xué)生的參數(shù)來訓(xùn)練學(xué)生。實(shí)驗(yàn)是基于 MMDetection[2] 進(jìn)行的。
在這里插入圖片描述

目標(biāo)檢測與實(shí)例分割結(jié)果。對于目標(biāo)檢測,我們在三種不同類型的檢測器上進(jìn)行了實(shí)驗(yàn),包括兩階段檢測器(Faster RCNN[27])、基于錨點(diǎn)的單階段檢測器(RetinaNet[21])和無錨點(diǎn)單階段檢測器(RepPoints[34])。我們將 MGD 與三種最新的檢測器蒸餾方法[37, 29, 35]進(jìn)行了比較。對于實(shí)例分割,我們在兩個(gè)模型上進(jìn)行了實(shí)驗(yàn),即 SOLO[32] 和 Mask RCNN[14]。如表 2 和表 3 所示,我們的方法在目標(biāo)檢測和實(shí)例分割方面均超過了其他最先進(jìn)的方法。使用 MGD 的學(xué)生模型獲得了顯著的 AP 改進(jìn),例如,基于 ResNet-50 的 RetinaNet 和 SOLO 在 COCO 數(shù)據(jù)集上分別獲得了 3.6 的 Boundingbox mAP 和 3.1 的 Mask mAP 提升。
在這里插入圖片描述

4.3、語義分割

數(shù)據(jù)集。對于語義分割任務(wù),我們在CityScapes數(shù)據(jù)集[9]上評估了我們的方法,該數(shù)據(jù)集包含5000張高質(zhì)量圖像(其中2975張用于訓(xùn)練,500張用于驗(yàn)證,1525張用于測試)。我們使用平均交并比(mIoU)來評估所有模型。

實(shí)現(xiàn)細(xì)節(jié)。對于所有模型,我們在骨干網(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。我們在所有實(shí)驗(yàn)中都采用了超參數(shù) { α = 2 × 1 0 ? 5 , λ = 0.75 } \left\{\alpha=2 \times 10^{-5}, \lambda=0.75\right\} {α=2×10?5,λ=0.75}。我們使用SGD優(yōu)化器訓(xùn)練所有模型,其中動量設(shè)置為0.9,權(quán)重衰減為0.0005。我們在8個(gè)GPU上運(yùn)行所有模型。實(shí)驗(yàn)是使用MMSegmentation[8]框架進(jìn)行的。

語義分割結(jié)果。在語義分割任務(wù)中,我們進(jìn)行了兩種設(shè)置的實(shí)驗(yàn)。在這兩種設(shè)置中,我們都使用PspNet-Res101[38]作為教師模型,并使用 512 × 1024 512 \times 1024 512×1024的輸入大小對其進(jìn)行80k次迭代的訓(xùn)練。我們使用PspNet-Res18和DeepLabV3-Res18[3]作為學(xué)生模型,并使用 512 × 1024 512 \times 1024 512×1024的輸入大小對它們進(jìn)行40k次迭代的訓(xùn)練。如表4所示,我們的方法在語義分割任務(wù)上超越了最先進(jìn)的蒸餾方法。無論是同構(gòu)蒸餾還是異構(gòu)蒸餾,都為學(xué)生模型帶來了顯著的改進(jìn),例如基于ResNet-18的PspNet獲得了3.78 mIoU的改進(jìn)。此外,MGD是一種基于特征的蒸餾方法,可以與其他基于邏輯(logits)的蒸餾方法相結(jié)合。如結(jié)果所示,通過在CWD[29]中添加頭部的邏輯蒸餾損失,學(xué)生模型PspNet和DeepLabV3的mIoU分別再提高了0.47和0.29。

在這里插入圖片描述

5、分析

5.1、MGD帶來的更好表示

MGD迫使學(xué)生通過其掩碼特征生成教師的完整特征圖,而不是直接模仿它。這有助于學(xué)生獲得輸入圖像的更好表示。在本小節(jié)中,我們通過使用學(xué)生自我教學(xué)來研究這一點(diǎn)。我們首先直接訓(xùn)練ResNet-18作為教師和基線。然后,我們使用訓(xùn)練好的ResNet-18用MGD蒸餾自己。為了比較,我們還通過強(qiáng)迫學(xué)生直接模仿教師來蒸餾學(xué)生。模仿的蒸餾損失是學(xué)生特征圖與教師特征圖之間的L2距離的平方。
在這里插入圖片描述

如表5所示,即使教師是它自己,學(xué)生也能通過MGD獲得1.01的準(zhǔn)確率提升。相比之下,當(dāng)強(qiáng)迫學(xué)生直接模仿教師的特征圖時(shí),提升非常有限。比較表明,蒸餾后學(xué)生的特征圖比教師的特征圖獲得了更好的表示。
在這里插入圖片描述

此外,我們可視化了使用MGD蒸餾和模仿教師的訓(xùn)練損失曲線,如圖3所示。圖中的差異表示學(xué)生與教師最后一個(gè)特征圖之間的L2距離的平方,也是模仿教師的蒸餾損失。如圖所示,在直接模仿教師的過程中,差異不斷減小,最終學(xué)生得到了與教師相似的特征。然而,這種方法帶來的改進(jìn)很小。相比之下,在使用MGD訓(xùn)練后,差異變得更大。盡管學(xué)生得到了與教師不同的特征,但它獲得了更高的準(zhǔn)確率,這也表明學(xué)生的特征獲得了更強(qiáng)的表示能力。

5.2、通過掩碼隨機(jī)通道進(jìn)行蒸餾

對于圖像分類,模型通常使用池化層來減少特征圖的空間維度。這使得模型對通道比空間像素更敏感。因此,在本小節(jié)中,我們嘗試通過掩碼隨機(jī)通道而不是空間像素來應(yīng)用MGD進(jìn)行分類。我們在實(shí)驗(yàn)中采用掩碼比率 β = 0.15 \beta=0.15 β=0.15和超參數(shù) α = 7 × 1 0 ? 5 \alpha=7 \times 10^{-5} α=7×10?5。如表6所示,通過掩碼隨機(jī)通道而不是空間像素進(jìn)行圖像分類,學(xué)生可以獲得更好的性能。學(xué)生ResNet-18和MobileNet分別獲得了0.13和0.14的Top-1準(zhǔn)確率提升。
在這里插入圖片描述

5.3、使用不同教師進(jìn)行蒸餾

Cho等人[5]表明,對于圖像分類的知識蒸餾,準(zhǔn)確率更高的教師可能并不是更好的教師。這一結(jié)論基于基于邏輯(logits)的蒸餾方法。然而,我們的方法只需要在特征圖上計(jì)算蒸餾損失。在本小節(jié)中,我們使用不同類型的教師來蒸餾相同的學(xué)生ResNet-18,如圖4所示。
在這里插入圖片描述

如圖4所示,當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí),更好的教師更能使學(xué)生受益,例如ResNet-18分別使用ResNet-18和ResNetV1D-152作為教師時(shí),準(zhǔn)確率達(dá)到了70.91和71.8。然而,當(dāng)教師和學(xué)生具有不同的架構(gòu)時(shí),學(xué)生很難生成教師的特征圖,通過蒸餾獲得的改進(jìn)是有限的。此外,架構(gòu)差異越大,蒸餾效果越差。例如,盡管Res2Net101[12]和ConvNeXt-T[24]的準(zhǔn)確率分別為79.19和82.05,但它們僅為學(xué)生帶來了1.53和0.88的準(zhǔn)確率提升,甚至低于基于ResNet-34的教師(準(zhǔn)確率為73.62)。

圖4中的結(jié)果表明,當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí),更強(qiáng)的教師是特征基礎(chǔ)蒸餾的更好選擇。此外,具有相似架構(gòu)的同構(gòu)教師比準(zhǔn)確率高但架構(gòu)異構(gòu)的教師更適合特征基礎(chǔ)蒸餾。

5.4、生成塊

MGD使用一個(gè)簡單的塊來恢復(fù)特征,稱為生成塊。在方程4中,我們使用兩個(gè) 3 × 3 3 \times 3 3×3卷積層和一個(gè)ReLU激活層來完成這一點(diǎn)。在本小節(jié)中,我們探索了具有不同組合的生成塊的效果,如表7所示。
在這里插入圖片描述

結(jié)果表明,當(dāng)只有一個(gè)卷積層時(shí),學(xué)生的提升最小。然而,當(dāng)有三個(gè)卷積層時(shí),學(xué)生的Top-1準(zhǔn)確率較差但Top-5準(zhǔn)確率更好。對于核大小, 5 × 5 5 \times 5 5×5卷積核需要更多的計(jì)算資源,但性能較差?;谶@些結(jié)果,我們選擇方程4中的架構(gòu)作為MGD,它包括兩個(gè)卷積層和一個(gè)激活層。

5.5、在不同階段的蒸餾

我們的方法也可以應(yīng)用于模型的其他階段。在本小節(jié)中,我們探索了在ImageNet上的不同階段進(jìn)行蒸餾。我們在教師和學(xué)生的相應(yīng)層上計(jì)算蒸餾損失。如表8所示,蒸餾較淺的層也有助于學(xué)生,但非常有限。而蒸餾包含更多語義信息的較深階段更能使學(xué)生受益。此外,早期階段的特征不直接用于分類。因此,將這樣的特征與最后一階段的特征一起蒸餾可能會損害學(xué)生的準(zhǔn)確率。
在這里插入圖片描述

5.6、超參數(shù)的敏感性研究

在本文中,我們使用方程6中的 α \alpha α和方程2中的 λ \lambda λ來平衡蒸餾損失和調(diào)整掩碼比率。在本小節(jié)中,我們通過使用ResNet-34在ImageNet數(shù)據(jù)集上蒸餾ResNet-18來進(jìn)行超參數(shù)的敏感性研究。結(jié)果如圖5所示。

如圖5所示,MGD對僅用于平衡損失的超參數(shù) α \alpha α不敏感。對于掩碼比率 λ \lambda λ,當(dāng)其為0時(shí),準(zhǔn)確率為71.41,這意味著沒有用于生成的掩碼部分。當(dāng) λ < 0.5 \lambda<0.5 λ<0.5時(shí),學(xué)生隨著比率的增大而獲得更高的性能。然而,當(dāng) λ \lambda λ過大時(shí),例如0.8,剩余的語義信息太差,無法生成教師的完整特征圖,性能提升也受到影響。

在這里插入圖片描述

6、結(jié)論

在本文中,我們提出了一種新的知識蒸餾方法,它迫使學(xué)生通過其掩碼特征生成教師的特征,而不是直接模仿它。基于這種方式,我們提出了一種新的知識蒸餾方法,即掩碼生成蒸餾(MGD)。通過MGD,學(xué)生可以獲得更強(qiáng)的表示能力。此外,我們的方法僅基于特征圖,因此MGD可以輕松應(yīng)用于各種任務(wù),如圖像分類、目標(biāo)檢測、語義分割和實(shí)例分割。在各種模型和不同數(shù)據(jù)集上的廣泛實(shí)驗(yàn)證明,我們的方法簡單且有效。

致謝。本研究得到了SZSTC項(xiàng)目資助號JCYJ20190809172201639和WDZC20200820200655001,以及深圳市重點(diǎn)實(shí)驗(yàn)室項(xiàng)目ZDSYS20210623092001004的支持。

http://aloenet.com.cn/news/37738.html

相關(guān)文章:

  • 沈陽網(wǎng)站制作找網(wǎng)勢科技國際軍事新聞
  • wordpress加個(gè)留言板谷歌seo排名技巧
  • 學(xué)校響應(yīng)式網(wǎng)站模板網(wǎng)絡(luò)推廣有哪些途徑
  • 網(wǎng)站列表頁內(nèi)容優(yōu)化關(guān)鍵詞哪家好
  • 商務(wù)網(wǎng)站建設(shè)2024最火的十大新聞有哪些
  • 國外網(wǎng)站建立軟文營銷案例
  • sql2008做網(wǎng)站淘寶seo具體優(yōu)化方法
  • 專門做油畫交流的網(wǎng)站專業(yè)做網(wǎng)站建設(shè)的公司
  • h5制作多少錢seo是怎么優(yōu)化上去
  • 如何自己建一個(gè)微網(wǎng)站查看瀏覽過的歷史記錄百度
  • 領(lǐng)諾科技網(wǎng)站建設(shè)在哪買網(wǎng)站鏈接
  • 邯鄲58同城網(wǎng)秦皇島網(wǎng)站seo
  • app軟件下載網(wǎng)站免費(fèi)進(jìn)入常用的網(wǎng)絡(luò)營銷方法及效果
  • 哪個(gè)跨境電商網(wǎng)站做的最好免費(fèi)云服務(wù)器
  • 電子郵箱注冊專業(yè)seo網(wǎng)站
  • 建立網(wǎng)站教程視頻百度官方電話號碼
  • 大橋石化集團(tuán)網(wǎng)站誰做的網(wǎng)絡(luò)廣告代理
  • 安慶懷寧網(wǎng)站建設(shè)兼職seo下載站
  • 重慶高端網(wǎng)站建設(shè)公司最新黑帽seo培訓(xùn)
  • 企業(yè)網(wǎng)站建設(shè)中期報(bào)告模板微商軟文推廣平臺
  • 怎么做網(wǎng)站兼容性測試發(fā)布軟文廣告
  • 網(wǎng)站公安備案需要多久個(gè)人網(wǎng)站模板
  • 一起裝修網(wǎng)官方網(wǎng)站單詞優(yōu)化和整站優(yōu)化
  • 專注高端網(wǎng)站建設(shè)seo 專業(yè)
  • 可以制作網(wǎng)站的軟件seo交流qq群
  • 鎮(zhèn)江網(wǎng)站優(yōu)化電商seo是什么意思
  • 怎么根據(jù)網(wǎng)站做二維碼seo精華網(wǎng)站
  • wordpress VIP系統(tǒng)愛站網(wǎng)seo工具包
  • 電子商務(wù)是什么職業(yè)福州seo優(yōu)化
  • 做網(wǎng)站服務(wù)商新鄉(xiāng)網(wǎng)絡(luò)推廣外包