當(dāng)前位置：首頁 > news >正文

網(wǎng)站策劃做營銷推廣廣告營銷

news 2025/7/4 13:41:42

網(wǎng)站策劃做營銷推廣,廣告營銷,各大網(wǎng)站搜索引擎,好孩子官方網(wǎng)站王建設(shè)摘要 https://arxiv.org/pdf/2205.01529 知識蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過模仿教師的輸出來提高學(xué)生的性能。本文表明，教師還可以通過指導(dǎo)學(xué)生的特征恢復(fù)來提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā)，我們提出了掩碼生成蒸餾&#xff08…

摘要

https://arxiv.org/pdf/2205.01529
知識蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過模仿教師的輸出來提高學(xué)生的性能。本文表明，教師還可以通過指導(dǎo)學(xué)生的特征恢復(fù)來提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā)，我們提出了掩碼生成蒸餾（Masked Generative Distillation，MGD），該方法很簡單：我們隨機(jī)掩碼學(xué)生的特征像素，并通過一個(gè)簡單的塊強(qiáng)迫其生成教師的完整特征。MGD是一種真正通用的基于特征的蒸餾方法，可用于各種任務(wù)，包括圖像分類、目標(biāo)檢測、語義分割和實(shí)例分割。我們在不同模型和廣泛的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，結(jié)果表明所有學(xué)生都取得了顯著的改進(jìn)。特別地，我們將ResNet-18在ImageNet上的top-1準(zhǔn)確率從69.90%提高到71.69%，將基于ResNet-50骨干的RetinaNet的Boundingbox mAP從37.4提高到41.0，將基于ResNet-50的SOLO的Mask mAP從33.1提高到36.2，以及將基于ResNet-18的DeepLabV3的mIoU從73.20提高到76.02。我們的代碼已公開在https://github.com/yzd-v/MGD。

關(guān)鍵詞：知識蒸餾，圖像分類，目標(biāo)檢測，語義分割，實(shí)例分割

1、引言

深度卷積神經(jīng)網(wǎng)絡(luò)（CNNs）已被廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)。通常，較大的模型具有更好的性能但推理速度較慢，這使得在資源有限的情況下難以部署。為了克服這一問題，提出了知識蒸餾技術(shù)[18]。根據(jù)蒸餾發(fā)生的位置，它可以分為兩類。第一類是專門為不同任務(wù)設(shè)計(jì)的，例如，基于logits的蒸餾[18,40]用于分類任務(wù)和基于頭部的蒸餾[10,39]用于檢測任務(wù)。第二類是基于特征的蒸餾[28,17,4]。由于各種網(wǎng)絡(luò)之間僅在特征之后的頭部或投影器上存在差異，理論上，基于特征的蒸餾方法可以在各種任務(wù)中使用。然而，為特定任務(wù)設(shè)計(jì)的蒸餾方法通常在其他任務(wù)中不可用。例如，OFD[17]和KR[4]對檢測器的改進(jìn)有限。FKD[37]和FGD[35]是專門為檢測器設(shè)計(jì)的，由于缺少頸部結(jié)構(gòu)，無法在其他任務(wù)中使用。

先前的基于特征的蒸餾方法通常讓學(xué)生盡可能地模仿教師的輸出，因?yàn)榻處煹奶卣骶哂懈鼜?qiáng)的表示能力。然而，我們認(rèn)為，為了提高學(xué)生的特征表示能力，并不需要直接模仿教師。用于蒸餾的特征通常是通過深度網(wǎng)絡(luò)提取的高階語義信息。特征像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此，如果我們能夠通過一個(gè)簡單的模塊使用部分像素來恢復(fù)教師的完整特征，那么這些使用的像素的表示能力也會得到提高。從這一點(diǎn)出發(fā)，我們提出了掩碼生成蒸餾（Masked Generative Distillation，MGD），這是一種簡單且高效的基于特征的蒸餾方法。如圖2所示，我們首先隨機(jī)掩碼學(xué)生的特征像素，然后通過一個(gè)簡單的模塊使用掩碼后的特征來生成教師的完整特征。由于在每次迭代中都使用隨機(jī)像素，訓(xùn)練過程中會用到所有像素，這意味著特征將更具魯棒性，并且其表示能力也會得到提高。在我們的方法中，教師僅作為指導(dǎo)學(xué)生恢復(fù)特征的指南，并不要求學(xué)生直接模仿它。
在這里插入圖片描述

為了驗(yàn)證我們的假設(shè)，即在不直接模仿教師的情況下，通過掩碼特征生成可以提高學(xué)生的特征表示能力，我們對學(xué)生和教師頸部特征的注意力進(jìn)行了可視化。如圖1所示，學(xué)生和教師的特征差異很大。與教師相比，學(xué)生特征在背景區(qū)域的響應(yīng)更高。教師的mAP也顯著高于學(xué)生，為41.0%對37.4%。在使用最先進(jìn)的蒸餾方法FGD[35]進(jìn)行蒸餾后，該方法強(qiáng)制學(xué)生模仿教師特征的注意力，學(xué)生的特征變得更接近教師，mAP也大幅提高到40.7%。然而，在使用MGD進(jìn)行訓(xùn)練后，盡管學(xué)生和教師的特征之間仍然存在顯著差異，但學(xué)生對背景的響應(yīng)大大降低。我們也驚訝地發(fā)現(xiàn)，學(xué)生的性能超過了FGD，甚至達(dá)到了與教師相同的mAP。這也表明使用MGD進(jìn)行訓(xùn)練可以提高學(xué)生特征的表示能力。
在這里插入圖片描述

此外，我們還在圖像分類和密集預(yù)測任務(wù)上進(jìn)行了豐富的實(shí)驗(yàn)。結(jié)果顯示，MGD可以為各種任務(wù)帶來顯著的改進(jìn)，包括圖像分類、目標(biāo)檢測、語義分割和實(shí)例分割。MGD還可以與其他基于logits或頭部的蒸餾方法結(jié)合使用，以獲得更大的性能提升。

綜上所述，本文的貢獻(xiàn)如下：

我們?yōu)榛谔卣鞯闹R蒸餾引入了一種新方法，使學(xué)生通過其掩碼特征生成教師的特征，而不是直接模仿。
我們提出了一種新穎的基于特征的蒸餾方法——掩碼生成蒸餾（MGD），該方法簡單易用，僅包含兩個(gè)超參數(shù)。
我們通過在不同數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了該方法在各種模型上的有效性。對于圖像分類和密集預(yù)測任務(wù)，使用MGD的學(xué)生都取得了顯著的改進(jìn)。

2、相關(guān)工作

2.1、分類中的知識蒸餾

知識蒸餾最初由Hinton等人提出[18]，其中學(xué)生模型不僅受到真實(shí)標(biāo)簽的監(jiān)督，還受到教師模型最后線性層產(chǎn)生的軟標(biāo)簽的監(jiān)督。然而，除了基于logits的蒸餾方法外，更多蒸餾方法是基于特征圖的。FitNet[28]從中間層提取語義信息進(jìn)行蒸餾。AT[36]匯總通道維度上的值，并將注意力知識傳遞給學(xué)生模型。OFD[17]提出了邊際ReLU，并設(shè)計(jì)了一種新的函數(shù)來衡量蒸餾中的距離。CRD[30]利用對比學(xué)習(xí)將知識傳遞給學(xué)生。最近，KR[4]建立了一個(gè)回顧機(jī)制，并利用多級信息進(jìn)行蒸餾。SRRL[33]將表示學(xué)習(xí)和分類解耦，利用教師模型的分類器來訓(xùn)練學(xué)生模型的倒數(shù)第二層特征。WSLD[40]從偏差-方差權(quán)衡的角度提出了加權(quán)軟標(biāo)簽用于蒸餾。

2.2、密集預(yù)測的知識蒸餾

分類與密集預(yù)測之間存在很大差異。許多針對分類的知識蒸餾方法在密集預(yù)測上失敗了。理論上，基于特征的知識蒸餾方法應(yīng)該對分類和密集預(yù)測任務(wù)都有幫助，這也是我們方法的目標(biāo)。

對象檢測的知識蒸餾。Chen等人[1]首先在檢測器的頸部和頭部計(jì)算蒸餾損失。對象檢測中蒸餾的關(guān)鍵在于由于前景和背景之間的極端不平衡，應(yīng)該在哪里進(jìn)行蒸餾。為了避免從背景中引入噪聲，FGFI[31]利用細(xì)粒度掩碼來蒸餾物體附近的區(qū)域。然而，Defeat[13]指出前景和背景的信息都很重要。GID[10]選擇學(xué)生和教師表現(xiàn)不同的區(qū)域進(jìn)行蒸餾。FKD[37]使用教師和學(xué)生的注意力之和來使學(xué)生關(guān)注可變區(qū)域。FGD[35]提出了焦點(diǎn)蒸餾，迫使學(xué)生學(xué)習(xí)教師的關(guān)鍵部分，以及全局蒸餾，以彌補(bǔ)缺失的全局信息。

語義分割的知識蒸餾。Liu等人[23]提出了成對和整體蒸餾，強(qiáng)制學(xué)生和教師的輸出之間保持成對和高階一致性。He等人[16]將教師網(wǎng)絡(luò)的輸出重新解釋為重新表示的潛在域，并從教師網(wǎng)絡(luò)中捕獲長期依賴關(guān)系。CWD[29]最小化了通過歸一化每個(gè)通道的激活圖計(jì)算得到的概率圖之間的Kullback-Leibler（KL）散度。

3、方法

不同任務(wù)的模型架構(gòu)差異很大。此外，大多數(shù)蒸餾方法都是為特定任務(wù)設(shè)計(jì)的。然而，基于特征的知識蒸餾可以應(yīng)用于分類和密集預(yù)測?；谔卣髡麴s的基本方法可以表示為：

$L_{\text{fea}} = \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(F_{k, i, j}^{T} - f_{\text{align}}\left(F_{k, i, j}^{S}\right)\right)^{2}$

其中， $F^{T}$ 和 $F^{S}$ 分別表示教師和學(xué)生的特征，而 $f_{\text{align}}$ 是適配層，用于將學(xué)生特征 $F^{S}$ 與教師特征 $F^{T}$ 對齊。C、H、W 表示特征圖的形狀。

這種方法有助于學(xué)生直接模仿教師的特征。然而，我們提出了掩碼生成蒸餾（MGD），其目標(biāo)在于迫使學(xué)生生成教師的特征，而不是簡單地模仿它，從而在分類和密集預(yù)測方面都為學(xué)生帶來顯著改進(jìn)。MGD的架構(gòu)如圖2所示，我們將在本節(jié)中詳細(xì)介紹它。

3.1、使用掩碼特征的生成

對于基于CNN的模型，深層特征具有較大的感受野和更好的原始輸入圖像表示。換句話說，特征圖像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此，我們可以使用部分像素來恢復(fù)完整的特征圖。我們的方法旨在通過學(xué)生的掩碼特征生成教師的特征，這有助于學(xué)生實(shí)現(xiàn)更好的表示。

我們分別用 $T^{l} \in R^{C \times H \times W}$ 和 $S^{l} \in R^{C \times H \times W} (l=1, \ldots, L)$ 表示教師和學(xué)生的第 $l$ 層特征圖。首先，我們設(shè)置第 $l$ 個(gè)隨機(jī)掩碼來覆蓋學(xué)生的第 $l$ 層特征，可以表示為：

$M_{i, j}^{l}=\left\{ \begin{array}{ll} 0, & \text{如果 } R_{i, j}^{l}<\lambda \\ 1, & \text{其他情況} \end{array} \right.$

其中 $R_{i, j}^{l}$ 是一個(gè)在 $(0, 1)$ 范圍內(nèi)的隨機(jī)數(shù)， $i, j$ 分別是特征圖的橫縱坐標(biāo)。 $\lambda$ 是一個(gè)超參數(shù)，表示掩碼比例。第 $l$ 層特征圖被第 $l$ 個(gè)隨機(jī)掩碼覆蓋。

然后，我們使用相應(yīng)的掩碼來覆蓋學(xué)生的特征圖，并嘗試用剩下的像素生成教師的特征圖，可以表示為：

$\begin{array}{c} \mathcal{G}\left(f_{\text{align}}\left(S^{l}\right) \cdot M^{l}\right) \longrightarrow T^{l} \\ \mathcal{G}(F) = W_{l 2}\left(\text{ReLU}\left(W_{l 1}(F)\right)\right) \end{array}$

$\mathcal{G}$ 表示投影層，包括兩個(gè)卷積層 $W_{l 1}$ 和 $W_{l 2}$ ，以及一個(gè)激活層 ReLU。在本文中，我們?yōu)檫m配層 $f_{\text{align}}$ 采用 $\times 1$ 卷積層，為投影層 $W_{l 1}$ 和 $W_{l 2}$ 采用 $\times 3$ 卷積層。

根據(jù)這種方法，我們?yōu)镸GD設(shè)計(jì)了蒸餾損失 $L_{\text{dis}}$ ：

$L_{\text{dis}}(S, T) = \sum_{l=1}^{L} \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(T_{k, i, j}^{l} - \mathcal{G}\left(f_{\text{align}}\left(S_{k, i, j}^{l}\right) \cdot M_{i, j}^{l}\right)\right)^{2}$

其中 $L$ 是進(jìn)行蒸餾的層數(shù)總和， $C, H, W$ 表示特征圖的形狀。 $S$ 和 $T$ 分別表示學(xué)生和教師的特征。

3.2、總損失

在提出用于MGD的蒸餾損失 $L_{\text{dis}}$ 之后，我們使用總損失來訓(xùn)練所有模型，具體形式如下：

$L_{\text{all}} = L_{\text{original}} + \alpha \cdot L_{\text{dis}}$

其中 $L_{\text{original}}$ 是所有任務(wù)中模型的原始損失，而 $\alpha$ 是一個(gè)超參數(shù)，用于平衡兩種損失。

MGD 是一種簡單而有效的蒸餾方法，可以很容易地應(yīng)用于各種任務(wù)。我們的方法流程在算法1中進(jìn)行了總結(jié)。

在這里插入圖片描述

4、主要實(shí)驗(yàn)

MGD 是一種基于特征的蒸餾方法，可以輕松應(yīng)用于不同模型和各種任務(wù)。在本文中，我們在包括分類、目標(biāo)檢測、語義分割和實(shí)例分割在內(nèi)的各種任務(wù)上進(jìn)行了實(shí)驗(yàn)。我們針對不同任務(wù)使用了不同的模型和數(shù)據(jù)集，并且所有模型在使用 MGD 后都取得了顯著的改進(jìn)。

4.1、分類

數(shù)據(jù)集。對于分類任務(wù)，我們在 ImageNet[11] 上評估了我們的知識蒸餾方法，它包含了 1000 個(gè)對象類別。我們使用 120 萬張圖像進(jìn)行訓(xùn)練，并使用 50k 張圖像進(jìn)行所有分類實(shí)驗(yàn)的測試。我們使用準(zhǔn)確率來評估模型。

實(shí)現(xiàn)細(xì)節(jié)。對于分類任務(wù)，我們在主干網(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。關(guān)于這一點(diǎn)的消融研究將在第 5.5 節(jié)中展示。MGD 使用一個(gè)超參數(shù) $\alpha$ 來平衡方程 6 中的蒸餾損失。另一個(gè)超參數(shù) $\lambda$ 用于調(diào)整方程 2 中的掩碼比例。我們在所有分類實(shí)驗(yàn)中都采用了超參數(shù) $\left\{\alpha=7 \times 10^{-5}, \lambda=0.5\right\}$ 。我們使用 SGD 優(yōu)化器對所有模型進(jìn)行 100 個(gè)周期的訓(xùn)練，其中動量設(shè)置為 0.9，權(quán)重衰減為 0.0001。我們初始化學(xué)習(xí)率為 0.1，并在每 30 個(gè)周期后衰減。這一設(shè)置基于 8 個(gè) GPU。實(shí)驗(yàn)是使用基于 Pytorch[26] 的 MMClassification[6] 和 MMRazor[7] 進(jìn)行的。

分類結(jié)果。我們針對分類任務(wù)進(jìn)行了兩種流行的蒸餾設(shè)置實(shí)驗(yàn)，包括同構(gòu)蒸餾和異構(gòu)蒸餾。第一種蒸餾設(shè)置是從 ResNet-34[15] 到 ResNet-18，另一種設(shè)置是從 ResNet-50 到 MobileNet[19]。如表 1 所示，我們將我們的方法與各種知識蒸餾方法[18, 36, 17, 25, 30, 4, 40, 33]進(jìn)行了比較，這些方法包括基于特征的方法、基于邏輯的方法以及它們的組合。使用我們的方法，學(xué)生模型 ResNet-18 和 MobileNet 的 Top-1 準(zhǔn)確率分別提高了 1.68 和 3.14。此外，如上所述，MGD 只需要在特征圖上計(jì)算蒸餾損失，并且可以與基于邏輯的其他圖像分類方法相結(jié)合。因此，我們嘗試在 WSLD[40] 中添加基于邏輯的蒸餾損失。通過這種方式，兩個(gè)學(xué)生模型分別達(dá)到了 71.80 和 72.59 的 Top-1 準(zhǔn)確率，分別再提高了 0.22 和 0.24。

在這里插入圖片描述

4.2、目標(biāo)檢測與實(shí)例分割

數(shù)據(jù)集。我們在 COCO2017 數(shù)據(jù)集[22]上進(jìn)行了實(shí)驗(yàn)，該數(shù)據(jù)集包含 80 個(gè)對象類別。我們使用 120k 張訓(xùn)練圖像進(jìn)行訓(xùn)練，并使用 5k 張驗(yàn)證圖像進(jìn)行測試。模型的性能通過平均精度（Average Precision）進(jìn)行評估。

實(shí)現(xiàn)細(xì)節(jié)。我們在頸部（neck）的所有特征圖上計(jì)算蒸餾損失。對于所有單階段模型，我們采用超參數(shù) $\left\{\alpha=2 \times 10^{-5}, \lambda=0.65\right\}$ ；對于所有兩階段模型，我們采用超參數(shù) $\left\{\alpha=5 \times 10^{-7}, \lambda=0.45\right\}$ 。我們使用 SGD 優(yōu)化器對所有模型進(jìn)行訓(xùn)練，其中動量設(shè)置為 0.9，權(quán)重衰減為 0.0001。除非另有說明，我們訓(xùn)練模型 24 個(gè)周期。當(dāng)師生具有相同的頭結(jié)構(gòu)時(shí)，我們使用繼承策略[20, 35]，即用教師的頸部和頭部參數(shù)初始化學(xué)生的參數(shù)來訓(xùn)練學(xué)生。實(shí)驗(yàn)是基于 MMDetection[2] 進(jìn)行的。
在這里插入圖片描述

目標(biāo)檢測與實(shí)例分割結(jié)果。對于目標(biāo)檢測，我們在三種不同類型的檢測器上進(jìn)行了實(shí)驗(yàn)，包括兩階段檢測器（Faster RCNN[27]）、基于錨點(diǎn)的單階段檢測器（RetinaNet[21]）和無錨點(diǎn)單階段檢測器（RepPoints[34]）。我們將 MGD 與三種最新的檢測器蒸餾方法[37, 29, 35]進(jìn)行了比較。對于實(shí)例分割，我們在兩個(gè)模型上進(jìn)行了實(shí)驗(yàn)，即 SOLO[32] 和 Mask RCNN[14]。如表 2 和表 3 所示，我們的方法在目標(biāo)檢測和實(shí)例分割方面均超過了其他最先進(jìn)的方法。使用 MGD 的學(xué)生模型獲得了顯著的 AP 改進(jìn)，例如，基于 ResNet-50 的 RetinaNet 和 SOLO 在 COCO 數(shù)據(jù)集上分別獲得了 3.6 的 Boundingbox mAP 和 3.1 的 Mask mAP 提升。
在這里插入圖片描述

4.3、語義分割

數(shù)據(jù)集。對于語義分割任務(wù)，我們在CityScapes數(shù)據(jù)集[9]上評估了我們的方法，該數(shù)據(jù)集包含5000張高質(zhì)量圖像（其中2975張用于訓(xùn)練，500張用于驗(yàn)證，1525張用于測試）。我們使用平均交并比（mIoU）來評估所有模型。

實(shí)現(xiàn)細(xì)節(jié)。對于所有模型，我們在骨干網(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。我們在所有實(shí)驗(yàn)中都采用了超參數(shù) $\left\{\alpha=2 \times 10^{-5}, \lambda=0.75\right\}$ 。我們使用SGD優(yōu)化器訓(xùn)練所有模型，其中動量設(shè)置為0.9，權(quán)重衰減為0.0005。我們在8個(gè)GPU上運(yùn)行所有模型。實(shí)驗(yàn)是使用MMSegmentation[8]框架進(jìn)行的。

語義分割結(jié)果。在語義分割任務(wù)中，我們進(jìn)行了兩種設(shè)置的實(shí)驗(yàn)。在這兩種設(shè)置中，我們都使用PspNet-Res101[38]作為教師模型，并使用 $512 \times 1024$ 的輸入大小對其進(jìn)行80k次迭代的訓(xùn)練。我們使用PspNet-Res18和DeepLabV3-Res18[3]作為學(xué)生模型，并使用 $512 \times 1024$ 的輸入大小對它們進(jìn)行40k次迭代的訓(xùn)練。如表4所示，我們的方法在語義分割任務(wù)上超越了最先進(jìn)的蒸餾方法。無論是同構(gòu)蒸餾還是異構(gòu)蒸餾，都為學(xué)生模型帶來了顯著的改進(jìn)，例如基于ResNet-18的PspNet獲得了3.78 mIoU的改進(jìn)。此外，MGD是一種基于特征的蒸餾方法，可以與其他基于邏輯（logits）的蒸餾方法相結(jié)合。如結(jié)果所示，通過在CWD[29]中添加頭部的邏輯蒸餾損失，學(xué)生模型PspNet和DeepLabV3的mIoU分別再提高了0.47和0.29。

在這里插入圖片描述

5、分析

5.1、MGD帶來的更好表示

MGD迫使學(xué)生通過其掩碼特征生成教師的完整特征圖，而不是直接模仿它。這有助于學(xué)生獲得輸入圖像的更好表示。在本小節(jié)中，我們通過使用學(xué)生自我教學(xué)來研究這一點(diǎn)。我們首先直接訓(xùn)練ResNet-18作為教師和基線。然后，我們使用訓(xùn)練好的ResNet-18用MGD蒸餾自己。為了比較，我們還通過強(qiáng)迫學(xué)生直接模仿教師來蒸餾學(xué)生。模仿的蒸餾損失是學(xué)生特征圖與教師特征圖之間的L2距離的平方。
在這里插入圖片描述

如表5所示，即使教師是它自己，學(xué)生也能通過MGD獲得1.01的準(zhǔn)確率提升。相比之下，當(dāng)強(qiáng)迫學(xué)生直接模仿教師的特征圖時(shí)，提升非常有限。比較表明，蒸餾后學(xué)生的特征圖比教師的特征圖獲得了更好的表示。
在這里插入圖片描述

此外，我們可視化了使用MGD蒸餾和模仿教師的訓(xùn)練損失曲線，如圖3所示。圖中的差異表示學(xué)生與教師最后一個(gè)特征圖之間的L2距離的平方，也是模仿教師的蒸餾損失。如圖所示，在直接模仿教師的過程中，差異不斷減小，最終學(xué)生得到了與教師相似的特征。然而，這種方法帶來的改進(jìn)很小。相比之下，在使用MGD訓(xùn)練后，差異變得更大。盡管學(xué)生得到了與教師不同的特征，但它獲得了更高的準(zhǔn)確率，這也表明學(xué)生的特征獲得了更強(qiáng)的表示能力。

5.2、通過掩碼隨機(jī)通道進(jìn)行蒸餾

對于圖像分類，模型通常使用池化層來減少特征圖的空間維度。這使得模型對通道比空間像素更敏感。因此，在本小節(jié)中，我們嘗試通過掩碼隨機(jī)通道而不是空間像素來應(yīng)用MGD進(jìn)行分類。我們在實(shí)驗(yàn)中采用掩碼比率 $\beta=0.15$ 和超參數(shù) $\alpha=7 \times 10^{-5}$ 。如表6所示，通過掩碼隨機(jī)通道而不是空間像素進(jìn)行圖像分類，學(xué)生可以獲得更好的性能。學(xué)生ResNet-18和MobileNet分別獲得了0.13和0.14的Top-1準(zhǔn)確率提升。
在這里插入圖片描述

5.3、使用不同教師進(jìn)行蒸餾

Cho等人[5]表明，對于圖像分類的知識蒸餾，準(zhǔn)確率更高的教師可能并不是更好的教師。這一結(jié)論基于基于邏輯（logits）的蒸餾方法。然而，我們的方法只需要在特征圖上計(jì)算蒸餾損失。在本小節(jié)中，我們使用不同類型的教師來蒸餾相同的學(xué)生ResNet-18，如圖4所示。
在這里插入圖片描述

如圖4所示，當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí)，更好的教師更能使學(xué)生受益，例如ResNet-18分別使用ResNet-18和ResNetV1D-152作為教師時(shí)，準(zhǔn)確率達(dá)到了70.91和71.8。然而，當(dāng)教師和學(xué)生具有不同的架構(gòu)時(shí)，學(xué)生很難生成教師的特征圖，通過蒸餾獲得的改進(jìn)是有限的。此外，架構(gòu)差異越大，蒸餾效果越差。例如，盡管Res2Net101[12]和ConvNeXt-T[24]的準(zhǔn)確率分別為79.19和82.05，但它們僅為學(xué)生帶來了1.53和0.88的準(zhǔn)確率提升，甚至低于基于ResNet-34的教師（準(zhǔn)確率為73.62）。

圖4中的結(jié)果表明，當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí)，更強(qiáng)的教師是特征基礎(chǔ)蒸餾的更好選擇。此外，具有相似架構(gòu)的同構(gòu)教師比準(zhǔn)確率高但架構(gòu)異構(gòu)的教師更適合特征基礎(chǔ)蒸餾。

5.4、生成塊

MGD使用一個(gè)簡單的塊來恢復(fù)特征，稱為生成塊。在方程4中，我們使用兩個(gè) $\times 3$ 卷積層和一個(gè)ReLU激活層來完成這一點(diǎn)。在本小節(jié)中，我們探索了具有不同組合的生成塊的效果，如表7所示。
在這里插入圖片描述

結(jié)果表明，當(dāng)只有一個(gè)卷積層時(shí)，學(xué)生的提升最小。然而，當(dāng)有三個(gè)卷積層時(shí)，學(xué)生的Top-1準(zhǔn)確率較差但Top-5準(zhǔn)確率更好。對于核大小， $\times 5$ 卷積核需要更多的計(jì)算資源，但性能較差?；谶@些結(jié)果，我們選擇方程4中的架構(gòu)作為MGD，它包括兩個(gè)卷積層和一個(gè)激活層。

5.5、在不同階段的蒸餾

我們的方法也可以應(yīng)用于模型的其他階段。在本小節(jié)中，我們探索了在ImageNet上的不同階段進(jìn)行蒸餾。我們在教師和學(xué)生的相應(yīng)層上計(jì)算蒸餾損失。如表8所示，蒸餾較淺的層也有助于學(xué)生，但非常有限。而蒸餾包含更多語義信息的較深階段更能使學(xué)生受益。此外，早期階段的特征不直接用于分類。因此，將這樣的特征與最后一階段的特征一起蒸餾可能會損害學(xué)生的準(zhǔn)確率。
在這里插入圖片描述

5.6、超參數(shù)的敏感性研究

在本文中，我們使用方程6中的 $\alpha$ 和方程2中的 $\lambda$ 來平衡蒸餾損失和調(diào)整掩碼比率。在本小節(jié)中，我們通過使用ResNet-34在ImageNet數(shù)據(jù)集上蒸餾ResNet-18來進(jìn)行超參數(shù)的敏感性研究。結(jié)果如圖5所示。

如圖5所示，MGD對僅用于平衡損失的超參數(shù) $\alpha$ 不敏感。對于掩碼比率 $\lambda$ ，當(dāng)其為0時(shí)，準(zhǔn)確率為71.41，這意味著沒有用于生成的掩碼部分。當(dāng) $\lambda<0.5$ 時(shí)，學(xué)生隨著比率的增大而獲得更高的性能。然而，當(dāng) $\lambda$ 過大時(shí)，例如0.8，剩余的語義信息太差，無法生成教師的完整特征圖，性能提升也受到影響。

在這里插入圖片描述

6、結(jié)論

在本文中，我們提出了一種新的知識蒸餾方法，它迫使學(xué)生通過其掩碼特征生成教師的特征，而不是直接模仿它。基于這種方式，我們提出了一種新的知識蒸餾方法，即掩碼生成蒸餾（MGD）。通過MGD，學(xué)生可以獲得更強(qiáng)的表示能力。此外，我們的方法僅基于特征圖，因此MGD可以輕松應(yīng)用于各種任務(wù)，如圖像分類、目標(biāo)檢測、語義分割和實(shí)例分割。在各種模型和不同數(shù)據(jù)集上的廣泛實(shí)驗(yàn)證明，我們的方法簡單且有效。

致謝。本研究得到了SZSTC項(xiàng)目資助號JCYJ20190809172201639和WDZC20200820200655001，以及深圳市重點(diǎn)實(shí)驗(yàn)室項(xiàng)目ZDSYS20210623092001004的支持。

查看全文

http://aloenet.com.cn/news/37738.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

網(wǎng)站策劃做營銷推廣廣告營銷

摘要

1、引言