網站制作公司承擔seo外包公司多嗎
摘要
https://arxiv.org/pdf/2205.13213
視覺Transformer(ViTs)在計算機視覺領域引發(fā)了最新且最重要的突破。其高效設計大多以計算復雜度的間接指標,即浮點運算數(FLOPs)為指導,然而,該指標與吞吐量等直接指標之間存在明顯差距。因此,我們建議使用目標平臺上的直接速度評估作為高效ViTs的設計原則。特別是,我們引入了一種簡單且有效的ViT——LITv2,在各種不同模型尺寸下,LITv2均以更快的速度優(yōu)于現有的最先進方法。LITv2的核心是一種新穎的自注意力機制,我們稱之為HiLo。HiLo的靈感來源于以下見解:圖像中的高頻部分捕捉局部精細細節(jié),而低頻部分關注全局結構,然而,多頭自注意力層忽略了不同頻率特征。因此,我們提出在注意力層中將高頻/低頻模式分離,即將頭部分成兩組,其中一組通過每個局部窗口內的自注意力編碼高頻,另一組通過對每個窗口和輸入特征圖中每個查詢位置的平均池化低頻鍵和值執(zhí)行全局注意力來編碼低頻。得益于兩組的高效設計,我們通過全面對比GPU和CPU上的FLOPs、速度和內存消耗,證明了HiLo優(yōu)于現有的注意力機制。例如,在CPU上,HiLo比空間降維注意力快