給網(wǎng)站做插畫分辨率seo也成搜索引擎優(yōu)化
建議觀看講解視頻:AI大講堂:革了Transformer的小命?專業(yè)拆解【Mamba模型】_嗶哩嗶哩_bilibili
1. 論文基本信息
2. 創(chuàng)新點(diǎn)
選擇性 SSM,和擴(kuò)展 Mamba 架構(gòu),是具有關(guān)鍵屬性的完全循環(huán)模型,這使得它們適合作為在序列上運(yùn)行的一般基礎(chǔ)模型的主干。
(i) 高質(zhì)量:選擇性在語言和基因組學(xué)等密集模式上帶來了強(qiáng)大的性能。
(ii) 快速訓(xùn)練和推理:計(jì)算和內(nèi)存在訓(xùn)練期間以序列長度線性縮放,并且在推理過程中自回歸展開模型在每一步只需要恒定的時間,因?yàn)樗恍枰惹霸氐木彺妗?/p>
(iii) 長上下文:質(zhì)量和效率共同產(chǎn)生了高達(dá)序列長度 1M 的真實(shí)數(shù)據(jù)的性能改進(jìn)。
3. 背景
基礎(chǔ)模型 (FM) 或在大量數(shù)據(jù)上預(yù)訓(xùn)練的大型模型,然后適應(yīng)下游任務(wù),已成為現(xiàn)代機(jī)器學(xué)習(xí)的有效范式。這些 FM 的主干通常是序列模型,對來自語言、圖像、語音、音頻、時間序列和基因組學(xué)等多個領(lǐng)域的任意輸入序列進(jìn)行操作。雖然這個概念與模型架構(gòu)的特定選擇無關(guān),但現(xiàn)代 FM 主要基于一種類型的序列模型:Transformer 及其核心注意力層自注意力的功效歸因于它能夠在上下文窗口中密集地路由信息,使其能夠?qū)?fù)雜的數(shù)據(jù)進(jìn)行建模。然而,此屬性帶來了根本的缺點(diǎn):無法對有限窗口之外的任何信息進(jìn)行建模,以及相對于窗口長度的二次縮放。大量研究似乎在更有效的注意力變體上來克服這些缺點(diǎn),但通常以犧牲使其有效的非常屬性為代價。然而,這些變體都沒有被證明在跨領(lǐng)域的規(guī)模上在經(jīng)驗(yàn)上是有效的。
最近,結(jié)構(gòu)化狀態(tài)空間模型 (SSM) 已成為序列建模的一種有前途的架構(gòu)。這些模型可以解釋為循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的組合,靈感來自經(jīng)典狀態(tài)空間模型 (Kalman 1960)。此類模型可以非常有效地計(jì)算為遞歸或卷積,序列長度具有線性或接近線性縮放。此外,論文提出了一類新的選擇性狀態(tài)空間模型,它在幾個軸上改進(jìn)了先前的工作,以實(shí)現(xiàn) Transformer 的建模能力,同時在序列長度上線性縮放。
之前的網(wǎng)絡(luò)訓(xùn)練測試時間對比如下:
- 自注意力機(jī)制的缺陷:計(jì)算范圍僅限于窗口內(nèi),缺乏全局觀,但是窗口一旦擴(kuò)大,計(jì)算復(fù)雜度(O n^2),每個位置都需要計(jì)算,計(jì)算復(fù)雜度擴(kuò)大。
4. Pipeline
Parallel Computing:顯卡中例如計(jì)算累加和,可使用下面的蝶形運(yùn)算達(dá)到并行計(jì)算效果
在 trasformer 中由于要存儲 attention map 導(dǎo)致需要存儲的內(nèi)容過多,導(dǎo)致顯卡中需要來回在 DRAM 和 SRAM 中做數(shù)據(jù) copy ,導(dǎo)致降低了計(jì)算效率:
Mamba 的模型框架,硬件感知算法(某些值可能過大 在 SRAM 中無法存儲,Manba 的思想是將其重算):
Vision Mamba:
4.1. 時序狀態(tài)空間模型 SSM
NeurIPS 2021
SSM 本質(zhì)上是一個 CNN 化的 RNN,采用并行處理結(jié)構(gòu)代替了原本的遞歸 RNN 。例如在生活中讀一本書,時許嵌套的 RNN 每次只能讀一行, 然后把記憶傳遞到下一行,這種方式只適合處理短故事,故事一長,容易忘記之前的情節(jié)。而 SSM 并行處理,相當(dāng)于同時打開所有頁看到每行內(nèi)容,這樣就能夠快速找到和理解整本數(shù)。
4.2. 選擇性 SSM
attention的核心思想其實(shí)就是在大量樣本中能夠找到重點(diǎn),于是 Manba 在降低模型的存儲復(fù)雜度的前提下,同樣關(guān)注注意力機(jī)制的核心。
在框架圖中,derta T 是通過 \tau(一種非線性激活函數(shù)),因此delta T 是非線性的,所以 ABC 都是非線性時變的,系統(tǒng)的條件就放開了。
Mamba Block ,左邊的線主要保證殘差連接,避免梯度消失。右邊先升維,在卷積提取時序特征,silu是非線性激活函數(shù)。
5. 💎實(shí)驗(yàn)成果展示
Vision Mamba:
6. 🔍問題分析
Transformer 用于處理圖像已經(jīng)較為大的計(jì)算量,而 mamba 由于減少了計(jì)算量可以處理視頻或者 3D 點(diǎn)云數(shù)據(jù)。
- Transformer 注意力機(jī)制的窗口小效果小了效果差,窗口大了計(jì)算復(fù)雜度平方暴漲。
7. 源碼環(huán)境配置:
GitHub - state-spaces/mamba: Mamba SSM architecture Mamba