當(dāng)前位置：首頁 > news >正文

給網(wǎng)站做插畫分辨率seo也成搜索引擎優(yōu)化

news 2025/7/8 9:33:03

給網(wǎng)站做插畫分辨率,seo也成搜索引擎優(yōu)化,網(wǎng)站解析,蘭州疫情最新建議觀看講解視頻：AI大講堂：革了Transformer的小命？專業(yè)拆解【Mamba模型】_嗶哩嗶哩_bilibili 1. 論文基本信息 2. 創(chuàng)新點(diǎn) 選擇性 SSM，和擴(kuò)展 Mamba 架構(gòu)，是具有關(guān)鍵屬性的完全循環(huán)模型，這使得它們適合作…

建議觀看講解視頻：AI大講堂：革了Transformer的小命？專業(yè)拆解【Mamba模型】_嗶哩嗶哩_bilibili

1. 論文基本信息

2. 創(chuàng)新點(diǎn)

選擇性 SSM，和擴(kuò)展 Mamba 架構(gòu)，是具有關(guān)鍵屬性的完全循環(huán)模型，這使得它們適合作為在序列上運(yùn)行的一般基礎(chǔ)模型的主干。

(i) 高質(zhì)量：選擇性在語言和基因組學(xué)等密集模式上帶來了強(qiáng)大的性能。

(ii) 快速訓(xùn)練和推理：計(jì)算和內(nèi)存在訓(xùn)練期間以序列長度線性縮放，并且在推理過程中自回歸展開模型在每一步只需要恒定的時間，因?yàn)樗恍枰惹霸氐木彺妗?/p>

(iii) 長上下文：質(zhì)量和效率共同產(chǎn)生了高達(dá)序列長度 1M 的真實(shí)數(shù)據(jù)的性能改進(jìn)。

3. 背景

基礎(chǔ)模型 (FM) 或在大量數(shù)據(jù)上預(yù)訓(xùn)練的大型模型，然后適應(yīng)下游任務(wù)，已成為現(xiàn)代機(jī)器學(xué)習(xí)的有效范式。這些 FM 的主干通常是序列模型，對來自語言、圖像、語音、音頻、時間序列和基因組學(xué)等多個領(lǐng)域的任意輸入序列進(jìn)行操作。雖然這個概念與模型架構(gòu)的特定選擇無關(guān)，但現(xiàn)代 FM 主要基于一種類型的序列模型：Transformer 及其核心注意力層自注意力的功效歸因于它能夠在上下文窗口中密集地路由信息，使其能夠?qū)?fù)雜的數(shù)據(jù)進(jìn)行建模。然而，此屬性帶來了根本的缺點(diǎn)：無法對有限窗口之外的任何信息進(jìn)行建模，以及相對于窗口長度的二次縮放。大量研究似乎在更有效的注意力變體上來克服這些缺點(diǎn)，但通常以犧牲使其有效的非常屬性為代價。然而，這些變體都沒有被證明在跨領(lǐng)域的規(guī)模上在經(jīng)驗(yàn)上是有效的。

最近，結(jié)構(gòu)化狀態(tài)空間模型 (SSM) 已成為序列建模的一種有前途的架構(gòu)。這些模型可以解釋為循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的組合，靈感來自經(jīng)典狀態(tài)空間模型 (Kalman 1960)。此類模型可以非常有效地計(jì)算為遞歸或卷積，序列長度具有線性或接近線性縮放。此外，論文提出了一類新的選擇性狀態(tài)空間模型，它在幾個軸上改進(jìn)了先前的工作，以實(shí)現(xiàn) Transformer 的建模能力，同時在序列長度上線性縮放。

之前的網(wǎng)絡(luò)訓(xùn)練測試時間對比如下：

自注意力機(jī)制的缺陷：計(jì)算范圍僅限于窗口內(nèi)，缺乏全局觀，但是窗口一旦擴(kuò)大，計(jì)算復(fù)雜度（O n^2），每個位置都需要計(jì)算，計(jì)算復(fù)雜度擴(kuò)大。

4. Pipeline

Parallel Computing：顯卡中例如計(jì)算累加和，可使用下面的蝶形運(yùn)算達(dá)到并行計(jì)算效果

在 trasformer 中由于要存儲 attention map 導(dǎo)致需要存儲的內(nèi)容過多，導(dǎo)致顯卡中需要來回在 DRAM 和 SRAM 中做數(shù)據(jù) copy ，導(dǎo)致降低了計(jì)算效率：

Mamba 的模型框架，硬件感知算法（某些值可能過大在 SRAM 中無法存儲，Manba 的思想是將其重算）：

Vision Mamba：

4.1. 時序狀態(tài)空間模型 SSM

NeurIPS 2021

SSM 本質(zhì)上是一個 CNN 化的 RNN，采用并行處理結(jié)構(gòu)代替了原本的遞歸 RNN 。例如在生活中讀一本書，時許嵌套的 RNN 每次只能讀一行，然后把記憶傳遞到下一行，這種方式只適合處理短故事，故事一長，容易忘記之前的情節(jié)。而 SSM 并行處理，相當(dāng)于同時打開所有頁看到每行內(nèi)容，這樣就能夠快速找到和理解整本數(shù)。