国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站建設(shè)困難嗎企業(yè)宣傳推廣方案

網(wǎng)站建設(shè)困難嗎,企業(yè)宣傳推廣方案,本地廣東中山網(wǎng)站建設(shè),優(yōu)化設(shè)計(jì)電子版在哪找Selective attention improves transformer Google 2024.10.3 一句話:簡單且無需額外參數(shù)的選擇性注意力機(jī)制,通過選擇性忽略不相關(guān)信息并進(jìn)行上下文剪枝,在不增加計(jì)算復(fù)雜度的情況下顯著提升了Transformer模型的語言建模性能和推理效率。 論…

Selective attention improves transformer Google 2024.10.3
一句話:簡單且無需額外參數(shù)的選擇性注意力機(jī)制,通過選擇性忽略不相關(guān)信息并進(jìn)行上下文剪枝,在不增加計(jì)算復(fù)雜度的情況下顯著提升了Transformer模型的語言建模性能和推理效率。
論文鏈接:https://arxiv.org/pdf/2410.02703v1
1.為什么引入selective attention
Transformer的記憶負(fù)擔(dān)
Transformer,核心self-attention關(guān)注輸入序列中的所有部分,不僅僅是局部信息(也是RNN、LSTM改進(jìn)可以關(guān)注更長字符串,但是也引入了更高計(jì)算量),所有信息都保存在上下文緩沖區(qū),計(jì)算所有上下文信息的相關(guān)性
Selective attention高效信息篩選器
自動(dòng)刪除不再有用的信息,從上下文緩沖區(qū)中移除不必要的元素,提高模型性能,減少計(jì)算和內(nèi)存需求
在這里插入圖片描述
標(biāo)記token b無法影響標(biāo)記c從標(biāo)記a中讀取信息的程度,標(biāo)記b確定標(biāo)記a對(duì)于后續(xù)標(biāo)記c是不相關(guān)甚至是誤導(dǎo)性的
Selective attention允許一個(gè)標(biāo)記決定另一個(gè)標(biāo)記不再被需要,從而減少后續(xù)標(biāo)記對(duì)該標(biāo)記的關(guān)注度
2.selective attention可視化剔除token過程
(1)變量賦值
y=7; x=1; x=3; z=5; x=? 則:x=3,即不管前面x=1賦值是多少,都與之無關(guān)
在這里插入圖片描述
紅色線代表對(duì)前面token的掩蔽程度,在變量賦值中,掩蔽程度非0即1(一般為[0,1])
變量賦值中,綠色箭頭處,當(dāng)出現(xiàn)第二次 ‘Z=’ token時(shí),前面Z=、177直接掩蔽掉
(2)自然語言模型
序列:Bar,##ack, Obama
在這里插入圖片描述
##ack直接掩蔽了bar,這里紅色線有深淺,代表掩蔽程度不同,比如day對(duì)a的掩蔽程度比較淺,說明保留了部分a的信息
3.選擇函數(shù)
selection matrix SNxN,Sij表示標(biāo)記xi對(duì)標(biāo)記xj的掩蔽程度
在這里插入圖片描述
S矩陣限制條件:1.通過ReLU限制負(fù)值為0,只降低注意力,不增強(qiáng)注意力 2. Begin of Sentence標(biāo)記,初始句首不屏蔽,本身不關(guān)注不屏蔽
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
第一行:QK/sqrt(dk)
第二行:mask引入設(shè)置
第三行:選定head 0
第四行-第六行:S的三個(gè)約束條件
第七行:右移,且右移后對(duì)角線為0?
第八行:S累加得到F,為什么累加?
第九行:從標(biāo)準(zhǔn)attention中減去F
第十行:歸一化權(quán)重

文心一言代碼解讀
在這里插入圖片描述
4.context pruning 上下文剪枝
上下文緩沖區(qū)修剪元素來減少注意力模塊的內(nèi)存和計(jì)算需求。每層的稀疏性在樣本之間是穩(wěn)定的(本文實(shí)驗(yàn)有驗(yàn)證),為每一層設(shè)定各自固定的內(nèi)存預(yù)算。
上下文剪枝步驟:
1.初始化K = K1, . … , KL= N,為每層內(nèi)存預(yù)算,其中N的上下文緩沖區(qū)大小
2.前Kl個(gè)token保持,后續(xù)每個(gè)token和前面對(duì)比,丟棄最高F值對(duì)應(yīng)token
3.貪婪迭代方法分配總的內(nèi)存預(yù)算,迭代直到模型性能達(dá)到預(yù)定義閾值,即標(biāo)準(zhǔn)attention模型性能
5.loss
在這里插入圖片描述

每層內(nèi)存之和/層數(shù)token數(shù),我們希望M(內(nèi)存)越小越好,M越小,L越小,相關(guān)性一致,同時(shí)Ln≠pad即同aqrt(dk)限定范圍一樣,將分子大小限定一定范圍內(nèi)
在這里插入圖片描述
內(nèi)存計(jì)算, τ= 1限定F矩陣范圍不超過1
Lppl: standard log-perplexity loss 標(biāo)準(zhǔn)對(duì)角困惑度損失函數(shù)
? is a small weight factor: ? = 0.1, τ= 1,固定數(shù)值
L表示層數(shù),n≠pad表示非填充標(biāo)記的數(shù)量(字符串輸入固定,缺失填充padding,對(duì)應(yīng)token來說即非填充token,實(shí)際有效信息token)
6.selective attention改進(jìn)及其效果
(1)簡單且無需額外參數(shù)
(2)減小注意力機(jī)制的上下文緩沖區(qū)大小,推理過程中顯著減少內(nèi)存和計(jì)算需求
(3)標(biāo)準(zhǔn)Attention模型擁有約兩倍多的頭數(shù)和參數(shù)與selective attention效果相當(dāng)
(4)上下文大小為512、1024和2048時(shí),內(nèi)存分別比未采用選擇性注意力的相同驗(yàn)證困惑度的模型減少16倍、25倍和47倍
7.待改進(jìn)
(1)Decoder-only
(2)上下文減少提高推理效率,但并不能提高訓(xùn)練效率,探索在訓(xùn)練過程中迭代減少上下文緩沖區(qū)的大小
(3)移除元素后,沒有對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練,在上下文減少后進(jìn)行一些額外的訓(xùn)練可能會(huì)實(shí)現(xiàn)進(jìn)一步的改進(jìn)
(4)僅對(duì)具有選擇性注意力的預(yù)訓(xùn)練模型進(jìn)行了實(shí)驗(yàn),微調(diào)步驟中將其應(yīng)用于現(xiàn)有模型
8.實(shí)驗(yàn)

http://aloenet.com.cn/news/32690.html

相關(guān)文章:

  • wordpress 滑塊驗(yàn)證碼搜索引擎優(yōu)化教材答案
  • wordpress在服務(wù)器上安裝插件上海谷歌seo推廣公司
  • 企業(yè)營銷型網(wǎng)站建設(shè)優(yōu)惠成人教育培訓(xùn)機(jī)構(gòu)
  • html5手機(jī)網(wǎng)站發(fā)布阿里云注冊域名
  • 運(yùn)濤網(wǎng)站建設(shè)南昌網(wǎng)站seo外包服務(wù)
  • 在什么網(wǎng)站做推廣最好鞍山seo公司
  • 哪個(gè)網(wǎng)站域名便宜seo報(bào)名在線咨詢
  • wordpress調(diào)用指定文章內(nèi)容seo優(yōu)化網(wǎng)站推廣全域營銷獲客公司
  • 網(wǎng)站建設(shè)書本信息網(wǎng)站搜索引擎優(yōu)化的步驟
  • 北京網(wǎng)站設(shè)計(jì)方案優(yōu)化品牌seo關(guān)鍵詞
  • 服裝小訂單接單平臺(tái)seo網(wǎng)站優(yōu)化推廣費(fèi)用
  • 網(wǎng)站游戲制作開發(fā)神秘網(wǎng)站
  • 建什么網(wǎng)站能百度收錄國際國內(nèi)新聞最新消息今天
  • 免費(fèi)php企業(yè)網(wǎng)站源碼關(guān)鍵詞優(yōu)化怎么做
  • 理財(cái)平臺(tái)網(wǎng)站建設(shè)交換鏈接營銷成功案例
  • 互聯(lián)網(wǎng)行業(yè)信息網(wǎng)站免費(fèi)b2b網(wǎng)站推廣渠道
  • wordpress圖片燈箱效果修改百度seo營銷推廣
  • 廣州做網(wǎng)站厲害的公司互聯(lián)網(wǎng)營銷師證書騙局
  • 簡單建設(shè)一個(gè)網(wǎng)站的過程長春網(wǎng)站seo公司
  • 免費(fèi)信息網(wǎng)站建設(shè)7個(gè)湖北seo網(wǎng)站推廣策略
  • 陜西網(wǎng)站建設(shè)通報(bào)網(wǎng)址搜索
  • 做購物網(wǎng)站 需要手續(xù)百度搜索廣告怎么投放
  • 020網(wǎng)站建設(shè)和維護(hù)費(fèi)用數(shù)據(jù)分析培訓(xùn)班
  • 做網(wǎng)站軟件html css百度灰色關(guān)鍵詞代做
  • 東莞做網(wǎng)站價(jià)格360網(wǎng)站推廣怎么做
  • 企業(yè)局域網(wǎng)游戲網(wǎng)站如何做限制自動(dòng)點(diǎn)擊器安卓
  • 哪里有學(xué)編程的培訓(xùn)班神馬seo教程
  • 寧晉網(wǎng)站建設(shè)代理價(jià)格深圳百度推廣優(yōu)化
  • 攝影網(wǎng)站建設(shè)廣東廣州疫情最新情況
  • 石家莊網(wǎng)站建設(shè)公司哪家好如何制作網(wǎng)頁鏈接