国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

門戶網(wǎng)站內容公眾號推廣費用一般多少

門戶網(wǎng)站內容,公眾號推廣費用一般多少,蘇州市城鄉(xiāng)建設局網(wǎng)站,邢臺貼吧123文章目錄 Megatron-LM數(shù)據(jù)并行模型并行張量并行流水線并行 3D并行 Megatron-LM Megatron是當前大模型訓練時經(jīng)常使用的一種分布式并行框架,它通過采用DP,TP,PP等來加速模型的訓練,反正就是一個字,好。 大模型在訓練的時候,顯存占…

文章目錄

  • Megatron-LM
    • 數(shù)據(jù)并行
    • 模型并行
      • 張量并行
      • 流水線并行
    • 3D并行


Megatron-LM

Megatron是當前大模型訓練時經(jīng)常使用的一種分布式并行框架,它通過采用DP,TP,PP等來加速模型的訓練,反正就是一個字,好。
大模型在訓練的時候,顯存占用是非常大的,比如一個175B的模型,假設模型參數(shù)用FP32表示,即4Byte,那逛模型參數(shù)就要700G,梯度700G,Adam兩個動量1400G,很明顯,裝都裝不下,所以采用這些并行技術使得它可以在有限的資源下進行訓練。

補充:Adam優(yōu)化器:
主要是用來動態(tài)調整學習率和梯度更新的方向,每一次更新的時候需要保存其一階矩和二階矩,其中一階矩是梯度的平均值,二階矩是梯度的平方,主要用來動態(tài)調整學習率。一階矩和二階矩分別表示為m和v,其相對SGD訓練更加穩(wěn)定。每一次更新的時候,都需要依賴上一次的計算出的一階矩和二階矩,也就是每一個參數(shù)都對對應一個一階矩和二階矩。

數(shù)據(jù)并行

假設有N張卡,每一張卡都保存一個模型的副本,現(xiàn)在可以將一個batch的數(shù)據(jù)分割為多個mini-batch,然后分發(fā)給每一個模型副本,進行前向傳播,并計算損失和梯度,然后通過All-Reduce操作進行通信和廣播,對每一個GPU計算的梯度進行規(guī)約(同步加平均),然后將梯度分發(fā)給每一個GPU,每張卡獨立更新,單獨更新模型參數(shù),此時由于更新的梯度相同,模型的初始參數(shù)相同,經(jīng)過更新后,每一個GPU上模型的參數(shù)也相同。
但是這種數(shù)據(jù)并行有哪些限制呢?
第一個是可以使用的GPU數(shù)量受限于batch的大小,假設batch是64,那你最多也只能用64張卡了。
另一個就是GPU利用率可能拉不滿,如果batch的數(shù)量固定式512,你GPU太多,分發(fā)給每一個GPU的數(shù)據(jù)量太小,那GPU 更新塊,但是通信頻率也就增加了,可能會限制訓練速度。
在這里插入圖片描述

所有 GPU 必須一起等到梯度計算完成,才能開始 all-reduce,否則會造成阻塞卡頓。 數(shù)據(jù)并行最適合模型較小、計算量大、batch size 較大時使用。模型較大或 GPU 太多時要考慮混合并行或 ZeRO 分布式技術。 All-Reduce 是一種通信操作,由 NCCL / MPI / Gloo 等通信庫負責實現(xiàn)。它不是庫,而是庫提供的功能

模型并行

梯度累積:
主要是用來模仿大batch進行更新的操作,因為大batch更新往往更見穩(wěn)定,但是受限于顯存,所以可以用梯度累積的方式,當累積到固定數(shù)量的batch之后再進行優(yōu)化器更新,它通過將多個小 batch 的梯度累加,然后在累積到設定的步數(shù)后進行一次更新,從而 模擬了大 batch 的梯度平均效果。

激活檢查點:
主要是用來緩解激活值對顯存的占用壓力,因為按照反向傳播公式,每一個參數(shù)更新時,都需要前一層的激活值,這樣的話,每一次更新的時候就需要存儲每一個節(jié)點的激活值,對顯存的占用太高,所以就采用梯度檢查點的方式,每隔一定的步數(shù)保存激活值,兩個激活值之間的沒有保存的激活值,通過前向傳播再算出來,這也就是用時間換空間了,總的來說,現(xiàn)在所占用的空間復雜度降為 Q ( N ) Q(\sqrt{N}) Q(N ?),相當于在更新的時候再做了一次前向傳播。
這也是為什么模型在模型在訓練的時候,不考慮激活值占用顯存的問題,因為它可以通過技術原因繞過去。
在這里插入圖片描述

張量并行

如果一個GPU裝不下一整個模型,那么就可以對模型進行拆分,相當于橫著或者豎著來一刀,一般來說,對于大矩陣的乘積計算,我們可以將其分成多個小矩陣的乘積和加和,根據(jù)拆分方式的不同可以分為行并行和列并行,一般來說,列并行更好一些,因為在計算激活值的時候不需要先進行通信。通信的原因還是GELU是非線性函數(shù),需要根據(jù)全局的信息進行計算。
在這里插入圖片描述
行并行:
在這里插入圖片描述
列并行:
在這里插入圖片描述
在這里插入圖片描述

流水線并行

流水線并行通過將模型按網(wǎng)絡層劃分為多組,每一組在一個GPU上。
目前主流的流水線并行方法包括Gpipe和PipeDream,降低空泡率。Megatron用的時Visual pipeline.1F1B,一前向一反向。
實際上流水線并行和張量并行是正交的,可以同時存在。

3D并行

在這里插入圖片描述
3D并行就是混合數(shù)據(jù)并行DP,張量并行TP和流水線并行PP。四路張量,四路流水線,2路數(shù)據(jù)

http://aloenet.com.cn/news/36714.html

相關文章:

  • 華為云建站和阿里云建站區(qū)別搜外滴滴友鏈
  • 云虛擬主機怎么做網(wǎng)站太原模板建站定制網(wǎng)站
  • 淄博著名網(wǎng)站開發(fā)方法年度關鍵詞
  • 揭陽做網(wǎng)站哪個好搜索引擎優(yōu)化是指什么
  • 如何做網(wǎng)站編輯 沒技術媒體吧軟文平臺
  • php網(wǎng)站開發(fā)員工資邵陽做網(wǎng)站的公司
  • 網(wǎng)站建設教程app今日新聞事件
  • 沒有網(wǎng)站怎么做淘寶客seo優(yōu)化技術培訓
  • 大冶建設局網(wǎng)站優(yōu)化設計六年級上冊語文答案
  • 怎么不花錢做網(wǎng)站專業(yè)營銷推廣團隊
  • 杭州亞運會閉幕式安卓手機優(yōu)化大師官方下載
  • 鼎湖網(wǎng)站建設啥都能看的瀏覽器
  • 杭州微網(wǎng)站開發(fā)先做后付費的代運營
  • 中視頻自媒體平臺注冊seo中心
  • 廈門外貿(mào)商城網(wǎng)站建設seo運營做什么
  • 網(wǎng)站地圖怎么做XML網(wǎng)站網(wǎng)上推廣
  • 網(wǎng)站開發(fā)建設方案書嵌入式培訓
  • jsp網(wǎng)站開發(fā)教學上海培訓機構有哪些
  • 通遼網(wǎng)站建設公司百度移動點擊排名軟件
  • 做網(wǎng)站的工資高嗎?谷歌商店paypal下載官網(wǎng)
  • 線切割加工東莞網(wǎng)站建設技術支持百度業(yè)務范圍
  • 書簽制作手工搜索引擎優(yōu)化工作
  • 網(wǎng)站怎么做站內美化代運營公司哪家好一些
  • 凡科網(wǎng)之前做的網(wǎng)站在哪看寧波seo整站優(yōu)化
  • 網(wǎng)站建設unohacha傳播易廣告投放平臺
  • 企業(yè)網(wǎng)站建設設計需要什么網(wǎng)站seo公司哪家好
  • 做視頻網(wǎng)站如何賺錢企業(yè)網(wǎng)站設計思路
  • 普斯泰網(wǎng)站建設百度搜索指數(shù)和資訊指數(shù)
  • 網(wǎng)站描述標簽怎么寫技術培訓學校機構
  • 網(wǎng)站建設要程序員嗎直接下載app