當(dāng)前位置：首頁 > news >正文

如何在網(wǎng)站后臺做網(wǎng)頁代運營公司

news 2025/7/1 23:53:41

如何在網(wǎng)站后臺做網(wǎng)頁,代運營公司,wordpress首頁加外鏈,中國十大網(wǎng)站建設(shè)企業(yè)Step1:脈絡(luò) 微調(diào)技術(shù)從最早期的全模型微調(diào)演變成如今的各種參數(shù)高效微調(diào)(PEFT)方法，背后是為了應(yīng)對大模型中的計算、存儲和數(shù)據(jù)適應(yīng)性的挑戰(zhàn) 1.為什么有微調(diào)？ 深度學(xué)習(xí)模型越來越大，尤其是 NLP 中的預(yù)訓(xùn)練語言模型(BERT, GPT)系列。如果從…

Step1:脈絡(luò)

微調(diào)技術(shù)從最早期的全模型微調(diào)演變成如今的各種參數(shù)高效微調(diào)(PEFT)方法，背后是為了應(yīng)對大模型中的計算、存儲和數(shù)據(jù)適應(yīng)性的挑戰(zhàn)

1.為什么有微調(diào)？

深度學(xué)習(xí)模型越來越大，尤其是 NLP 中的預(yù)訓(xùn)練語言模型(BERT, GPT)系列。如果從零開始訓(xùn)練，既耗時又昂貴。

所以人們開始轉(zhuǎn)向預(yù)訓(xùn)練-微調(diào) 范式，在大規(guī)模無監(jiān)督語料庫上進行模型的預(yù)訓(xùn)練，然后在特定任務(wù)上微調(diào)模型。

核心需求：

減少從零開始訓(xùn)練的計算成本和時間
利用已經(jīng)學(xué)到的通用語言知識，通過小規(guī)模的任務(wù)特定數(shù)據(jù)快速適配模型

2.脈絡(luò)

1. 微調(diào)技術(shù)時間線

全量微調(diào)(2018, BERT Google 提出) → Adapter 微調(diào)(2019, Houlsby et al 提出) → P-Tuning(2021, 清華大學(xué)) → LoRA(2021, 微軟研究院) → Prefix-Tuning(2021, Li et al 提出) → IA3 (2022, 微軟和 HuggingFace 提出)

2.LoRA 的脈絡(luò)

LoRA(2021)
- 解決：通過低秩分解，只微調(diào)少量參數(shù)，大幅減少計算和存儲成本，尤其適合大模型生成任務(wù)
- 不足：固定秩的設(shè)計限制了在復(fù)雜多任務(wù)或多層次任務(wù)中的表現(xiàn)力
QLoRA(2023)
- 解決：雖然 LoRA 減少了參數(shù)量，但是顯存占用依舊較高。QLoRA 通過 4bit 量化，降低了顯存需求
- 不足：量化帶來了一定的性能損失，特別是在精度要求極高的任務(wù)上
LoHA(2022)
- 解決：LoRA 固定秩的方式難以應(yīng)對多任務(wù)學(xué)習(xí)或復(fù)雜層次結(jié)構(gòu)的需求。LoHA 通過層次化的低秩分解，適應(yīng)不同層次的任務(wù)需求。這樣增強了多任務(wù)和復(fù)雜上下文中的適應(yīng)性。
- 不足：增加了計算復(fù)雜度，設(shè)計相對復(fù)雜
LoKr(2023)
- 解決：LoRA 適用于線性任務(wù)，處理非線性特征時表現(xiàn)不足。LoKr 結(jié)合了核方法，使模型能夠更好的捕捉復(fù)雜的非線性關(guān)系。提高了模型在非線性特征場景中的表現(xiàn)，如高級 NLP 和 CV 任務(wù)中
- 不足：引入了額外的計算成本和復(fù)雜性
AdaLoRA(2023)
- 解決：LoRA 固定秩限制了模型對不同層的適應(yīng)能力。AdaLoRA 通過動態(tài)調(diào)整每一層的秩，減少了不必要的計算，提高了關(guān)鍵層的標(biāo)下能力，在資源有限的環(huán)境下表現(xiàn)優(yōu)異
- 不足：引入了更高的實現(xiàn)復(fù)雜度和超參數(shù)調(diào)整要求
Delta-LoRA 和 Prefix Tuning(2021-2022)
- 解決：LoRA 在生成任務(wù)的上下文適應(yīng)性不足。Delta-LoRA 和 Prefix-Tuning 通過引入前綴或序列信息的適應(yīng)，曾慶了對上下文的捕捉能力，提升了生成任務(wù)(對話、故事生成)中的質(zhì)量
- 不足：推理時成本增加

7.總結(jié)

LoRA 的初衷是為了解決大規(guī)模模型微調(diào)中的高計算和顯存開銷問題。
QLoRA 進一步通過量化解決了顯存占用問題，使得大模型能夠在低資源設(shè)備上運行。
LoHA 和 LoKr 針對復(fù)雜任務(wù)和非線性特征的學(xué)習(xí)需求進行了擴展，增強了模型的適應(yīng)性。
AdaLoRA 通過自適應(yīng)調(diào)整秩大小，優(yōu)化了層次間的資源分配，進一步提高了效率和靈活性。
Delta-LoRA 和 Prefix Tuning 則主要提升了生成任務(wù)的上下文捕捉能力。

查看全文

http://aloenet.com.cn/news/31007.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡