常見的網(wǎng)站類型濟(jì)南做seo的公司排名
構(gòu)建和改進(jìn)推理模型的方法與策略
本文描述了構(gòu)建推理模型的四種主要方法,以及我們?nèi)绾卧鰪?qiáng)大型語言模型(LLM)的推理能力。我希望這能為你提供有價值的見解,并幫助你了解這一領(lǐng)域快速發(fā)展的文獻(xiàn)和熱潮。
在2024年,LLM領(lǐng)域的專業(yè)化趨勢愈發(fā)明顯。除了預(yù)訓(xùn)練和微調(diào)之外,我們見證了從RAG到代碼助手等專門應(yīng)用的發(fā)展。我預(yù)計這種趨勢將在2025年進(jìn)一步加速,對特定領(lǐng)域和應(yīng)用程序的優(yōu)化將更加突出(即“專業(yè)化”)。
階段1至3是開發(fā)LLM的通用步驟。階段4則是針對特定應(yīng)用場景對LLM進(jìn)行專業(yè)化處理。
推理模型的發(fā)展就是這一專業(yè)化的體現(xiàn)之一。這意味著我們通過改進(jìn)使LLM在需要中間步驟解決復(fù)雜任務(wù)(如謎題、高級數(shù)學(xué)和編程挑戰(zhàn))方面表現(xiàn)得更好。然而,這種專業(yè)化并不能取代其他LLM應(yīng)用。因為將LLM轉(zhuǎn)變?yōu)橥评砟P鸵矔硪恍┤秉c,我將在后續(xù)內(nèi)容中討論這些問題。
為了讓你對以下內(nèi)容有一個初步的了解,在本文中將:
1.解釋“推理模型”的含義
2.討論推理模型的優(yōu)點和缺點
3.概述DeepSeek R1的方法論
4.描述構(gòu)建和改進(jìn)推理模型的四種主要方法
5.分享關(guān)于DeepSeek V3和R1發(fā)布后大語言模型領(lǐng)域的看法
6.提供在預(yù)算有限的情況下開發(fā)推理模型的建議
希望本文對您有用,隨著人工智能在今年繼續(xù)快速發(fā)展!
我們?nèi)绾味x“推理模型”?
如果您從事AI(或一般機(jī)器學(xué)習(xí))工作,您可能熟悉模糊且備受爭議的定義。術(shù)語“推理模型”也不例外。最終,某人會在論文中對其進(jìn)行正式定義,但在接下來的一篇論文中又會被重新定義。
在這篇文章中,我將“推理”定義為回答需要復(fù)雜多步驟生成的問題的過程,并包含中間步驟。例如,“法國的首都是什么?”這樣的事實性問題問答并不涉及推理。相反,像“如果火車以每小時60英里的速度行駛3個小時,它走了多遠(yuǎn)?”這樣的一道題則需要一些簡單的推理過程。比如,在得出答案之前,必須認(rèn)識到距離、速度和時間之間的關(guān)系。
一個普通的LLM可能只會提供簡短的答案(如圖左所示),而推理模型通常會包含揭示部分思維過程的中間步驟。(請注意,許多未專門開發(fā)用于推理任務(wù)的大語言模型也可以在答案中提供中間推理步驟。)大多數(shù)現(xiàn)代大型語言模型(LLM)能夠進(jìn)行基本的推理,并能回答諸如“如果一列火車以60英里/小時的速度行駛3小時,它會走多遠(yuǎn)?”這樣的問題。因此,今天當(dāng)我們提到推理模型時,通常指的是那些擅長更復(fù)雜的推理任務(wù)的LLM,例如解謎題、猜謎語和數(shù)學(xué)證明。
此外,當(dāng)今大多數(shù)被標(biāo)榜為推理模型的LLM在其響應(yīng)中包含一個“思維”或“思考”過程。LLM是否以及如何真正“思考”是另一個討論的話題。
在推理模型中的中間步驟可以以兩種方式出現(xiàn)。首先,它們可能明確地包含在響應(yīng)中,如前所述圖表所示。其次,一些推理LLM(例如OpenAI的o1)會進(jìn)行多次迭代,并且這些中間步驟不會顯示給用戶。
“推理”在兩個不同的層面使用:
1)通過多個中間步驟處理輸入并生成輸出;
2)作為對用戶響應(yīng)的一部分提供某種形式的推理。
我們何時應(yīng)該使用推理模型?
既然我們已經(jīng)定義了推理模型,我們現(xiàn)在可以進(jìn)入更有趣的部分:如何構(gòu)建和改進(jìn)LLM以進(jìn)行推理任務(wù)。然而,在深入技術(shù)細(xì)節(jié)之前,考慮實際需要推理模型的情況是很重要的。我們何時需要一個推理模型? 推理模型設(shè)計用于處理復(fù)雜任務(wù),如解謎、高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。然而,對于摘要生成、翻譯或基于知識的問題回答等較為簡單的任務(wù)而言,并不需要使用推理模型。事實上,為所有任務(wù)都使用推理模型可能會導(dǎo)致效率低下且成本高昂。例如,推理模型通常使用起來更昂貴,表述更為冗長,在某些情況下還可能因為“過度思考”而更容易出錯。在這里有一個簡單的原則適用:為任務(wù)選擇合適的工具(或類型的大型語言模型)。
推理模型的關(guān)鍵優(yōu)勢和局限性總結(jié)如下圖所示。
推理模型的關(guān)鍵優(yōu)勢和劣勢。
對DeepSeek訓(xùn)練流程的簡要概述
在下一節(jié)討論構(gòu)建和完善推理模型的四種主要方法之前,我想先簡要介紹DeepSeek R1管道,這是根據(jù)DeepSeek R1技術(shù)報告描述的。該報告既是一個有趣的案例研究,也是一個開發(fā)推理大型語言模型的設(shè)計藍(lán)圖。
需要注意的是,DeepSeek并沒有發(fā)布單一版本的R1推理模型,而是引入了三個不同的變體:DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill。
根據(jù)技術(shù)報告中的描述,我總結(jié)了這些模型的發(fā)展過程如下圖所示。
在下面的圖中:
DeepSeeks三種不同的推理模型的開發(fā)過程,這些模型在DeepSeek R1技術(shù)報告中有所討論。
接下來,讓我們簡要回顧一下上面圖表所示的過程。更多細(xì)節(jié)將在下一節(jié)中介紹,在那里我們將討論構(gòu)建和改進(jìn)推理模型的四種主要方法。
(1) DeepSeek-R1-Zero: 該模型基于2024年12月發(fā)布的671B預(yù)訓(xùn)練DeepSeek-V3基礎(chǔ)模型進(jìn)行開發(fā),研究團(tuán)隊通過強(qiáng)化學(xué)習(xí)(RL)對其進(jìn)行訓(xùn)練,并使用兩種類型的獎勵。這種方法被稱為“冷啟動”訓(xùn)練,因為它沒有包括通常作為人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的一部分的監(jiān)督微調(diào)(SFT)步驟。
(2) DeepSeek-R1: 這是DeepSeek的主要推理模型,在DeepSeek-R1-Zero的基礎(chǔ)上構(gòu)建而成。團(tuán)隊進(jìn)一步通過額外的SFT階段和更多的RL訓(xùn)練對其進(jìn)行改進(jìn),從而優(yōu)化了“冷啟動”的R1-Zero模型。
(3) DeepSeek-R1-Distill: 利用前一步驟生成的SFT數(shù)據(jù),DeepSeek團(tuán)隊對Qwen和Llama模型進(jìn)行了微調(diào)以增強(qiáng)其推理能力。雖然這并非傳統(tǒng)意義上的蒸餾過程,但該流程涉及使用較小規(guī)模的模型(如8B版、70B版的Llama以及1.5B至30B版的Qwen)來訓(xùn)練大型DeepSeek-R1 671B模型產(chǎn)生的輸出。
構(gòu)建和改進(jìn)推理模型的主要四種方法
在本節(jié)中,我將概述當(dāng)前用于提升LLM(大語言模型)推理能力并構(gòu)建類似DeepSeek-R1、OpenAI的o1 & o3等專用推理模型的關(guān)鍵技術(shù)。注意:o1 和 o3 的具體運(yùn)作方式目前外界尚不清楚,但據(jù)說它們結(jié)合了推理和訓(xùn)練技術(shù)。
1) 推理時間擴(kuò)展
提高大型語言模型(LLM)的推理能力(或一般能力)的一種方法是推理時間擴(kuò)展。這個術(shù)語可以有多種含義,但在這種情況下,它指的是在推理過程中增加計算資源以改善輸出質(zhì)量。
一個粗糙的類比是人類在解決復(fù)雜問題時,如果給予更多思考時間,往往會生成更好的回答。同樣地,我們可以應(yīng)用鼓勵 LLM 在生成答案時“思考”更多的技術(shù)。(雖然LLM是否真的能夠“思考”是一個不同的討論)
推理時間擴(kuò)展的一個直接方法就是巧妙的提示工程。一個經(jīng)典例子是_鏈?zhǔn)剿季S(CoT)提示法_,其中輸入提示中包括諸如 “逐步思考”之類的短語。這鼓勵模型在生成最終答案之前產(chǎn)生中間推理步驟,而這通常(但并非總是)會導(dǎo)致更復(fù)雜問題上的結(jié)果更加準(zhǔn)確。(需要注意的是,在處理如“法國的首都是什么”的簡單知識性問題時,這種方法是不合適的,這也是一條很好的規(guī)則來判斷某個推理模型是否適用于您的輸入查詢。)
**來自 2022 年《大型語言模型是零樣本推理者》論文
(https://arxiv.org/abs/2205.11916)的經(jīng)典 CoT 提示法示例。**上述CoT方法可以視為推理時的擴(kuò)展,因為它通過生成更多的輸出令牌使推理變得更昂貴。
另一種推理時擴(kuò)展的方法是使用投票和搜索策略。一個簡單的例子就是多數(shù)表決法,即讓大模型生成多個答案,并通過多數(shù)表決來選擇正確的答案。同樣地,我們也可以利用束搜索和其他搜索算法生成更好的響應(yīng)。
我強(qiáng)烈推薦我在《2024年值得關(guān)注的AI研究論文(第二部分)》一文中提到的論文——優(yōu)化LLM推理時計算資源分配的有效性可能超過擴(kuò)展模型參數(shù),以獲取有關(guān)這些不同策略的更多細(xì)節(jié)。
《DeepSeek R1技術(shù)報告》指出,其模型不使用推理時的擴(kuò)展。然而,這種技術(shù)通常在大模型之上以應(yīng)用程序?qū)拥男问綄崿F(xiàn),因此DeepSeek有可能在其應(yīng)用中使用這種方法。我懷疑OpenAI的o1和o3模型使用了推理時間擴(kuò)展,這可以解釋為什么它們相對于像GPT-4o這樣的模型來說相對昂貴。除了推理時間擴(kuò)展外,o1和o3很可能使用類似于DeepSeek R1所使用的強(qiáng)化學(xué)習(xí)(RL)管道進(jìn)行訓(xùn)練。更多關(guān)于強(qiáng)化學(xué)習(xí)的內(nèi)容請參見下面的兩個部分。
2) 純粹的強(qiáng)化學(xué)習(xí)(RL)
《DeepSeek R1論文》中我個人的一個亮點是,他們發(fā)現(xiàn)純粹的強(qiáng)化學(xué)習(xí)(RL)可以產(chǎn)生推理行為。讓我們更詳細(xì)地探討這意味著什么。
如前所述,DeepSeek開發(fā)了三種類型的R1模型。第一種是DeepSeek-R1-Zero,它是基于在2024年12月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練大語言模型DeepSeek-V3基礎(chǔ)模型構(gòu)建的。與典型的RL管道不同,在典型的RL管道中監(jiān)督微調(diào)(SFT)會先于RL進(jìn)行應(yīng)用,而DeepSeek-R1-Zero完全使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,并沒有初始的SFT階段,如下面的圖所示。
DeepSeek-R1-Zero模型的開發(fā)過程。
仍然,這種強(qiáng)化學(xué)習(xí)(RL)過程與常用的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)方法類似,通常用于調(diào)整大語言模型的偏好。
然而,如上所述,在DeepSeek-R1-Zero 中的關(guān)鍵區(qū)別在于他們跳過了用于指令微調(diào)的監(jiān)督微調(diào)(SFT)階段。這就是為什么他們稱其為“純粹”的RL。
對于獎勵機(jī)制,他們沒有使用基于人類偏好的訓(xùn)練獎勵模型,而是采用了兩種類型的獎勵:準(zhǔn)確性獎勵和格式化獎勵。
準(zhǔn)確性獎勵 使用LeetCode編譯器來驗證編程答案,并采用確定性系統(tǒng)評估數(shù)學(xué)回答。
格式化獎勵 依賴于大型語言模型裁判確?;貜?fù)遵循預(yù)期的格式,例如將推理步驟放在標(biāo)簽中。
令人驚訝的是,這種方法足以使大型語言模型發(fā)展出基本的推理能力。研究人員觀察到了一個“啊哈!”時刻,在這個時刻,盡管沒有被明確訓(xùn)練過這樣做,該模型開始在其響應(yīng)中生成推理痕跡,如下面的圖所示。
A figure from the DeepSeek R1 technical report (https://arxiv.org/abs/2501.12948) showing the emergence of the “Aha” moment.
雖然R1-Zero不是一款高性能的推理模型,但它確實展示了通過生成中間“思考”步驟來體現(xiàn)推理能力,如上圖所示。這證實了僅使用純粹的強(qiáng)化學(xué)習(xí)(RL)方法也可以開發(fā)出一個推理模型,并且DeepSeek團(tuán)隊是第一個展示這種方法(或至少公開發(fā)表這種方法)的團(tuán)隊。
3) 監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)(SFT + RL)
接下來,讓我們看看DeepSeek-R1的發(fā)展歷程,這是DeepSeek旗艦級推理模型,為構(gòu)建推理模型提供了藍(lán)圖。該模型在DeepSeek-R1-Zero的基礎(chǔ)上通過加入額外的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來提升其推理性能。
需要注意的是,在標(biāo)準(zhǔn)的RLHF管道中,通常會在強(qiáng)化學(xué)習(xí)之前包含一個監(jiān)督微調(diào)階段。OpenAI的o1可能也是使用類似的方法開發(fā)出來的。
DeepSeek-R1模型的發(fā)展過程。
如上圖所示,DeepSeek團(tuán)隊使用DeepSeek-R1-Zero生成了他們所謂的“冷啟動”SFT數(shù)據(jù)?!袄鋯印笔侵高@些數(shù)據(jù)是由未經(jīng)過任何監(jiān)督微調(diào)(SFT)訓(xùn)練的DeepSeek-R1-Zero產(chǎn)生的。使用這些冷啟動SFT數(shù)據(jù),DeepSeek然后通過指令微調(diào)訓(xùn)練模型,并隨后進(jìn)入另一個強(qiáng)化學(xué)習(xí)(RL)階段。這一RL階段保留了在DeepSeek-R1-Zero的RL過程中使用的相同準(zhǔn)確性和格式獎勵。然而,他們添加了一致性獎勵以防止語言混用現(xiàn)象的發(fā)生,即當(dāng)模型在一個回復(fù)中切換使用多種語言時的情況。
在完成RL階段后,又進(jìn)行了一輪SFT數(shù)據(jù)收集。在此階段,使用最新的模型檢查點生成了60萬條鏈?zhǔn)剿伎?#xff08;CoT)SFT示例,而額外的20萬個基于知識的SFT示例則是利用DeepSeek-V3基礎(chǔ)模型創(chuàng)建的。
這些共計60萬加20萬的SFT樣本隨后被用于另一輪RL。在這個階段,他們再次采用規(guī)則方法為數(shù)學(xué)和編程問題提供準(zhǔn)確性獎勵,而對于其他類型的問題,則使用人類偏好標(biāo)簽進(jìn)行訓(xùn)練。
最終的模型DeepSeek-R1相較于DeepSeek-R1-Zero有了顯著的性能提升,這得益于額外的SFT和RL階段,如下面的表格所示。
4) 純監(jiān)督微調(diào)(SFT)和蒸餾
到目前為止,我們已經(jīng)介紹了構(gòu)建和完善推理模型的三種關(guān)鍵方法:
1.推理時間擴(kuò)展,一種在不訓(xùn)練或修改底層模型的情況下提高推理能力的技術(shù)。
2.純粹的強(qiáng)化學(xué)習(xí)(RL),如DeepSeek-R1-Zero所示,證明了在沒有監(jiān)督微調(diào)的情況下推理可以作為學(xué)習(xí)行為出現(xiàn)。
3.監(jiān)督微調(diào)(SFT)加上RL,這導(dǎo)致了DeepSeek旗艦推理模型DeepSeek-R1的誕生。
那么還剩下什么呢?就是“蒸餾”模型。
令人驚訝的是,DeepSeek也發(fā)布了通過他們稱之為“蒸餾”的過程訓(xùn)練的小型模型。然而,在大型語言模型(LLM)的背景下,“蒸餾”并不一定遵循深度學(xué)習(xí)中傳統(tǒng)的知識蒸餾方法。
相反,在這里“蒸餾”指的是對較小的語言模型(例如Llama 8B、70B以及Qwen 2.5等模型[0.5B到32B])進(jìn)行指令微調(diào),這些小型語言模型由更大的LLM生成的SFT數(shù)據(jù)集進(jìn)行訓(xùn)練。具體來說,這里的大型LLM包括DeepSeek-V3和DeepSeek-R1的一個中間檢查點。事實上,在這個蒸餾過程中使用的SFT數(shù)據(jù)是與之前描述中用于訓(xùn)練DeepSeek-R1的數(shù)據(jù)相同的。
為了更清晰地解釋這一過程,我在下面的圖表中標(biāo)明了“蒸餾”部分。
DeepSeek-R1-Distill模型的發(fā)展過程。
他們?yōu)槭裁匆_發(fā)這些蒸餾后的模型呢?在我看來,主要有兩個關(guān)鍵原因:
1.較小的模型更加高效。這意味著它們運(yùn)行成本更低,而且可以在低端硬件上運(yùn)行,這對于許多研究人員和愛好者來說尤其有吸引力。
2.一個純粹監(jiān)督微調(diào)(SFT)的案例研究。這些蒸餾后的模型作為有趣的基準(zhǔn),展示了在沒有強(qiáng)化學(xué)習(xí)的情況下純監(jiān)督微調(diào)可以將模型提升到什么程度。
下表比較了這些蒸餾后模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能表現(xiàn)。
蒸餾模型與非蒸餾模型的基準(zhǔn)對比。DeepSeek-R1 技術(shù)報告中的注釋圖表(https://arxiv.org/abs/2501.12948)。
從上圖可以看出,蒸餾后的模型明顯弱于 DeepSeek-R1,但相對于 DeepSeek-R1-Zero 而言卻相當(dāng)強(qiáng)大,盡管其大小要小得多。此外值得一提的是,這些模型與 o1 mini 的性能對比也非常出色(我懷疑 o1-mini 本身可能也是一個類似的蒸餾版本)。
在本節(jié)的結(jié)論部分結(jié)束之前,還有一個有趣的比較值得提及。DeepSeek 團(tuán)隊測試了 DeepSeek-R1-Zero 中出現(xiàn)的突發(fā)推理行為是否也存在于較小規(guī)模的模型中。為此,他們直接將與 DeepSeek-R1-Zero 相同的純 RL 方法應(yīng)用于 Qwen-32B 進(jìn)行探究。該實驗的結(jié)果總結(jié)如下表所示,其中QwQ-32B-Preview是基于Qwen團(tuán)隊開發(fā)的Qwen 2.5 32B模型的一個參考推理模型(我認(rèn)為訓(xùn)練細(xì)節(jié)從未披露過)。這種比較提供了一些額外的見解,即純RL是否足以在比DeepSeek-R1-Zero小得多的模型中誘導(dǎo)出推理能力。
在較小的32B模型上進(jìn)行基準(zhǔn)測試比較蒸餾和RL。來自DeepSeek-R1技術(shù)報告中的注釋圖表(https://arxiv.org/abs/2501.12948)。
有趣的是,結(jié)果顯示對于較小的模型來說,蒸餾比純RL更有效。這與這樣一種觀點一致,即僅靠RL可能不足以在這一規(guī)模的模型中誘導(dǎo)出強(qiáng)大的推理能力,而基于高質(zhì)量推理數(shù)據(jù)的SFT策略可能會對小模型更為有效。
為了完整性,在表格中看到以下額外比較會很有用:
1.使用SFT+RL訓(xùn)練Qwen-32B(類似于DeepSeek-R1的開發(fā)方式)。這將有助于確定與純RL和純SFT相比,當(dāng)結(jié)合使用SFT時可以取得多少改進(jìn)。
2.僅通過SFT訓(xùn)練DeepSeek-V3(類似于蒸餾模型的創(chuàng)建方法),這樣可以直接比較RL+SFT與純SFT的效果。
結(jié)論
在本節(jié)中,我們探討了四種不同的策略用于構(gòu)建和改善推理模型:
1.推理時間縮放不需要額外的訓(xùn)練,但會增加推理成本,在用戶數(shù)量或查詢量增長時使得大規(guī)模部署更加昂貴。然而,它仍然是改進(jìn)已經(jīng)強(qiáng)大的模型性能的一種明智選擇。我強(qiáng)烈懷疑o1利用了推理時間縮放,這有助于解釋為什么與DeepSeek-R1相比,它的每令牌費用更高。
2.從研究角度來看,純強(qiáng)化學(xué)習(xí)(RL)很有意思,因為它能提供關(guān)于作為涌現(xiàn)行為的推理的一些見解。然而,在實際模型開發(fā)中,RL+SFT是更受歡迎的方法,因為這種方法可以生成更強(qiáng)的推理模型。我強(qiáng)烈懷疑o1也是使用了RL+SFT進(jìn)行訓(xùn)練。更加精確地說,我認(rèn)為o1從一個比DeepSeek-R1弱小的基礎(chǔ)模型開始,但通過RL+SFT和推理時間縮放來進(jìn)行彌補(bǔ)。
3.如上所述,RL+SFT是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1是一個很好的藍(lán)本,展示了如何做到這一點。
4.蒸餾是一種很有吸引力的方法,尤其是在創(chuàng)建更小、更高效的模型時尤為如此。然而,其限制在于蒸餾不能驅(qū)動創(chuàng)新或產(chǎn)生下一代的推理模型。例如,蒸餾總是依賴于一個現(xiàn)有的更強(qiáng)模型來生成監(jiān)督微調(diào)(SFT)數(shù)據(jù)。
我期待接下來看到的一個有趣方面是將RL+SFT(方法3)與推理時間縮放(方法1)結(jié)合使用。這很可能就是OpenAI o1正在做的事情,除了它可能是基于比DeepSeek-R1更弱的基礎(chǔ)模型,這也解釋了為什么DeepSeek-R1在性能上如此出色而同時保持相對較低的推理成本。
關(guān)于DeepSeek R1 的思考
令人著迷的一個收獲是純粹基于強(qiáng)化學(xué)習(xí)(RL)的行為推理是如何出現(xiàn)的。并且令人大為贊賞的是,DeepSeek在其模型下使用了一個寬松的開源MIT許可證進(jìn)行開源,這甚至比Meta的Llama模型的限制還要少。
與o1相比如何?
DeepSeek-R1是否優(yōu)于o1?我認(rèn)為兩者大致處于同一水平線上。然而,顯而易見的是,DeepSeek-R1在推理階段更加高效。這意味著DeepSeek可能更多地投入到了訓(xùn)練過程中,而OpenAI則可能更依賴于o1的推理時間擴(kuò)展。
話雖如此,由于OpenAI對o1披露的信息不多,因此直接比較兩者存在困難。例如:
-
o1是否也是一個專家混合模型(MoE)?
-
o1有多大?
-
o1僅僅是GPT-4o的一個稍微改進(jìn)版本,并且僅通過最小限度的強(qiáng)化學(xué)習(xí)和大量推理時間擴(kuò)展得到嗎?
在不了解這些細(xì)節(jié)的情況下,這種對比猶如將蘋果與橙子相比。
訓(xùn)練DeepSeek-R1的成本
另一個討論的話題是開發(fā)DeepSeek-R1所需的成本。有些人提到了大約600萬美元的培訓(xùn)成本,但他們可能混淆了DeepSeek-V3(去年十二月發(fā)布的基礎(chǔ)模型)和DeepSeek-R1之間的區(qū)別。
該估計值基于每GPU小時2美元以及完成DeepSeek-V3最終訓(xùn)練所需的GPU小時數(shù),這一數(shù)據(jù)最初是在2024年十二月討論的。
然而,DeepSeek團(tuán)隊從未公開過R1的確切GPU時長或開發(fā)成本,因此任何成本估算都只是純粹的猜測。無論如何,最終DeepSeek-R1是開放權(quán)重推理模型中的一個重要里程碑,其在推斷時的效率使其成為OpenAI的o1的一個有趣的替代選擇。
在有限預(yù)算下開發(fā)推理模型
開發(fā)一個像DeepSeek-R1這樣的推理模型可能需要數(shù)十萬到數(shù)百萬美元的資金,即使是從像DeepSeek-V3這樣的開源基礎(chǔ)模型開始。這可能會讓資金有限的研究人員或工程師感到沮喪。
好消息:蒸餾可以帶來很大的幫助
幸運(yùn)的是,模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek團(tuán)隊通過他們的R1蒸餾模型展示了這一點,這些模型雖然比DeepSeek-R1小得多,但推理性能卻非常強(qiáng)。然而,即使這種方法也不是完全便宜的。他們的蒸餾過程使用了80萬條SFT樣本,這需要大量的計算資源。
有趣的是,在DeepSeek-R1發(fā)布前幾天,我遇到了一篇關(guān)于Sky-T1的文章(https://novasky-ai.github.io/posts/sky-t1/),這是一個令人驚嘆的項目,一個小型團(tuán)隊僅使用17,000個SFT樣本就訓(xùn)練了一個開放權(quán)重的32B模型。總成本是多少?只有450美元,這比大多數(shù)AI會議的注冊費還要低。
這個例子表明,雖然大規(guī)模訓(xùn)練仍然很昂貴,但較小、有針對性的微調(diào)工作仍可以在極低的成本下取得令人印象深刻的結(jié)果。
圖片來自“Sky-T1:在450美元內(nèi)訓(xùn)練自己的O1預(yù)覽模型”文章,https://novasky-ai.github.io/posts/sky-t1/根據(jù)他們的基準(zhǔn)測試,Sky-T1 的性能大致與 o1 相當(dāng),這在考慮到其低訓(xùn)練成本的情況下令人印象深刻。
預(yù)算有限的純粹強(qiáng)化學(xué)習(xí):TinyZero
雖然 Sky-T1 專注于模型蒸餾,我也發(fā)現(xiàn)了一些有趣的“純 RL”領(lǐng)域的工作。一個值得注意的例子是 TinyZero,這是一個參數(shù)量為30億的小型模型,它復(fù)制了 DeepSeek-R1-Zero 的方法(順便說一下,它的訓(xùn)練成本不到 30 美元)。
令人驚訝的是,即使只有 30 億個參數(shù),TinyZero 也展現(xiàn)了一些自發(fā)的自我驗證能力,這支持了純粹通過 RL 方式在小模型中也可以產(chǎn)生推理這一觀點。
TinyZero 存儲庫提到,一份研究報告仍在進(jìn)行中,我肯定會密切關(guān)注進(jìn)一步的細(xì)節(jié)更新。
來自 TinyZero 存儲庫 (https://github.com/Jiayi-Pan/TinyZero) 的一個圖表,顯示模型具備自我驗證的能力。(與基礎(chǔ)模型相比其反應(yīng)將會更有趣。)
上述兩個項目表明,即使在有限的預(yù)算下,研究推理模型也是可能的。雖然兩種方法都復(fù)制了 DeepSeek-R1 的方法,一種專注于純 RL(TinyZero),另一種則專注純 SFT(Sky-T1),探索這些想法如何進(jìn)一步拓展會非常令人著迷。