當(dāng)前位置：首頁 > news >正文

常見的網(wǎng)站類型濟(jì)南做seo的公司排名

news 2025/7/6 13:08:53

常見的網(wǎng)站類型,濟(jì)南做seo的公司排名,造價信息網(wǎng),wordpress 好用的主題構(gòu)建和改進(jìn)推理模型的方法與策略本文描述了構(gòu)建推理模型的四種主要方法，以及我們?nèi)绾卧鰪?qiáng)大型語言模型（LLM）的推理能力。我希望這能為你提供有價值的見解，并幫助你了解這一領(lǐng)域快速發(fā)展的文獻(xiàn)和熱潮。在2024年，LLM…

在這里插入圖片描述

構(gòu)建和改進(jìn)推理模型的方法與策略

本文描述了構(gòu)建推理模型的四種主要方法，以及我們?nèi)绾卧鰪?qiáng)大型語言模型（LLM）的推理能力。我希望這能為你提供有價值的見解，并幫助你了解這一領(lǐng)域快速發(fā)展的文獻(xiàn)和熱潮。

在2024年，LLM領(lǐng)域的專業(yè)化趨勢愈發(fā)明顯。除了預(yù)訓(xùn)練和微調(diào)之外，我們見證了從RAG到代碼助手等專門應(yīng)用的發(fā)展。我預(yù)計這種趨勢將在2025年進(jìn)一步加速，對特定領(lǐng)域和應(yīng)用程序的優(yōu)化將更加突出（即“專業(yè)化”）。
請?zhí)砑訄D片描述

階段1至3是開發(fā)LLM的通用步驟。階段4則是針對特定應(yīng)用場景對LLM進(jìn)行專業(yè)化處理。

推理模型的發(fā)展就是這一專業(yè)化的體現(xiàn)之一。這意味著我們通過改進(jìn)使LLM在需要中間步驟解決復(fù)雜任務(wù)（如謎題、高級數(shù)學(xué)和編程挑戰(zhàn)）方面表現(xiàn)得更好。然而，這種專業(yè)化并不能取代其他LLM應(yīng)用。因為將LLM轉(zhuǎn)變?yōu)橥评砟Ｐ鸵矔硪恍┤秉c，我將在后續(xù)內(nèi)容中討論這些問題。

為了讓你對以下內(nèi)容有一個初步的了解，在本文中將：

1.解釋“推理模型”的含義
2.討論推理模型的優(yōu)點和缺點
3.概述DeepSeek R1的方法論
4.描述構(gòu)建和改進(jìn)推理模型的四種主要方法
5.分享關(guān)于DeepSeek V3和R1發(fā)布后大語言模型領(lǐng)域的看法
6.提供在預(yù)算有限的情況下開發(fā)推理模型的建議

希望本文對您有用，隨著人工智能在今年繼續(xù)快速發(fā)展！

我們?nèi)绾味x“推理模型”？

如果您從事AI（或一般機(jī)器學(xué)習(xí)）工作，您可能熟悉模糊且備受爭議的定義。術(shù)語“推理模型”也不例外。最終，某人會在論文中對其進(jìn)行正式定義，但在接下來的一篇論文中又會被重新定義。

在這篇文章中，我將“推理”定義為回答需要復(fù)雜多步驟生成的問題的過程，并包含中間步驟。例如，“法國的首都是什么？”這樣的事實性問題問答并不涉及推理。相反，像“如果火車以每小時60英里的速度行駛3個小時，它走了多遠(yuǎn)？”這樣的一道題則需要一些簡單的推理過程。比如，在得出答案之前，必須認(rèn)識到距離、速度和時間之間的關(guān)系。

請?zhí)砑訄D片描述

一個普通的LLM可能只會提供簡短的答案（如圖左所示），而推理模型通常會包含揭示部分思維過程的中間步驟。（請注意，許多未專門開發(fā)用于推理任務(wù)的大語言模型也可以在答案中提供中間推理步驟。）大多數(shù)現(xiàn)代大型語言模型（LLM）能夠進(jìn)行基本的推理，并能回答諸如“如果一列火車以60英里/小時的速度行駛3小時，它會走多遠(yuǎn)？”這樣的問題。因此，今天當(dāng)我們提到推理模型時，通常指的是那些擅長更復(fù)雜的推理任務(wù)的LLM，例如解謎題、猜謎語和數(shù)學(xué)證明。

此外，當(dāng)今大多數(shù)被標(biāo)榜為推理模型的LLM在其響應(yīng)中包含一個“思維”或“思考”過程。LLM是否以及如何真正“思考”是另一個討論的話題。

在推理模型中的中間步驟可以以兩種方式出現(xiàn)。首先，它們可能明確地包含在響應(yīng)中，如前所述圖表所示。其次，一些推理LLM（例如OpenAI的o1）會進(jìn)行多次迭代，并且這些中間步驟不會顯示給用戶。

“推理”在兩個不同的層面使用：
1）通過多個中間步驟處理輸入并生成輸出；
2）作為對用戶響應(yīng)的一部分提供某種形式的推理。

我們何時應(yīng)該使用推理模型？

既然我們已經(jīng)定義了推理模型，我們現(xiàn)在可以進(jìn)入更有趣的部分：如何構(gòu)建和改進(jìn)LLM以進(jìn)行推理任務(wù)。然而，在深入技術(shù)細(xì)節(jié)之前，考慮實際需要推理模型的情況是很重要的。我們何時需要一個推理模型？ 推理模型設(shè)計用于處理復(fù)雜任務(wù)，如解謎、高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。然而，對于摘要生成、翻譯或基于知識的問題回答等較為簡單的任務(wù)而言，并不需要使用推理模型。事實上，為所有任務(wù)都使用推理模型可能會導(dǎo)致效率低下且成本高昂。例如，推理模型通常使用起來更昂貴，表述更為冗長，在某些情況下還可能因為“過度思考”而更容易出錯。在這里有一個簡單的原則適用：為任務(wù)選擇合適的工具（或類型的大型語言模型）。

推理模型的關(guān)鍵優(yōu)勢和局限性總結(jié)如下圖所示。

推理模型的關(guān)鍵優(yōu)勢和劣勢。

對DeepSeek訓(xùn)練流程的簡要概述

在下一節(jié)討論構(gòu)建和完善推理模型的四種主要方法之前，我想先簡要介紹DeepSeek R1管道，這是根據(jù)DeepSeek R1技術(shù)報告描述的。該報告既是一個有趣的案例研究，也是一個開發(fā)推理大型語言模型的設(shè)計藍(lán)圖。

需要注意的是，DeepSeek并沒有發(fā)布單一版本的R1推理模型，而是引入了三個不同的變體：DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill。

根據(jù)技術(shù)報告中的描述，我總結(jié)了這些模型的發(fā)展過程如下圖所示。
在下面的圖中：

DeepSeeks三種不同的推理模型的開發(fā)過程，這些模型在DeepSeek R1技術(shù)報告中有所討論。

接下來，讓我們簡要回顧一下上面圖表所示的過程。更多細(xì)節(jié)將在下一節(jié)中介紹，在那里我們將討論構(gòu)建和改進(jìn)推理模型的四種主要方法。

(1) DeepSeek-R1-Zero: 該模型基于2024年12月發(fā)布的671B預(yù)訓(xùn)練DeepSeek-V3基礎(chǔ)模型進(jìn)行開發(fā)，研究團(tuán)隊通過強(qiáng)化學(xué)習(xí)（RL）對其進(jìn)行訓(xùn)練，并使用兩種類型的獎勵。這種方法被稱為“冷啟動”訓(xùn)練，因為它沒有包括通常作為人類反饋強(qiáng)化學(xué)習(xí)（RLHF）的一部分的監(jiān)督微調(diào)（SFT）步驟。

(2) DeepSeek-R1: 這是DeepSeek的主要推理模型，在DeepSeek-R1-Zero的基礎(chǔ)上構(gòu)建而成。團(tuán)隊進(jìn)一步通過額外的SFT階段和更多的RL訓(xùn)練對其進(jìn)行改進(jìn)，從而優(yōu)化了“冷啟動”的R1-Zero模型。

(3) DeepSeek-R1-Distill: 利用前一步驟生成的SFT數(shù)據(jù)，DeepSeek團(tuán)隊對Qwen和Llama模型進(jìn)行了微調(diào)以增強(qiáng)其推理能力。雖然這并非傳統(tǒng)意義上的蒸餾過程，但該流程涉及使用較小規(guī)模的模型（如8B版、70B版的Llama以及1.5B至30B版的Qwen）來訓(xùn)練大型DeepSeek-R1 671B模型產(chǎn)生的輸出。

構(gòu)建和改進(jìn)推理模型的主要四種方法

在本節(jié)中，我將概述當(dāng)前用于提升LLM（大語言模型）推理能力并構(gòu)建類似DeepSeek-R1、OpenAI的o1 & o3等專用推理模型的關(guān)鍵技術(shù)。注意：o1 和 o3 的具體運(yùn)作方式目前外界尚不清楚，但據(jù)說它們結(jié)合了推理和訓(xùn)練技術(shù)。

1) 推理時間擴(kuò)展

提高大型語言模型（LLM）的推理能力（或一般能力）的一種方法是推理時間擴(kuò)展。這個術(shù)語可以有多種含義，但在這種情況下，它指的是在推理過程中增加計算資源以改善輸出質(zhì)量。

一個粗糙的類比是人類在解決復(fù)雜問題時，如果給予更多思考時間，往往會生成更好的回答。同樣地，我們可以應(yīng)用鼓勵 LLM 在生成答案時“思考”更多的技術(shù)。（雖然LLM是否真的能夠“思考”是一個不同的討論）

推理時間擴(kuò)展的一個直接方法就是巧妙的提示工程。一個經(jīng)典例子是_鏈?zhǔn)剿季S（CoT）提示法_，其中輸入提示中包括諸如 “逐步思考”之類的短語。這鼓勵模型在生成最終答案之前產(chǎn)生中間推理步驟，而這通常（但并非總是）會導(dǎo)致更復(fù)雜問題上的結(jié)果更加準(zhǔn)確。（需要注意的是，在處理如“法國的首都是什么”的簡單知識性問題時，這種方法是不合適的，這也是一條很好的規(guī)則來判斷某個推理模型是否適用于您的輸入查詢。）

請?zhí)砑訄D片描述

**來自 2022 年《大型語言模型是零樣本推理者》論文
（https://arxiv.org/abs/2205.11916）的經(jīng)典 CoT 提示法示例。**上述CoT方法可以視為推理時的擴(kuò)展，因為它通過生成更多的輸出令牌使推理變得更昂貴。

另一種推理時擴(kuò)展的方法是使用投票和搜索策略。一個簡單的例子就是多數(shù)表決法，即讓大模型生成多個答案，并通過多數(shù)表決來選擇正確的答案。同樣地，我們也可以利用束搜索和其他搜索算法生成更好的響應(yīng)。

我強(qiáng)烈推薦我在《2024年值得關(guān)注的AI研究論文（第二部分）》一文中提到的論文——優(yōu)化LLM推理時計算資源分配的有效性可能超過擴(kuò)展模型參數(shù)，以獲取有關(guān)這些不同策略的更多細(xì)節(jié)。

請?zhí)砑訄D片描述

《DeepSeek R1技術(shù)報告》指出，其模型不使用推理時的擴(kuò)展。然而，這種技術(shù)通常在大模型之上以應(yīng)用程序?qū)拥男问綄崿F(xiàn)，因此DeepSeek有可能在其應(yīng)用中使用這種方法。我懷疑OpenAI的o1和o3模型使用了推理時間擴(kuò)展，這可以解釋為什么它們相對于像GPT-4o這樣的模型來說相對昂貴。除了推理時間擴(kuò)展外，o1和o3很可能使用類似于DeepSeek R1所使用的強(qiáng)化學(xué)習(xí)（RL）管道進(jìn)行訓(xùn)練。更多關(guān)于強(qiáng)化學(xué)習(xí)的內(nèi)容請參見下面的兩個部分。

2) 純粹的強(qiáng)化學(xué)習(xí)（RL）

《DeepSeek R1論文》中我個人的一個亮點是，他們發(fā)現(xiàn)純粹的強(qiáng)化學(xué)習(xí)（RL）可以產(chǎn)生推理行為。讓我們更詳細(xì)地探討這意味著什么。

如前所述，DeepSeek開發(fā)了三種類型的R1模型。第一種是DeepSeek-R1-Zero，它是基于在2024年12月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練大語言模型DeepSeek-V3基礎(chǔ)模型構(gòu)建的。與典型的RL管道不同，在典型的RL管道中監(jiān)督微調(diào)（SFT）會先于RL進(jìn)行應(yīng)用，而DeepSeek-R1-Zero完全使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，并沒有初始的SFT階段，如下面的圖所示。

請?zhí)砑訄D片描述

DeepSeek-R1-Zero模型的開發(fā)過程。
仍然，這種強(qiáng)化學(xué)習(xí)（RL）過程與常用的基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）方法類似，通常用于調(diào)整大語言模型的偏好。
然而，如上所述，在DeepSeek-R1-Zero 中的關(guān)鍵區(qū)別在于他們跳過了用于指令微調(diào)的監(jiān)督微調(diào)（SFT）階段。這就是為什么他們稱其為“純粹”的RL。

對于獎勵機(jī)制，他們沒有使用基于人類偏好的訓(xùn)練獎勵模型，而是采用了兩種類型的獎勵：準(zhǔn)確性獎勵和格式化獎勵。

準(zhǔn)確性獎勵 使用LeetCode編譯器來驗證編程答案，并采用確定性系統(tǒng)評估數(shù)學(xué)回答。

格式化獎勵 依賴于大型語言模型裁判確?；貜?fù)遵循預(yù)期的格式，例如將推理步驟放在標(biāo)簽中。

令人驚訝的是，這種方法足以使大型語言模型發(fā)展出基本的推理能力。研究人員觀察到了一個“啊哈！”時刻，在這個時刻，盡管沒有被明確訓(xùn)練過這樣做，該模型開始在其響應(yīng)中生成推理痕跡，如下面的圖所示。

來自DeepSeek R1技術(shù)報告（https://arxiv.org/abs/2501.12948）顯示“啊哈”時刻出現(xiàn)的圖表。

A figure from the DeepSeek R1 technical report (https://arxiv.org/abs/2501.12948) showing the emergence of the “Aha” moment.
雖然R1-Zero不是一款高性能的推理模型，但它確實展示了通過生成中間“思考”步驟來體現(xiàn)推理能力，如上圖所示。這證實了僅使用純粹的強(qiáng)化學(xué)習(xí)（RL）方法也可以開發(fā)出一個推理模型，并且DeepSeek團(tuán)隊是第一個展示這種方法（或至少公開發(fā)表這種方法）的團(tuán)隊。

3) 監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)（SFT + RL）

接下來，讓我們看看DeepSeek-R1的發(fā)展歷程，這是DeepSeek旗艦級推理模型，為構(gòu)建推理模型提供了藍(lán)圖。該模型在DeepSeek-R1-Zero的基礎(chǔ)上通過加入額外的監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）來提升其推理性能。

需要注意的是，在標(biāo)準(zhǔn)的RLHF管道中，通常會在強(qiáng)化學(xué)習(xí)之前包含一個監(jiān)督微調(diào)階段。OpenAI的o1可能也是使用類似的方法開發(fā)出來的。

請?zhí)砑訄D片描述

DeepSeek-R1模型的發(fā)展過程。

如上圖所示，DeepSeek團(tuán)隊使用DeepSeek-R1-Zero生成了他們所謂的“冷啟動”SFT數(shù)據(jù)?！袄鋯印笔侵高@些數(shù)據(jù)是由未經(jīng)過任何監(jiān)督微調(diào)（SFT）訓(xùn)練的DeepSeek-R1-Zero產(chǎn)生的。使用這些冷啟動SFT數(shù)據(jù)，DeepSeek然后通過指令微調(diào)訓(xùn)練模型，并隨后進(jìn)入另一個強(qiáng)化學(xué)習(xí)（RL）階段。這一RL階段保留了在DeepSeek-R1-Zero的RL過程中使用的相同準(zhǔn)確性和格式獎勵。然而，他們添加了一致性獎勵以防止語言混用現(xiàn)象的發(fā)生，即當(dāng)模型在一個回復(fù)中切換使用多種語言時的情況。

在完成RL階段后，又進(jìn)行了一輪SFT數(shù)據(jù)收集。在此階段，使用最新的模型檢查點生成了60萬條鏈?zhǔn)剿伎?#xff08;CoT）SFT示例，而額外的20萬個基于知識的SFT示例則是利用DeepSeek-V3基礎(chǔ)模型創(chuàng)建的。

這些共計60萬加20萬的SFT樣本隨后被用于另一輪RL。在這個階段，他們再次采用規(guī)則方法為數(shù)學(xué)和編程問題提供準(zhǔn)確性獎勵，而對于其他類型的問題，則使用人類偏好標(biāo)簽進(jìn)行訓(xùn)練。

最終的模型DeepSeek-R1相較于DeepSeek-R1-Zero有了顯著的性能提升，這得益于額外的SFT和RL階段，如下面的表格所示。

請?zhí)砑訄D片描述

4) 純監(jiān)督微調(diào)（SFT）和蒸餾

到目前為止，我們已經(jīng)介紹了構(gòu)建和完善推理模型的三種關(guān)鍵方法：

1.推理時間擴(kuò)展，一種在不訓(xùn)練或修改底層模型的情況下提高推理能力的技術(shù)。
2.純粹的強(qiáng)化學(xué)習(xí)（RL），如DeepSeek-R1-Zero所示，證明了在沒有監(jiān)督微調(diào)的情況下推理可以作為學(xué)習(xí)行為出現(xiàn)。
3.監(jiān)督微調(diào)（SFT）加上RL，這導(dǎo)致了DeepSeek旗艦推理模型DeepSeek-R1的誕生。

那么還剩下什么呢？就是“蒸餾”模型。

令人驚訝的是，DeepSeek也發(fā)布了通過他們稱之為“蒸餾”的過程訓(xùn)練的小型模型。然而，在大型語言模型（LLM）的背景下，“蒸餾”并不一定遵循深度學(xué)習(xí)中傳統(tǒng)的知識蒸餾方法。

相反，在這里“蒸餾”指的是對較小的語言模型（例如Llama 8B、70B以及Qwen 2.5等模型[0.5B到32B]）進(jìn)行指令微調(diào)，這些小型語言模型由更大的LLM生成的SFT數(shù)據(jù)集進(jìn)行訓(xùn)練。具體來說，這里的大型LLM包括DeepSeek-V3和DeepSeek-R1的一個中間檢查點。事實上，在這個蒸餾過程中使用的SFT數(shù)據(jù)是與之前描述中用于訓(xùn)練DeepSeek-R1的數(shù)據(jù)相同的。

為了更清晰地解釋這一過程，我在下面的圖表中標(biāo)明了“蒸餾”部分。

請?zhí)砑訄D片描述

DeepSeek-R1-Distill模型的發(fā)展過程。

他們?yōu)槭裁匆_發(fā)這些蒸餾后的模型呢？在我看來，主要有兩個關(guān)鍵原因：
1.較小的模型更加高效。這意味著它們運(yùn)行成本更低，而且可以在低端硬件上運(yùn)行，這對于許多研究人員和愛好者來說尤其有吸引力。

2.一個純粹監(jiān)督微調(diào)（SFT）的案例研究。這些蒸餾后的模型作為有趣的基準(zhǔn)，展示了在沒有強(qiáng)化學(xué)習(xí)的情況下純監(jiān)督微調(diào)可以將模型提升到什么程度。

下表比較了這些蒸餾后模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能表現(xiàn)。

請?zhí)砑訄D片描述

蒸餾模型與非蒸餾模型的基準(zhǔn)對比。DeepSeek-R1 技術(shù)報告中的注釋圖表（https://arxiv.org/abs/2501.12948）。

從上圖可以看出，蒸餾后的模型明顯弱于 DeepSeek-R1，但相對于 DeepSeek-R1-Zero 而言卻相當(dāng)強(qiáng)大，盡管其大小要小得多。此外值得一提的是，這些模型與 o1 mini 的性能對比也非常出色（我懷疑 o1-mini 本身可能也是一個類似的蒸餾版本）。

在本節(jié)的結(jié)論部分結(jié)束之前，還有一個有趣的比較值得提及。DeepSeek 團(tuán)隊測試了 DeepSeek-R1-Zero 中出現(xiàn)的突發(fā)推理行為是否也存在于較小規(guī)模的模型中。為此，他們直接將與 DeepSeek-R1-Zero 相同的純 RL 方法應(yīng)用于 Qwen-32B 進(jìn)行探究。該實驗的結(jié)果總結(jié)如下表所示，其中QwQ-32B-Preview是基于Qwen團(tuán)隊開發(fā)的Qwen 2.5 32B模型的一個參考推理模型（我認(rèn)為訓(xùn)練細(xì)節(jié)從未披露過）。這種比較提供了一些額外的見解，即純RL是否足以在比DeepSeek-R1-Zero小得多的模型中誘導(dǎo)出推理能力。

在較小的32B模型上進(jìn)行基準(zhǔn)測試比較蒸餾和RL。來自DeepSeek-R1技術(shù)報告中的注釋圖表（https://arxiv.org/abs/2501.12948）。

有趣的是，結(jié)果顯示對于較小的模型來說，蒸餾比純RL更有效。這與這樣一種觀點一致，即僅靠RL可能不足以在這一規(guī)模的模型中誘導(dǎo)出強(qiáng)大的推理能力，而基于高質(zhì)量推理數(shù)據(jù)的SFT策略可能會對小模型更為有效。

為了完整性，在表格中看到以下額外比較會很有用：

1.使用SFT+RL訓(xùn)練Qwen-32B（類似于DeepSeek-R1的開發(fā)方式）。這將有助于確定與純RL和純SFT相比，當(dāng)結(jié)合使用SFT時可以取得多少改進(jìn)。

2.僅通過SFT訓(xùn)練DeepSeek-V3（類似于蒸餾模型的創(chuàng)建方法），這樣可以直接比較RL+SFT與純SFT的效果。

結(jié)論

在本節(jié)中，我們探討了四種不同的策略用于構(gòu)建和改善推理模型：
1.推理時間縮放不需要額外的訓(xùn)練，但會增加推理成本，在用戶數(shù)量或查詢量增長時使得大規(guī)模部署更加昂貴。然而，它仍然是改進(jìn)已經(jīng)強(qiáng)大的模型性能的一種明智選擇。我強(qiáng)烈懷疑o1利用了推理時間縮放，這有助于解釋為什么與DeepSeek-R1相比，它的每令牌費用更高。
2.從研究角度來看，純強(qiáng)化學(xué)習(xí)（RL）很有意思，因為它能提供關(guān)于作為涌現(xiàn)行為的推理的一些見解。然而，在實際模型開發(fā)中，RL+SFT是更受歡迎的方法，因為這種方法可以生成更強(qiáng)的推理模型。我強(qiáng)烈懷疑o1也是使用了RL+SFT進(jìn)行訓(xùn)練。更加精確地說，我認(rèn)為o1從一個比DeepSeek-R1弱小的基礎(chǔ)模型開始，但通過RL+SFT和推理時間縮放來進(jìn)行彌補(bǔ)。

3.如上所述，RL+SFT是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1是一個很好的藍(lán)本，展示了如何做到這一點。

4.蒸餾是一種很有吸引力的方法，尤其是在創(chuàng)建更小、更高效的模型時尤為如此。然而，其限制在于蒸餾不能驅(qū)動創(chuàng)新或產(chǎn)生下一代的推理模型。例如，蒸餾總是依賴于一個現(xiàn)有的更強(qiáng)模型來生成監(jiān)督微調(diào)（SFT）數(shù)據(jù)。

我期待接下來看到的一個有趣方面是將RL+SFT（方法3）與推理時間縮放（方法1）結(jié)合使用。這很可能就是OpenAI o1正在做的事情，除了它可能是基于比DeepSeek-R1更弱的基礎(chǔ)模型，這也解釋了為什么DeepSeek-R1在性能上如此出色而同時保持相對較低的推理成本。

關(guān)于DeepSeek R1 的思考

令人著迷的一個收獲是純粹基于強(qiáng)化學(xué)習(xí)（RL）的行為推理是如何出現(xiàn)的。并且令人大為贊賞的是，DeepSeek在其模型下使用了一個寬松的開源MIT許可證進(jìn)行開源，這甚至比Meta的Llama模型的限制還要少。

與o1相比如何？

DeepSeek-R1是否優(yōu)于o1？我認(rèn)為兩者大致處于同一水平線上。然而，顯而易見的是，DeepSeek-R1在推理階段更加高效。這意味著DeepSeek可能更多地投入到了訓(xùn)練過程中，而OpenAI則可能更依賴于o1的推理時間擴(kuò)展。

話雖如此，由于OpenAI對o1披露的信息不多，因此直接比較兩者存在困難。例如：

o1是否也是一個專家混合模型（MoE）？
o1有多大？
o1僅僅是GPT-4o的一個稍微改進(jìn)版本，并且僅通過最小限度的強(qiáng)化學(xué)習(xí)和大量推理時間擴(kuò)展得到嗎？

在不了解這些細(xì)節(jié)的情況下，這種對比猶如將蘋果與橙子相比。

訓(xùn)練DeepSeek-R1的成本

另一個討論的話題是開發(fā)DeepSeek-R1所需的成本。有些人提到了大約600萬美元的培訓(xùn)成本，但他們可能混淆了DeepSeek-V3（去年十二月發(fā)布的基礎(chǔ)模型）和DeepSeek-R1之間的區(qū)別。

該估計值基于每GPU小時2美元以及完成DeepSeek-V3最終訓(xùn)練所需的GPU小時數(shù)，這一數(shù)據(jù)最初是在2024年十二月討論的。

然而，DeepSeek團(tuán)隊從未公開過R1的確切GPU時長或開發(fā)成本，因此任何成本估算都只是純粹的猜測。無論如何，最終DeepSeek-R1是開放權(quán)重推理模型中的一個重要里程碑，其在推斷時的效率使其成為OpenAI的o1的一個有趣的替代選擇。

在有限預(yù)算下開發(fā)推理模型

開發(fā)一個像DeepSeek-R1這樣的推理模型可能需要數(shù)十萬到數(shù)百萬美元的資金，即使是從像DeepSeek-V3這樣的開源基礎(chǔ)模型開始。這可能會讓資金有限的研究人員或工程師感到沮喪。

好消息：蒸餾可以帶來很大的幫助

幸運(yùn)的是，模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek團(tuán)隊通過他們的R1蒸餾模型展示了這一點，這些模型雖然比DeepSeek-R1小得多，但推理性能卻非常強(qiáng)。然而，即使這種方法也不是完全便宜的。他們的蒸餾過程使用了80萬條SFT樣本，這需要大量的計算資源。

有趣的是，在DeepSeek-R1發(fā)布前幾天，我遇到了一篇關(guān)于Sky-T1的文章（https://novasky-ai.github.io/posts/sky-t1/），這是一個令人驚嘆的項目，一個小型團(tuán)隊僅使用17,000個SFT樣本就訓(xùn)練了一個開放權(quán)重的32B模型。總成本是多少？只有450美元，這比大多數(shù)AI會議的注冊費還要低。

這個例子表明，雖然大規(guī)模訓(xùn)練仍然很昂貴，但較小、有針對性的微調(diào)工作仍可以在極低的成本下取得令人印象深刻的結(jié)果。

來自"Sky-T1：在450美元內(nèi)訓(xùn)練自己的O1預(yù)覽模型"文章的圖表

圖片來自“Sky-T1：在450美元內(nèi)訓(xùn)練自己的O1預(yù)覽模型”文章，https://novasky-ai.github.io/posts/sky-t1/根據(jù)他們的基準(zhǔn)測試，Sky-T1 的性能大致與 o1 相當(dāng)，這在考慮到其低訓(xùn)練成本的情況下令人印象深刻。

預(yù)算有限的純粹強(qiáng)化學(xué)習(xí)：TinyZero

雖然 Sky-T1 專注于模型蒸餾，我也發(fā)現(xiàn)了一些有趣的“純 RL”領(lǐng)域的工作。一個值得注意的例子是 TinyZero，這是一個參數(shù)量為30億的小型模型，它復(fù)制了 DeepSeek-R1-Zero 的方法（順便說一下，它的訓(xùn)練成本不到 30 美元）。

令人驚訝的是，即使只有 30 億個參數(shù)，TinyZero 也展現(xiàn)了一些自發(fā)的自我驗證能力，這支持了純粹通過 RL 方式在小模型中也可以產(chǎn)生推理這一觀點。

TinyZero 存儲庫提到，一份研究報告仍在進(jìn)行中，我肯定會密切關(guān)注進(jìn)一步的細(xì)節(jié)更新。

請?zhí)砑訄D片描述

來自 TinyZero 存儲庫 (https://github.com/Jiayi-Pan/TinyZero) 的一個圖表，顯示模型具備自我驗證的能力。（與基礎(chǔ)模型相比其反應(yīng)將會更有趣。）

上述兩個項目表明，即使在有限的預(yù)算下，研究推理模型也是可能的。雖然兩種方法都復(fù)制了 DeepSeek-R1 的方法，一種專注于純 RL（TinyZero），另一種則專注純 SFT（Sky-T1），探索這些想法如何進(jìn)一步拓展會非常令人著迷。

查看全文

http://aloenet.com.cn/news/42955.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

常見的網(wǎng)站類型濟(jì)南做seo的公司排名

構(gòu)建和改進(jìn)推理模型的方法與策略

我們?nèi)绾味x“推理模型”？

我們何時應(yīng)該使用推理模型？

對DeepSeek訓(xùn)練流程的簡要概述

構(gòu)建和改進(jìn)推理模型的主要四種方法

1) 推理時間擴(kuò)展

2) 純粹的強(qiáng)化學(xué)習(xí)（RL）

3) 監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)（SFT + RL）

4) 純監(jiān)督微調(diào)（SFT）和蒸餾

結(jié)論

關(guān)于DeepSeek R1 的思考

相關(guān)文章：