必應(yīng)網(wǎng)站收錄在哪seo推廣顧問(wèn)
note
- 可以從更為本質(zhì)的方案出發(fā),通過(guò)分析強(qiáng)化學(xué)習(xí)的方法,看看如何實(shí)現(xiàn)o1,但其中的核心就是在于,如何有效地初始化策略、設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、實(shí)現(xiàn)高效的搜索算法以及利用強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)和優(yōu)化。
文章目錄
- note
- 一、Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
- 二、QwQ-32B-Preview模型
- 三、綜述:Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
- 1. 策略初始化
- 2. 獎(jiǎng)勵(lì)設(shè)計(jì)
- 3. 搜索
- 4. 學(xué)習(xí)
- 四、o1類相關(guān)項(xiàng)目
- 相關(guān)數(shù)據(jù)和模型資源
- Reference
一、Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
開(kāi)源了在技術(shù)報(bào)告Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems中使用的訓(xùn)練數(shù)據(jù)和模型。
- 訓(xùn)練數(shù)據(jù)包括3.9K數(shù)學(xué)領(lǐng)域和1K混合領(lǐng)域(代碼、科學(xué)和自然語(yǔ)言謎題)的長(zhǎng)程思維鏈。其中3.9K數(shù)學(xué)領(lǐng)域數(shù)據(jù)有2.3K來(lái)自DeepSeek-R1,1.6K來(lái)自于QwQ(經(jīng)過(guò)我們的模型改寫(xiě)成與R1同樣的格式,詳情參考論文);1K混合領(lǐng)域數(shù)據(jù)均來(lái)自于R1。
- 模型在選取的基準(zhǔn)測(cè)試集達(dá)到了與o1-preview整體接近的效果。
通過(guò)使用模仿,探索,再自我改進(jìn)的方式,我們發(fā)現(xiàn):
- 通過(guò)使用少量高質(zhì)量的示范數(shù)據(jù)進(jìn)行訓(xùn)練,可以有效引導(dǎo)長(zhǎng)時(shí)間思考的能力。一旦建立,這種能力似乎能夠自然地跨領(lǐng)域泛化。
- 數(shù)學(xué)領(lǐng)域的示范數(shù)據(jù)特別適合提升大語(yǔ)言模型的長(zhǎng)時(shí)間思考能力,而包含較長(zhǎng)思考過(guò)程的數(shù)據(jù)在提升模型解決復(fù)雜問(wèn)題的能力方面顯得尤為有效。
- 與大語(yǔ)言模型在快速思考模式下生成的正式回應(yīng)不同,思考過(guò)程通常以靈活、非正式的方式表達(dá),旨在引導(dǎo)模型走向正確的解決路徑。
- 通過(guò)探索和自我改進(jìn),可以有效增強(qiáng)慢思考能力,而離線學(xué)習(xí)方法的改進(jìn)似乎主要發(fā)生在初始迭代中,尤其是在處理復(fù)雜任務(wù)時(shí)。
MATH-OAI | AIME2024 | GPQA | |
---|---|---|---|
o1-preview | 85.5 | 44.6 | 72.3 |
SKILL-2 (3.9K imitate) | 90.2 | 46.7 | 55.1 |
SKILL-2 (1.1K imitate + 1.8K explore) | 89.8 | 40 | 56.1 |
二、QwQ-32B-Preview模型
試用鏈接:https://huggingface.co/spaces/Qwen/QwQ-32B-preview
模型鏈接:https://huggingface.co/Qwen/QwQ-32B-Preview
官方博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/
GPQA: 測(cè)試模型在常識(shí)問(wèn)答和通用知識(shí)理解上的能力。
AIME: 檢驗(yàn)?zāi)P蛯?duì)高難度數(shù)學(xué)競(jìng)賽題目的解題能力。
MATH-500: 測(cè)評(píng)模型在廣泛數(shù)學(xué)領(lǐng)域中解決復(fù)雜問(wèn)題的表現(xiàn)。
LiveCodeBench: 測(cè)試模型生成、調(diào)試和實(shí)現(xiàn)代碼的編程能力。
可以看到,QwQ-32B-preview綜合表現(xiàn)優(yōu)異,并且各項(xiàng)能力比較均衡,沒(méi)有“偏科”情況。在MATH-500測(cè)評(píng)中甚至超過(guò)了OpenAI的2個(gè)o1模型。作為一個(gè)推理模型,QwQ-32B-preview的綜合表現(xiàn)已全面超越常規(guī)模型,如GPT-4o和Claude 3.5 Sonnet。
三、綜述:Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》(https://arxiv.org/abs/2412.14135)
一個(gè)是采用強(qiáng)化學(xué)習(xí)這條路,所包括的四個(gè)關(guān)鍵組件,策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索和學(xué)習(xí)。
1. 策略初始化
一個(gè)是策略初始化,策略初始化使模型具備基本推理行為,能夠有效探索復(fù)雜問(wèn)題的解空間。預(yù)訓(xùn)練和指令微調(diào)是策略初始化的兩個(gè)主要階段。預(yù)訓(xùn)練通過(guò)大規(guī)模文本語(yǔ)料庫(kù)學(xué)習(xí)基本的語(yǔ)言理解和推理能力;指令微調(diào)則將預(yù)訓(xùn)練的語(yǔ)言模型轉(zhuǎn)化為面向任務(wù)的代理。
2. 獎(jiǎng)勵(lì)設(shè)計(jì)
一個(gè)是獎(jiǎng)勵(lì)設(shè)計(jì),獎(jiǎng)勵(lì)設(shè)計(jì)為搜索和學(xué)習(xí)提供指導(dǎo)信號(hào)。過(guò)程獎(jiǎng)勵(lì)模型(PRM)比結(jié)果獎(jiǎng)勵(lì)模型(ORM)更適合復(fù)雜的推理任務(wù),因?yàn)樗粌H獎(jiǎng)勵(lì)最終結(jié)果,還獎(jiǎng)勵(lì)中間步驟。也可以將稀疏的結(jié)果獎(jiǎng)勵(lì)轉(zhuǎn)化為密集的過(guò)程獎(jiǎng)勵(lì)。
3. 搜索
一個(gè)是搜索,搜索在訓(xùn)練和測(cè)試階段都起著重要作用。訓(xùn)練時(shí)搜索生成高質(zhì)量的訓(xùn)練數(shù)據(jù),測(cè)試時(shí)搜索通過(guò)迭代改進(jìn)模型的策略。樹(shù)搜索算法如蒙特卡羅樹(shù)搜索(MCTS)和束搜索(Beam Search)在生成高質(zhì)量解決方案方面表現(xiàn)出色。
4. 學(xué)習(xí)
一個(gè)是學(xué)習(xí),學(xué)習(xí)利用搜索生成的數(shù)據(jù)進(jìn)行策略改進(jìn)。策略梯度方法和行為克隆是兩種主要的學(xué)習(xí)方法。策略梯度方法如近端策略優(yōu)化(PPO)和直接策略優(yōu)化(DPO)通過(guò)梯度上升更新策略,行為克隆則通過(guò)監(jiān)督學(xué)習(xí)逼近專家策略。
四、o1類相關(guān)項(xiàng)目
如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker,但這些模型尚未開(kāi)源
- g1可能是最早嘗試重新實(shí)現(xiàn)o1的項(xiàng)目,采用的方法是提示工程。提示大型語(yǔ)言模型自我反思并提出多種解決方案來(lái)克隆o1的行為。
- Thinking Claude的工作方式與g1類似,它通過(guò)更復(fù)雜和細(xì)粒度的動(dòng)作提示大型語(yǔ)言模型,如問(wèn)題分析和進(jìn)度跟蹤。g1和思考克洛德都能重塑大型語(yǔ)言模型的行為,使其類似于o1,但尚未在推理基準(zhǔn)測(cè)試中驗(yàn)證的提示。
- Open-o1提供了一個(gè)安全函數(shù)訓(xùn)練(SFT)數(shù)據(jù)集,其中每個(gè)回應(yīng)都包含長(zhǎng)長(zhǎng)的上下文。但目前尚不清楚這些數(shù)據(jù)來(lái)自何處,可能來(lái)自人類專家或一個(gè)強(qiáng)大的大型語(yǔ)言模型。開(kāi)放-o1發(fā)現(xiàn),在的數(shù)據(jù)集上訓(xùn)練 llama-3-8b 和 qwen-7b 不僅能夠塑造模型回應(yīng)的風(fēng)格以模仿o1,還能提高模型在推理基準(zhǔn)測(cè)試上的表現(xiàn)。
- o1 Journey在第一部分通過(guò)束搜索生成的樹(shù)狀數(shù)據(jù)被遍歷,特定節(jié)點(diǎn)由GPT-4進(jìn)行精煉,然后用于監(jiān)督式微調(diào)。論文中呈現(xiàn)的例子突出了模型的自我反思能力,這來(lái)自于GPT-4的精煉。第1部分采用的方法可以描述為專家迭代,其中SFT應(yīng)用于通過(guò)搜索生成的數(shù)據(jù)。第1部分還將o1-mini注釋的PRM與數(shù)學(xué)牧羊人進(jìn)行了比較。在一篇2024年的研究中,發(fā)現(xiàn)o1-mini的性能優(yōu)于Math-Shepherd。在第二部分引入了一種截然不同的方法。第一部分側(cè)重于強(qiáng)化學(xué)習(xí),而第二部分則嘗試蒸餾o1-mini。盡管o1-mini隱藏了思維鏈(CoT)并且只輸出CoT的摘要,第二部分則嘗試通過(guò)提示o1-mini來(lái)增強(qiáng)摘要,從而恢復(fù)隱藏的CoT。通過(guò)蒸餾,發(fā)現(xiàn)在AIME上Qwen-72B的性能優(yōu)于o1-preview。然而,這并不意味著蒸餾使得學(xué)生模型能夠超越教師模型,因?yàn)閛1-mini在AIME上也超越了o1-preview。
- Open-Reasoner的框架類似于AlphaGo,利用強(qiáng)化學(xué)習(xí)來(lái)提升模型性能。在測(cè)試階段,采用蒙特卡洛樹(shù)搜索(MCTS)來(lái)確定最優(yōu)解。這個(gè)搜索算法僅在測(cè)試期間應(yīng)用,而訓(xùn)練數(shù)據(jù)則是通過(guò)當(dāng)前策略進(jìn)行采樣得到的。此外,采用了與Math-Shepherd類似的方法來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型。
- Slow Thinking with LLMs與o1 Journey類似,第一部分與Open-Reasoner類似,結(jié)合了強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)搜索。但與開(kāi)放式推理器不同的是,它在訓(xùn)練期間采用了DPO算法而不是PPO算法。在測(cè)試階段,它還采用MCTS算法進(jìn)行搜索。第2部分從QwQ和Deepseek-R1蒸餾出知識(shí),并嘗試了兩種強(qiáng)化學(xué)習(xí)方法:DPO和SFT,使用來(lái)自拒絕采樣的數(shù)據(jù)進(jìn)行訓(xùn)練。發(fā)現(xiàn),通過(guò)從QwQ和Deepseek-R1中蒸餾成千上萬(wàn)個(gè)例子,可以在具有挑戰(zhàn)性的推理任務(wù)上顯著提高性能,而基于蒸餾的強(qiáng)化學(xué)習(xí)可以帶來(lái)進(jìn)一步的改進(jìn)。Marco-o1整合了Open-o1的數(shù)據(jù)和模型自身生成的數(shù)據(jù),通過(guò)MCTS算法進(jìn)行SFT訓(xùn)練。
- Marco-o1展示了在每一步MCTS過(guò)程后提示模型進(jìn)行自我反思,增強(qiáng)了搜索的有效性。
- o1-coder嘗試在代碼生成上重新實(shí)現(xiàn)o1。訓(xùn)練一個(gè)生成器來(lái)生成測(cè)試用例以提供結(jié)果獎(jiǎng)勵(lì)。有了結(jié)果獎(jiǎng)勵(lì),使用MCTS算法生成代碼解決方案,然后用于通過(guò)SFT改進(jìn)策略模型。按照Wang等人(2024c)的方法訓(xùn)練了一個(gè)PRM,該方法隨著策略的改進(jìn)而更新。
相關(guān)數(shù)據(jù)和模型資源
STILL-1: https://arxiv.org/abs/2411.11694
STILL-2: https://arxiv.org/abs/2412.09413
Github倉(cāng)庫(kù)(內(nèi)含數(shù)據(jù)模型等相關(guān)資源): https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
Reference
[1] OpenAI o1復(fù)現(xiàn)——清華大學(xué)提出 ReST-MCTS*
[2] OpenAI o1復(fù)現(xiàn)(數(shù)據(jù)蒸餾)的一點(diǎn)點(diǎn)心得
[3] 類O1復(fù)現(xiàn)項(xiàng)目數(shù)據(jù)和模型開(kāi)源啦
[4] 兩個(gè)值得一讀的技術(shù)總結(jié):OpenAI o1模型復(fù)現(xiàn)復(fù)現(xiàn)思想及多模態(tài)大模型用于數(shù)學(xué)推理
[5] 《A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges》多模態(tài)LLM在數(shù)學(xué)推理上應(yīng)用:https://arxiv.org/abs/2412.11936