當(dāng)前位置：首頁(yè) > news >正文

必應(yīng)網(wǎng)站收錄在哪seo推廣顧問(wèn)

news 2025/7/7 16:21:09

必應(yīng)網(wǎng)站收錄在哪,seo推廣顧問(wèn),欽州網(wǎng)站網(wǎng)站建設(shè),farfetch 購(gòu)物網(wǎng)站note 可以從更為本質(zhì)的方案出發(fā)，通過(guò)分析強(qiáng)化學(xué)習(xí)的方法，看看如何實(shí)現(xiàn)o1，但其中的核心就是在于，如何有效地初始化策略、設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、實(shí)現(xiàn)高效的搜索算法以及利用強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)和優(yōu)化。文章目錄 note一、Imitate, Explore, …

note

可以從更為本質(zhì)的方案出發(fā)，通過(guò)分析強(qiáng)化學(xué)習(xí)的方法，看看如何實(shí)現(xiàn)o1，但其中的核心就是在于，如何有效地初始化策略、設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、實(shí)現(xiàn)高效的搜索算法以及利用強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)和優(yōu)化。

文章目錄

note
一、Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
二、QwQ-32B-Preview模型
三、綜述：Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
- 1. 策略初始化
- 2. 獎(jiǎng)勵(lì)設(shè)計(jì)
- 3. 搜索
- 4. 學(xué)習(xí)
四、o1類相關(guān)項(xiàng)目
相關(guān)數(shù)據(jù)和模型資源
Reference

一、Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

開(kāi)源了在技術(shù)報(bào)告Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems中使用的訓(xùn)練數(shù)據(jù)和模型。

訓(xùn)練數(shù)據(jù)包括3.9K數(shù)學(xué)領(lǐng)域和1K混合領(lǐng)域（代碼、科學(xué)和自然語(yǔ)言謎題）的長(zhǎng)程思維鏈。其中3.9K數(shù)學(xué)領(lǐng)域數(shù)據(jù)有2.3K來(lái)自DeepSeek-R1，1.6K來(lái)自于QwQ（經(jīng)過(guò)我們的模型改寫(xiě)成與R1同樣的格式，詳情參考論文）；1K混合領(lǐng)域數(shù)據(jù)均來(lái)自于R1。
模型在選取的基準(zhǔn)測(cè)試集達(dá)到了與o1-preview整體接近的效果。

通過(guò)使用模仿，探索，再自我改進(jìn)的方式，我們發(fā)現(xiàn)：

通過(guò)使用少量高質(zhì)量的示范數(shù)據(jù)進(jìn)行訓(xùn)練，可以有效引導(dǎo)長(zhǎng)時(shí)間思考的能力。一旦建立，這種能力似乎能夠自然地跨領(lǐng)域泛化。
數(shù)學(xué)領(lǐng)域的示范數(shù)據(jù)特別適合提升大語(yǔ)言模型的長(zhǎng)時(shí)間思考能力，而包含較長(zhǎng)思考過(guò)程的數(shù)據(jù)在提升模型解決復(fù)雜問(wèn)題的能力方面顯得尤為有效。
與大語(yǔ)言模型在快速思考模式下生成的正式回應(yīng)不同，思考過(guò)程通常以靈活、非正式的方式表達(dá)，旨在引導(dǎo)模型走向正確的解決路徑。
通過(guò)探索和自我改進(jìn)，可以有效增強(qiáng)慢思考能力，而離線學(xué)習(xí)方法的改進(jìn)似乎主要發(fā)生在初始迭代中，尤其是在處理復(fù)雜任務(wù)時(shí)。

	MATH-OAI	AIME2024	GPQA
o1-preview	85.5	44.6	72.3
SKILL-2 (3.9K imitate)	90.2	46.7	55.1
SKILL-2 (1.1K imitate + 1.8K explore)	89.8	40	56.1

二、QwQ-32B-Preview模型

試用鏈接：https://huggingface.co/spaces/Qwen/QwQ-32B-preview
模型鏈接：https://huggingface.co/Qwen/QwQ-32B-Preview
官方博客：https://qwenlm.github.io/zh/blog/qwq-32b-preview/

在這里插入圖片描述

GPQA: 測(cè)試模型在常識(shí)問(wèn)答和通用知識(shí)理解上的能力。
AIME: 檢驗(yàn)?zāi)Ｐ蛯?duì)高難度數(shù)學(xué)競(jìng)賽題目的解題能力。
MATH-500: 測(cè)評(píng)模型在廣泛數(shù)學(xué)領(lǐng)域中解決復(fù)雜問(wèn)題的表現(xiàn)。
LiveCodeBench: 測(cè)試模型生成、調(diào)試和實(shí)現(xiàn)代碼的編程能力。

可以看到，QwQ-32B-preview綜合表現(xiàn)優(yōu)異，并且各項(xiàng)能力比較均衡，沒(méi)有“偏科”情況。在MATH-500測(cè)評(píng)中甚至超過(guò)了OpenAI的2個(gè)o1模型。作為一個(gè)推理模型，QwQ-32B-preview的綜合表現(xiàn)已全面超越常規(guī)模型，如GPT-4o和Claude 3.5 Sonnet。

三、綜述：Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》(https://arxiv.org/abs/2412.14135)
在這里插入圖片描述
一個(gè)是采用強(qiáng)化學(xué)習(xí)這條路，所包括的四個(gè)關(guān)鍵組件，策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索和學(xué)習(xí)。

1. 策略初始化

一個(gè)是策略初始化，策略初始化使模型具備基本推理行為，能夠有效探索復(fù)雜問(wèn)題的解空間。預(yù)訓(xùn)練和指令微調(diào)是策略初始化的兩個(gè)主要階段。預(yù)訓(xùn)練通過(guò)大規(guī)模文本語(yǔ)料庫(kù)學(xué)習(xí)基本的語(yǔ)言理解和推理能力；指令微調(diào)則將預(yù)訓(xùn)練的語(yǔ)言模型轉(zhuǎn)化為面向任務(wù)的代理。
在這里插入圖片描述

2. 獎(jiǎng)勵(lì)設(shè)計(jì)

一個(gè)是獎(jiǎng)勵(lì)設(shè)計(jì)，獎(jiǎng)勵(lì)設(shè)計(jì)為搜索和學(xué)習(xí)提供指導(dǎo)信號(hào)。過(guò)程獎(jiǎng)勵(lì)模型（PRM）比結(jié)果獎(jiǎng)勵(lì)模型（ORM）更適合復(fù)雜的推理任務(wù)，因?yàn)樗粌H獎(jiǎng)勵(lì)最終結(jié)果，還獎(jiǎng)勵(lì)中間步驟。也可以將稀疏的結(jié)果獎(jiǎng)勵(lì)轉(zhuǎn)化為密集的過(guò)程獎(jiǎng)勵(lì)。
在這里插入圖片描述

3. 搜索

一個(gè)是搜索，搜索在訓(xùn)練和測(cè)試階段都起著重要作用。訓(xùn)練時(shí)搜索生成高質(zhì)量的訓(xùn)練數(shù)據(jù)，測(cè)試時(shí)搜索通過(guò)迭代改進(jìn)模型的策略。樹(shù)搜索算法如蒙特卡羅樹(shù)搜索（MCTS）和束搜索（Beam Search）在生成高質(zhì)量解決方案方面表現(xiàn)出色。
在這里插入圖片描述

4. 學(xué)習(xí)

一個(gè)是學(xué)習(xí)，學(xué)習(xí)利用搜索生成的數(shù)據(jù)進(jìn)行策略改進(jìn)。策略梯度方法和行為克隆是兩種主要的學(xué)習(xí)方法。策略梯度方法如近端策略優(yōu)化（PPO）和直接策略優(yōu)化（DPO）通過(guò)梯度上升更新策略，行為克隆則通過(guò)監(jiān)督學(xué)習(xí)逼近專家策略。
在這里插入圖片描述

四、o1類相關(guān)項(xiàng)目

如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker，但這些模型尚未開(kāi)源
在這里插入圖片描述

g1可能是最早嘗試重新實(shí)現(xiàn)o1的項(xiàng)目，采用的方法是提示工程。提示大型語(yǔ)言模型自我反思并提出多種解決方案來(lái)克隆o1的行為。
Thinking Claude的工作方式與g1類似，它通過(guò)更復(fù)雜和細(xì)粒度的動(dòng)作提示大型語(yǔ)言模型，如問(wèn)題分析和進(jìn)度跟蹤。g1和思考克洛德都能重塑大型語(yǔ)言模型的行為，使其類似于o1，但尚未在推理基準(zhǔn)測(cè)試中驗(yàn)證的提示。
Open-o1提供了一個(gè)安全函數(shù)訓(xùn)練（SFT）數(shù)據(jù)集，其中每個(gè)回應(yīng)都包含長(zhǎng)長(zhǎng)的上下文。但目前尚不清楚這些數(shù)據(jù)來(lái)自何處，可能來(lái)自人類專家或一個(gè)強(qiáng)大的大型語(yǔ)言模型。開(kāi)放-o1發(fā)現(xiàn)，在的數(shù)據(jù)集上訓(xùn)練 llama-3-8b 和 qwen-7b 不僅能夠塑造模型回應(yīng)的風(fēng)格以模仿o1，還能提高模型在推理基準(zhǔn)測(cè)試上的表現(xiàn)。
o1 Journey在第一部分通過(guò)束搜索生成的樹(shù)狀數(shù)據(jù)被遍歷，特定節(jié)點(diǎn)由GPT-4進(jìn)行精煉，然后用于監(jiān)督式微調(diào)。論文中呈現(xiàn)的例子突出了模型的自我反思能力，這來(lái)自于GPT-4的精煉。第1部分采用的方法可以描述為專家迭代，其中SFT應(yīng)用于通過(guò)搜索生成的數(shù)據(jù)。第1部分還將o1-mini注釋的PRM與數(shù)學(xué)牧羊人進(jìn)行了比較。在一篇2024年的研究中，發(fā)現(xiàn)o1-mini的性能優(yōu)于Math-Shepherd。在第二部分引入了一種截然不同的方法。第一部分側(cè)重于強(qiáng)化學(xué)習(xí)，而第二部分則嘗試蒸餾o1-mini。盡管o1-mini隱藏了思維鏈（CoT）并且只輸出CoT的摘要，第二部分則嘗試通過(guò)提示o1-mini來(lái)增強(qiáng)摘要，從而恢復(fù)隱藏的CoT。通過(guò)蒸餾，發(fā)現(xiàn)在AIME上Qwen-72B的性能優(yōu)于o1-preview。然而，這并不意味著蒸餾使得學(xué)生模型能夠超越教師模型，因?yàn)閛1-mini在AIME上也超越了o1-preview。
Open-Reasoner的框架類似于AlphaGo，利用強(qiáng)化學(xué)習(xí)來(lái)提升模型性能。在測(cè)試階段，采用蒙特卡洛樹(shù)搜索（MCTS）來(lái)確定最優(yōu)解。這個(gè)搜索算法僅在測(cè)試期間應(yīng)用，而訓(xùn)練數(shù)據(jù)則是通過(guò)當(dāng)前策略進(jìn)行采樣得到的。此外，采用了與Math-Shepherd類似的方法來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型。
Slow Thinking with LLMs與o1 Journey類似，第一部分與Open-Reasoner類似，結(jié)合了強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)搜索。但與開(kāi)放式推理器不同的是，它在訓(xùn)練期間采用了DPO算法而不是PPO算法。在測(cè)試階段，它還采用MCTS算法進(jìn)行搜索。第2部分從QwQ和Deepseek-R1蒸餾出知識(shí)，并嘗試了兩種強(qiáng)化學(xué)習(xí)方法：DPO和SFT，使用來(lái)自拒絕采樣的數(shù)據(jù)進(jìn)行訓(xùn)練。發(fā)現(xiàn)，通過(guò)從QwQ和Deepseek-R1中蒸餾成千上萬(wàn)個(gè)例子，可以在具有挑戰(zhàn)性的推理任務(wù)上顯著提高性能，而基于蒸餾的強(qiáng)化學(xué)習(xí)可以帶來(lái)進(jìn)一步的改進(jìn)。Marco-o1整合了Open-o1的數(shù)據(jù)和模型自身生成的數(shù)據(jù)，通過(guò)MCTS算法進(jìn)行SFT訓(xùn)練。
Marco-o1展示了在每一步MCTS過(guò)程后提示模型進(jìn)行自我反思，增強(qiáng)了搜索的有效性。
o1-coder嘗試在代碼生成上重新實(shí)現(xiàn)o1。訓(xùn)練一個(gè)生成器來(lái)生成測(cè)試用例以提供結(jié)果獎(jiǎng)勵(lì)。有了結(jié)果獎(jiǎng)勵(lì)，使用MCTS算法生成代碼解決方案，然后用于通過(guò)SFT改進(jìn)策略模型。按照Wang等人（2024c）的方法訓(xùn)練了一個(gè)PRM，該方法隨著策略的改進(jìn)而更新。

Reference

[1] OpenAI o1復(fù)現(xiàn)——清華大學(xué)提出 ReST-MCTS*
[2] OpenAI o1復(fù)現(xiàn)（數(shù)據(jù)蒸餾）的一點(diǎn)點(diǎn)心得
[3] 類O1復(fù)現(xiàn)項(xiàng)目數(shù)據(jù)和模型開(kāi)源啦
[4] 兩個(gè)值得一讀的技術(shù)總結(jié)：OpenAI o1模型復(fù)現(xiàn)復(fù)現(xiàn)思想及多模態(tài)大模型用于數(shù)學(xué)推理
[5] 《A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges》多模態(tài)LLM在數(shù)學(xué)推理上應(yīng)用：https://arxiv.org/abs/2412.11936

查看全文

http://aloenet.com.cn/news/45923.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

必應(yīng)網(wǎng)站收錄在哪seo推廣顧問(wèn)

note

文章目錄

一、Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

二、QwQ-32B-Preview模型