win7下用iis搭建網(wǎng)站百度網(wǎng)盤客服電話
個(gè)人的一些思考,請大家批評指正。
這個(gè)問題,首先當(dāng)然是在恰當(dāng)?shù)臅r(shí)間出現(xiàn),模型性能躋身世界一流,又開源,戳破了OpenAI和英偉達(dá)潛心構(gòu)造的敘事邏輯。
DeepSeek為什么強(qiáng)?四個(gè)方面:模型的智能水平、訓(xùn)練成本、推理成本和用戶體驗(yàn)。
一、DeepSeek的智能水平
DeepSeek V3的智能水平,技術(shù)報(bào)告展現(xiàn)的性能對比圖:
是什么導(dǎo)致了DeepSeek的模型性能,是模型架構(gòu)嗎?MoE、MLA這些?或許有一點(diǎn)關(guān)系,但是應(yīng)該不是主要因素,決定模型性能的,主要應(yīng)該是DeepSeek沒有開源的內(nèi)容——數(shù)據(jù)集以及訓(xùn)練時(shí)的數(shù)據(jù)配比。
去年看到OpenAI的一名員工的博客,內(nèi)容摘錄如下:
數(shù)據(jù)即模型!來自 OpenAI 模型煉丹師的 insight!人腦也是一樣,其思想無限逼近于其接收到的信息;你灌輸什么,他就呈現(xiàn)什么!
作者在 OpenAI 工作近一年,觀察到生成模型的訓(xùn)練過程顯示模型行為主要由數(shù)據(jù)集決定,而非架構(gòu)、超參數(shù)或優(yōu)化器選擇。
🎯 Key Points
-
作者訓(xùn)練了大量生成模型;
-
觀察到所有訓(xùn)練運(yùn)行之間存在相似性;
-
模型高度逼近其數(shù)據(jù)集,學(xué)習(xí)到的不僅是狗或貓的概念,還有不重要的分布間隙;
-
在相同數(shù)據(jù)集上訓(xùn)練足夠長時(shí)間,任何具有足夠權(quán)重和訓(xùn)練時(shí)間的模型都會收斂到相同點(diǎn);
-
大型擴(kuò)散卷積網(wǎng)絡(luò)和 ViT 生成器會生成相同的圖像;
-
自回歸采樣和擴(kuò)散方法也會生成相同的圖像;
-
這表明模型行為不由架構(gòu)、超參數(shù)或優(yōu)化器選擇決定,而是由數(shù)據(jù)集決定;
-
其他因素只是有效地將計(jì)算交付給逼近數(shù)據(jù)集的手段;
-
當(dāng)提到“Lambda”、“ChatGPT”、“Bard”或“Claude”時(shí),指的是數(shù)據(jù)集,而不是模型權(quán)重。
LLM預(yù)訓(xùn)練scaling law的發(fā)展,一開始強(qiáng)調(diào)模型要大,然后是數(shù)據(jù)要多,再后來就是強(qiáng)調(diào)數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量方面,一方面是強(qiáng)調(diào)數(shù)據(jù)質(zhì)量,通過專家撰寫高質(zhì)量數(shù)據(jù)、以及各種數(shù)據(jù)篩選方法和工具,保證數(shù)據(jù)質(zhì)量是第一位的;第二方面,不斷增加數(shù)學(xué)、邏輯、代碼等能夠提升大模型理性能力的數(shù)據(jù)配比比例,尤其在模型訓(xùn)練退火階段,調(diào)整數(shù)據(jù)混合配比,增加高質(zhì)量數(shù)據(jù)等等。
總之,我的猜測,DeepSeek V3的性能好,主要是因?yàn)閿?shù)據(jù)集的原因。
DeepSeek R1的性能好,首先來源于DeepSeek V3底座模型的能力夠,其次是DeepSeek R1成功摸索了一套RL方法,另外,推理成本低也會導(dǎo)致推理的性能增強(qiáng)。
二、DeepSeek的訓(xùn)練成本和推理成本
DeepSeek V3的訓(xùn)練成本,那個(gè)600萬美金,從一開始,我的觀點(diǎn)就是聽聽得了,只是成功訓(xùn)練一次的成本,不包括數(shù)據(jù)集、探索以及人力成本。AI這個(gè)事,可能最費(fèi)勁的是數(shù)據(jù)集,相比數(shù)據(jù),訓(xùn)練應(yīng)該在其次。當(dāng)然,不可否認(rèn),DeepSeek的訓(xùn)練成本確實(shí)低,這個(gè)確實(shí)是因?yàn)槟P图軜?gòu)、以及訓(xùn)練方法。DeepSeek的訓(xùn)練成本低,主要是MoE和訓(xùn)練的低精度技術(shù)。MLA并不降低訓(xùn)練成本,只是推理成本低。模型的MTP,主要作用是訓(xùn)練更加穩(wěn)定,當(dāng)然,訓(xùn)練穩(wěn)定了訓(xùn)練成本也會更低,細(xì)看DeepSeek V3的技術(shù)報(bào)告,看不出MTP提升模型性能,尤其的最大尺寸的模型性能。LLM的訓(xùn)練是一個(gè)細(xì)致活,還有其他的因素,包括PTX的使用、通信的優(yōu)化等等。
DeepSeek V3的推理成本低,模型架構(gòu)中的MLA、MoE和MTP等技術(shù),應(yīng)該均有貢獻(xiàn)。
三、DeepSeek的用戶體驗(yàn)
DeepSeek的用戶體驗(yàn)方面嘛。首先說,時(shí)尚這個(gè)東西,之所以稱為時(shí)尚,就在于難于預(yù)測。體驗(yàn)首先來自民心,DeepSeek撼動(dòng)了美國AI界,提升了國人信心,就已經(jīng)獲得了最大民心。
對于用戶體驗(yàn),具體來說,看到有說DeepSeek說話犀利、有情緒價(jià)值,不像機(jī)器人,更像人。網(wǎng)上關(guān)于周鴻祎、以及為什么DeepSeek來自初創(chuàng)公司而不是互聯(lián)網(wǎng)大廠這些問題,我也試了,確實(shí)可以復(fù)刻,確實(shí)犀利,敢說!但是呢,這里的原因,恐怕不是因?yàn)槟P偷闹悄芩?#xff0c;而是模型的最后的對齊方面,在模型的后訓(xùn)練方面,模型的輸出對齊到了這種風(fēng)格。也說明DeepSeek團(tuán)隊(duì)確實(shí)有性格。但是,這種風(fēng)格,對于其他的LLM團(tuán)隊(duì),應(yīng)該不難,只是敢不敢愿不愿的問題。