當(dāng)前位置：首頁 > news >正文

win7下用iis搭建網(wǎng)站百度網(wǎng)盤客服電話

news 2025/7/7 18:14:37

win7下用iis搭建網(wǎng)站,百度網(wǎng)盤客服電話,網(wǎng)站怎么做效果好,網(wǎng)站建設(shè)歺首選金手指12個(gè)人的一些思考，請大家批評指正。這個(gè)問題，首先當(dāng)然是在恰當(dāng)?shù)臅r(shí)間出現(xiàn)，模型性能躋身世界一流，又開源，戳破了OpenAI和英偉達(dá)潛心構(gòu)造的敘事邏輯。 DeepSeek為什么強(qiáng)？四個(gè)方面：模型的智能水平…

個(gè)人的一些思考，請大家批評指正。

這個(gè)問題，首先當(dāng)然是在恰當(dāng)?shù)臅r(shí)間出現(xiàn)，模型性能躋身世界一流，又開源，戳破了OpenAI和英偉達(dá)潛心構(gòu)造的敘事邏輯。

DeepSeek為什么強(qiáng)？四個(gè)方面：模型的智能水平、訓(xùn)練成本、推理成本和用戶體驗(yàn)。

一、DeepSeek的智能水平

DeepSeek V3的智能水平，技術(shù)報(bào)告展現(xiàn)的性能對比圖：

在這里插入圖片描述

是什么導(dǎo)致了DeepSeek的模型性能，是模型架構(gòu)嗎？MoE、MLA這些？或許有一點(diǎn)關(guān)系，但是應(yīng)該不是主要因素，決定模型性能的，主要應(yīng)該是DeepSeek沒有開源的內(nèi)容——數(shù)據(jù)集以及訓(xùn)練時(shí)的數(shù)據(jù)配比。

去年看到OpenAI的一名員工的博客，內(nèi)容摘錄如下：

數(shù)據(jù)即模型！來自 OpenAI 模型煉丹師的 insight！人腦也是一樣，其思想無限逼近于其接收到的信息；你灌輸什么，他就呈現(xiàn)什么！

作者在 OpenAI 工作近一年，觀察到生成模型的訓(xùn)練過程顯示模型行為主要由數(shù)據(jù)集決定，而非架構(gòu)、超參數(shù)或優(yōu)化器選擇。
🎯 Key Points

作者訓(xùn)練了大量生成模型；
觀察到所有訓(xùn)練運(yùn)行之間存在相似性；
模型高度逼近其數(shù)據(jù)集，學(xué)習(xí)到的不僅是狗或貓的概念，還有不重要的分布間隙；
在相同數(shù)據(jù)集上訓(xùn)練足夠長時(shí)間，任何具有足夠權(quán)重和訓(xùn)練時(shí)間的模型都會收斂到相同點(diǎn)；
大型擴(kuò)散卷積網(wǎng)絡(luò)和 ViT 生成器會生成相同的圖像；
自回歸采樣和擴(kuò)散方法也會生成相同的圖像；
這表明模型行為不由架構(gòu)、超參數(shù)或優(yōu)化器選擇決定，而是由數(shù)據(jù)集決定；
其他因素只是有效地將計(jì)算交付給逼近數(shù)據(jù)集的手段；
當(dāng)提到“Lambda”、“ChatGPT”、“Bard”或“Claude”時(shí)，指的是數(shù)據(jù)集，而不是模型權(quán)重。

LLM預(yù)訓(xùn)練scaling law的發(fā)展，一開始強(qiáng)調(diào)模型要大，然后是數(shù)據(jù)要多，再后來就是強(qiáng)調(diào)數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量方面，一方面是強(qiáng)調(diào)數(shù)據(jù)質(zhì)量，通過專家撰寫高質(zhì)量數(shù)據(jù)、以及各種數(shù)據(jù)篩選方法和工具，保證數(shù)據(jù)質(zhì)量是第一位的；第二方面，不斷增加數(shù)學(xué)、邏輯、代碼等能夠提升大模型理性能力的數(shù)據(jù)配比比例，尤其在模型訓(xùn)練退火階段，調(diào)整數(shù)據(jù)混合配比，增加高質(zhì)量數(shù)據(jù)等等。

總之，我的猜測，DeepSeek V3的性能好，主要是因?yàn)閿?shù)據(jù)集的原因。

DeepSeek R1的性能好，首先來源于DeepSeek V3底座模型的能力夠，其次是DeepSeek R1成功摸索了一套RL方法，另外，推理成本低也會導(dǎo)致推理的性能增強(qiáng)。

二、DeepSeek的訓(xùn)練成本和推理成本

DeepSeek V3的訓(xùn)練成本，那個(gè)600萬美金，從一開始，我的觀點(diǎn)就是聽聽得了，只是成功訓(xùn)練一次的成本，不包括數(shù)據(jù)集、探索以及人力成本。AI這個(gè)事，可能最費(fèi)勁的是數(shù)據(jù)集，相比數(shù)據(jù)，訓(xùn)練應(yīng)該在其次。當(dāng)然，不可否認(rèn)，DeepSeek的訓(xùn)練成本確實(shí)低，這個(gè)確實(shí)是因?yàn)槟Ｐ图軜?gòu)、以及訓(xùn)練方法。DeepSeek的訓(xùn)練成本低，主要是MoE和訓(xùn)練的低精度技術(shù)。MLA并不降低訓(xùn)練成本，只是推理成本低。模型的MTP，主要作用是訓(xùn)練更加穩(wěn)定，當(dāng)然，訓(xùn)練穩(wěn)定了訓(xùn)練成本也會更低，細(xì)看DeepSeek V3的技術(shù)報(bào)告，看不出MTP提升模型性能，尤其的最大尺寸的模型性能。LLM的訓(xùn)練是一個(gè)細(xì)致活，還有其他的因素，包括PTX的使用、通信的優(yōu)化等等。

DeepSeek V3的推理成本低，模型架構(gòu)中的MLA、MoE和MTP等技術(shù)，應(yīng)該均有貢獻(xiàn)。

三、DeepSeek的用戶體驗(yàn)

DeepSeek的用戶體驗(yàn)方面嘛。首先說，時(shí)尚這個(gè)東西，之所以稱為時(shí)尚，就在于難于預(yù)測。體驗(yàn)首先來自民心，DeepSeek撼動(dòng)了美國AI界，提升了國人信心，就已經(jīng)獲得了最大民心。

對于用戶體驗(yàn)，具體來說，看到有說DeepSeek說話犀利、有情緒價(jià)值，不像機(jī)器人，更像人。網(wǎng)上關(guān)于周鴻祎、以及為什么DeepSeek來自初創(chuàng)公司而不是互聯(lián)網(wǎng)大廠這些問題，我也試了，確實(shí)可以復(fù)刻，確實(shí)犀利，敢說！但是呢，這里的原因，恐怕不是因?yàn)槟Ｐ偷闹悄芩?#xff0c;而是模型的最后的對齊方面，在模型的后訓(xùn)練方面，模型的輸出對齊到了這種風(fēng)格。也說明DeepSeek團(tuán)隊(duì)確實(shí)有性格。但是，這種風(fēng)格，對于其他的LLM團(tuán)隊(duì)，應(yīng)該不難，只是敢不敢愿不愿的問題。

查看全文

http://aloenet.com.cn/news/46130.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

win7下用iis搭建網(wǎng)站百度網(wǎng)盤客服電話

一、DeepSeek的智能水平

二、DeepSeek的訓(xùn)練成本和推理成本

三、DeepSeek的用戶體驗(yàn)

相關(guān)文章：

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

一、DeepSeek的智能水平

二、DeepSeek的訓(xùn)練成本和推理成本

三、DeepSeek的用戶體驗(yàn)

相關(guān)文章：

一、DeepSeek的智能水平

二、DeepSeek的訓(xùn)練成本和推理成本

三、DeepSeek的用戶體驗(yàn)