網(wǎng)站驗(yàn)證碼怎么做steam交易鏈接在哪
如今,大語(yǔ)言模型 (LLM) 的發(fā)展正在從規(guī)模參數(shù)迭代升級(jí)拓展至應(yīng)用場(chǎng)景的適配與創(chuàng)新,在這個(gè)過(guò)程中,其也暴露出一系列問(wèn)題。例如,在推理環(huán)節(jié)的效率較低,處理復(fù)雜任務(wù)時(shí)耗時(shí)較長(zhǎng),難以滿足對(duì)實(shí)時(shí)性要求較高的場(chǎng)景需求;在資源利用方面,由于模型規(guī)模龐大,對(duì)計(jì)算資源和存儲(chǔ)資源的消耗巨大,且存在一定程度的浪費(fèi)等。
針對(duì)于此,來(lái)自加州大學(xué)伯克利分校 (UC Berkeley) 的研究團(tuán)隊(duì)于 2023 年開(kāi)源了 vLLM (Virtual Large Language Model),這是一款專(zhuān)為大模型推理加速而設(shè)計(jì)的庫(kù),其依靠卓越的推理效率和資源優(yōu)化能力在全球范圍內(nèi)引發(fā)廣泛關(guān)注。
vLLM 教程:從入門(mén)到進(jìn)階
為幫助國(guó)內(nèi)開(kāi)發(fā)者更快速入門(mén) vLLM,小貝在?http://OpenBayes.com?的「公共教程」板塊上線了 4 個(gè) vLLM 教程,覆蓋了 vLLM 的安裝、使用、推理以及 API 服務(wù)器的部署。無(wú)論是毫無(wú)經(jīng)驗(yàn)的新手小白,還是已經(jīng)有一定基礎(chǔ)、渴望提升的開(kāi)發(fā)者,都能找到適合自己的學(xué)習(xí)路徑!
1. vLLM 入門(mén)教程:零基礎(chǔ)分步指南
該教程逐步展示了如何配置和運(yùn)行 vLLM,提供 vLLM 的安裝、模型推理、啟動(dòng) vLLM 服務(wù)器以及如何發(fā)出請(qǐng)求的完整入門(mén)指南。
* 在線運(yùn)行:https://go.openbayes.com/vNYCa
2. 使用 vLLM 對(duì) Qwen2.5 推理
該教程詳細(xì)展示了如何對(duì)一個(gè) 3B 參數(shù)的大語(yǔ)言模型的進(jìn)行推理任務(wù),包括模型的加載、數(shù)據(jù)的準(zhǔn)備、推理過(guò)程的優(yōu)化,以及結(jié)果的提取和評(píng)估。
* 在線運(yùn)行:https://go.openbayes.com/lZIUd
3. 使用 vLLM 加載大模型進(jìn)行少樣本學(xué)習(xí)
該教程為使用 vLLM 加載 Qwen2.5-3B-Instruct-AWQ 模型進(jìn)行少樣本學(xué)習(xí),詳細(xì)解釋了如何通過(guò)檢索訓(xùn)練數(shù)據(jù)獲取相似問(wèn)題構(gòu)建對(duì)話,利用模型生成不同輸出,推斷誤解并結(jié)合相關(guān)方法進(jìn)行整合排名等操作,實(shí)現(xiàn)從數(shù)據(jù)準(zhǔn)備到結(jié)果提交的完整流程。
* 在線運(yùn)行:https://go.openbayes.com/pYEub
4. 將 LangChain 與 vLLM 結(jié)合使用教程
本教程圍繞將 LangChain 與 vLLM 結(jié)合使用展開(kāi),旨在簡(jiǎn)化并加速智能 LLM 應(yīng)用程序開(kāi)發(fā),涵蓋從基礎(chǔ)設(shè)置到高級(jí)功能應(yīng)用的多方面內(nèi)容。
* 在線運(yùn)行:https://go.openbayes.com/BhNo3
追溯 vLLM:開(kāi)源歷程及技術(shù)演進(jìn)
vLLM 的雛形誕生于 2022 年年底,加州大學(xué)伯克利分校的研究團(tuán)隊(duì)在部署一個(gè)名為「alpa」的自動(dòng)化并行推理項(xiàng)目時(shí),發(fā)現(xiàn)其運(yùn)行速度非常慢且 GPU 利用率低。研究人員敏銳地察覺(jué)到,大語(yǔ)言模型推理存在著巨大的可優(yōu)化空間。然而,市場(chǎng)上并沒(méi)有專(zhuān)門(mén)針對(duì)大語(yǔ)言模型推理優(yōu)化的開(kāi)源系統(tǒng),隨即,他們決定自己動(dòng)手創(chuàng)建一個(gè)大語(yǔ)言模型推理框架。
經(jīng)過(guò)無(wú)數(shù)次的試驗(yàn)和調(diào)試中,他們關(guān)注到了操作系統(tǒng)中經(jīng)典的虛擬內(nèi)存和分頁(yè)技術(shù),并基于此在 2023 年提出了開(kāi)創(chuàng)性注意力算法 PagedAttention,其可以有效地管理注意力鍵和值,進(jìn)而構(gòu)建了高吞吐量的分布式 LLM 服務(wù)引擎 vLLM,實(shí)現(xiàn)了 KV 緩存內(nèi)存幾乎零浪費(fèi),有效解決了大語(yǔ)言模型推理中的內(nèi)存管理瓶頸問(wèn)題。與 Hugging Face Transformers 相比,其吞吐量提升了 24 倍,而且這一性能提升不需要對(duì)模型架構(gòu)進(jìn)行任何更改。
更值得一提的是,vLLM 不受硬件限制,不僅僅局限于 Nvidia GPU,還對(duì) AMD GPU、Intel GPU、AWS Neuron 和 Google TPU 等市面上眾多硬件架構(gòu)敞開(kāi)懷抱,真正推動(dòng)了大語(yǔ)言模型在不同硬件環(huán)境下的高效推理和應(yīng)用。如今, vLLM 已經(jīng)能夠支持超 30 個(gè)生成式大語(yǔ)言模型,并獲得了包括 Anyscale、AMD、NVIDIA、Google Cloud 在內(nèi)的 20 多個(gè)企業(yè)的支持和贊助。
2023 年 6 月,vLLM 的開(kāi)源代碼正式發(fā)布。短短一年時(shí)間里,vLLM 在 Github 上星標(biāo)數(shù)就突破了 21.8k。截止目前,該項(xiàng)目星標(biāo)數(shù)已達(dá) 31k。
vLLM 在 GitHub 上已獲得 31k stars
同年 9 月,研究團(tuán)隊(duì)發(fā)表了論文「Efficient Memory Management for Large Language Model Serving with PagedAttention」,進(jìn)一步闡述 vLLM 的技術(shù)細(xì)節(jié)和優(yōu)勢(shì)。而團(tuán)隊(duì)對(duì) vLLM 研究的腳步并未停歇,仍在圍繞兼容性、易用性等方面展開(kāi)迭代升級(jí)。例如在硬件適配方面,除了 Nvidia GPU 之外,怎樣能夠讓 vLLM 在更多的硬件上面跑起來(lái);再比如在科研方面,如何進(jìn)一步提高系統(tǒng)效率和推理速度等。而這些也都體現(xiàn)在 vLLM 的一次次的版本更新中。
論文地址:
https://dl.acm.org/doi/10.1145/3600006.3613165
vLLM 系統(tǒng)概覽
vLLM v0.6.4 更新
吞吐量提高 2.7 倍,延遲減少 5 倍
就在上個(gè)月,vLLM 的版本更新到了 0.6.4,在性能提升、模型支持和多模態(tài)處理等方面都取得了重要的進(jìn)展。
在性能方面,新版本引入了多步調(diào)度 (Multistep scheduling) 和異步輸出處理 (Asynchronous output processing),優(yōu)化了 GPU 的利用率并提高了處理效率,從而提高了整體的吞吐量。
vLLM
技術(shù)解析
* 多步調(diào)度允許 vLLM 一次性完成多個(gè)步驟的調(diào)度和輸入準(zhǔn)備,使得 GPU 可以連續(xù)處理多個(gè)步驟而不必每個(gè)步驟都等待 CPU 指令,這樣分散了 CPU 的工作負(fù)載,減少了 GPU 的空閑時(shí)間。
* 異步輸出處理使得輸出處理與模型的執(zhí)行可以并行進(jìn)行。具體來(lái)講,vLLM 不再立即處理輸出,而是延遲處理,在執(zhí)行第 n+1 步的同時(shí)處理第 n 步的輸出。雖然這可能會(huì)導(dǎo)致每個(gè)請(qǐng)求多執(zhí)行一步,但對(duì) GPU 利用率的大幅提高遠(yuǎn)遠(yuǎn)彌補(bǔ)了這一成本。
例如,在 Llama 8B 模型上可以實(shí)現(xiàn) 2.7 倍的吞吐量提升和 5 倍的 TPOT(每個(gè)輸出標(biāo)記的時(shí)間)減少,如下圖所示。
在 ShareGPT 數(shù)據(jù)集上對(duì)搭載于 1 張 H100 的 Llama 8B 模型進(jìn)行 vLLM v0.5.3 與 v0.6.0 之間的性能比較
而在 Llama 70B 模型上實(shí)現(xiàn)了 1.8 倍的吞吐量提升和 2 倍的 TPOT 減少,如下圖所示。
在 ShareGPT 數(shù)據(jù)集上對(duì)搭載于 4 張 H100 的 70B 模型進(jìn)行 vLLM v0.5.3 與 v0.6.0 之間的性能比較
模型支持方面 vLLM 新納入了對(duì) Exaone、Granite 和 Phi-3.5-MoE 等前沿大語(yǔ)言模型的適配。在多模態(tài)領(lǐng)域,增加了多圖像輸入的功能(官方文檔中以 Phi-3-vision 模型作為示例演示),以及對(duì) Ultravox 的多個(gè)音頻塊的處理能力,進(jìn)一步擴(kuò)展了 vLLM 在多模態(tài)任務(wù)中的應(yīng)用范圍。
首個(gè)完整版 vLLM 中文文檔上線
毫無(wú)疑問(wèn),vLLM 作為大模型領(lǐng)域的一項(xiàng)重要技術(shù)創(chuàng)新,代表了當(dāng)前高效推理的發(fā)展方向。為了讓國(guó)內(nèi)開(kāi)發(fā)者更便捷、準(zhǔn)確地理解其背后的先進(jìn)技術(shù)原理,將 vLLM 引入到國(guó)內(nèi)大模型的開(kāi)發(fā)中,進(jìn)而推動(dòng)該領(lǐng)域的發(fā)展。HyperAI超神經(jīng)的社區(qū)志愿者們通過(guò)開(kāi)放合作的方式,經(jīng)過(guò)翻譯和校對(duì)的雙重審核,成功完成了首個(gè) vLLM 中文文檔,現(xiàn)已完整上線至?https://vllm.hyper.ai/。
vLLM 中文文檔官方網(wǎng)站
vLLM
這份文檔為您提供了:
* 從零入門(mén)的基礎(chǔ)概念科普
* 快速上手的一鍵克隆教程
* 及時(shí)更新的 vLLM 知識(shí)庫(kù)
* 友好開(kāi)放的中文社區(qū)生態(tài)
vLLM 在不同計(jì)算芯片上的安裝方式
在 GitHub vLLM 中文:
https://github.com/hyperai/vllm-cn
參考資料:
1.https://blog.vllm.ai/2024/09/05/perf-update.html
2.https://www.163.com/dy/article/J6606DLJ0511B6FU.html
3.?https://mp.weixin.qq.com/s/e0jcROf5bz-vaxEKILnqLw
新用戶福利
* 注冊(cè)福利:點(diǎn)擊下方邀請(qǐng)鏈接注冊(cè),即可獲得 4 小時(shí) RTX 4090 + 5 小時(shí) CPU 的免費(fèi)算力時(shí)長(zhǎng),永久有效!
小貝總專(zhuān)屬邀請(qǐng)鏈接(直接復(fù)制到瀏覽器打開(kāi)):
https://go.openbayes.com/9S6Dr