做公司網(wǎng)站多少錢站長工具在線查詢
Mistral 7B在平衡高性能和保持大型語言模型高效的目標(biāo)方面邁出了重要的一步。通過我們的工作,我們的目標(biāo)是幫助社區(qū)創(chuàng)建更實(shí)惠、更高效、更高性能的語言模型,這些模型可以在廣泛的現(xiàn)實(shí)世界應(yīng)用程序中使用。
Mistral 7B在實(shí)踐中,對于16K和W=4096的序列長度,對FlashAttention[11]和xFormers[18]進(jìn)行了更改,比普通注意力基線的速度提高了2倍。
本文學(xué)習(xí)論文FlashAttention:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness的相關(guān)內(nèi)容。
論文鏈接:https://arxiv.org/abs/2205.14135
摘要
transformer在長序列上速度慢且內(nèi)存消耗大,因?yàn)樽宰⒁饬Φ臅r(shí)間和內(nèi)存復(fù)雜度在序列長度上是二次方。近似注意力方法試圖通過權(quán)衡模型質(zhì)量來降低計(jì)算復(fù)雜度來解決這個(gè)問題,但往往無法實(shí)現(xiàn)整體加速。本文認(rèn)為,缺失的一個(gè)原則是使注意力算法IO感知-考慮GPU內(nèi)存級別之間的讀寫。本文提出FlashAttention,一種io感知的精確注意力算法&#