動易醫(yī)院網(wǎng)站管理系統(tǒng)市場調(diào)研分析報告
2024 neurips
1 背景
- 稀疏混合專家(SMoE)可在不顯著增加訓(xùn)練和推理成本的前提下提升模型的能力【比如Mixtral 8*7B,表現(xiàn)可以媲美LLaMA-2 70B】
- 但它也有兩個問題
- 專家激活率低(下圖左)
- 在優(yōu)化時只有一小部分專家會被激活
- ——>在學(xué)習(xí)應(yīng)對復(fù)雜任務(wù)的大量專家時,會出現(xiàn)性能次優(yōu)和效果不佳的問題
- 無法細粒度地分析單個 token 的多重語義概念【多義詞/具有多重細節(jié)的圖塊】
- 專家激活率低(下圖左)
- 但它也有兩個問題
- ——>提出了多頭混合專家(MH-MoE)
- 采用了多頭機制,可將每個輸入 token 分成多個子 token
- 然后將這些子 token 分配給一組多樣化的專家并行處理,之后再無縫地將它們整合進原來的 token 形式
- MH-MOE的優(yōu)勢
- 專家激活率更高且擴展性更好
- MH-MoE 能優(yōu)化幾乎所有專家,從而可以緩解專家激活率低的問題并大幅提升更大專家的使用率
- 具有更細粒度的理解能力
- MH-MoE 采用的多頭機制會將子 token 分配給不同的專家,從而可以聯(lián)合關(guān)注來自不同專家的不同表征空間的信息,最終獲得更好更細粒度的理解能力。
- 專家激活率更高且擴展性更好
2 方法
- MH-MoE 的訓(xùn)練目標是最小化兩個損失:針對具體任務(wù)的損失和輔助性的負載平衡損失。