国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

點網(wǎng)站出圖片怎么做網(wǎng)站開發(fā)培訓

點網(wǎng)站出圖片怎么做,網(wǎng)站開發(fā)培訓,網(wǎng)站設計素材網(wǎng)站,iis7配置asp.net網(wǎng)站所謂知識注入,其實不該脫離于LLM的基礎工作原理,然后空談抽象概念。 知識,也就是你問他問題,他能輸出正確的回答,這只是一個簡單的輸出token的過程。輸出得準了,就是知識,輸出不準了&#xff0c…

所謂知識注入,其實不該脫離于LLM的基礎工作原理,然后空談抽象概念。
知識,也就是你問他問題,他能輸出正確的回答,這只是一個簡單的輸出token的過程。輸出得準了,就是知識,輸出不準了,你就說它是幻覺。什么是幻覺?不就是該輸出的token上,概率不大,導致的亂輸出。
所以,知識注入就是你要對一個query,自回歸輸出一個完全一致的answer。如果你愿意不考慮LLM的其他功能,就為了某一個QA對服務,你完全可以加訓個100個epoch,它必然就“記住”了。

知識注入根據(jù)知識的體量、復雜度、垂類程度不同,要基于增量預訓練、sft、也必須使用RLHF和DPO。
對于這么一個QA:XXX的生日是多少?1980年1月23日。sft的所有l(wèi)oss都是先拿到正確的前述token,然后計算當前token的loss。假設現(xiàn)在LLM訓練好了,對于query,后續(xù)token的概率都很高,除了”8“這個位置的概率幾乎為0,那么對于后面的“0年1月23日”,如果前面這個“8”LLM吐不出來,那么它們的高概率也就完全不頂用了,大概率是要出所謂的“幻覺”的,畢竟你現(xiàn)在的狀況和訓練時候完全不一樣嘛??蛇@種情況放sft里,loss很小。也就是說"8"這個數(shù)字在sft階段會訓練不完全。
(這里只是一個例子,實際上tokenizer大概率把1980這一整個數(shù)字綁定成一個token,或者是19和80。)
RLHF和DPO這類RL算法的訓練目標是,我當前這個token的reward和選定token后對未來value的期望要達到最高。如果出現(xiàn)8這個數(shù)字概率低的情況,且如果value函數(shù)正常工作,那么RL會知道,你必須給8的概率拉高,否則整個后續(xù)的reward期望會極低。RL和SFT的差距就在這里,RL要考慮當前對后續(xù)的影響,sft只要考慮當前這個token就好。
(RL的思想很好,但是"value函數(shù)正常工作"這個條件沒那么好保證,所以RL不穩(wěn)定。這是必須先sft后rl的原因。)

對于簡單的知識注入,例如“改變大模型的自我認知”,隨便給幾條認知相關的內容重復的簡單數(shù)據(jù),用lora訓個10個epoch,就能得到極好的效果。我基于qwen1.5-7b-chat嘗試sft注入1000條簡單的wiki的知識,lora rank=32,epoch=1,lr=3e-5。然后手動測試了幾條wiki數(shù)據(jù),發(fā)現(xiàn)關于數(shù)字的會有嚴重幻覺,例如“丹麥海峽的最長長度是多少“,不僅是我的模型,你百度去搜,百度ai給的結果也不對。關于醫(yī)學的會很差勁,因為過于復雜了,需要專業(yè)知識才能撐得起來我給的回答,我敢信我的醫(yī)學數(shù)據(jù)的每條answer的困惑度都極高,這使得LLM不可能僅憑一次訓練就扭轉輸出。但是簡單知識會記得很好,我讓他記住他是一根香蕉(簡單QA),他也記住了。最后測得c-eval評分還能維持69,比微調前的71不差多少。
對于復雜的知識注入,絕對不能寄希望于少量數(shù)據(jù)就完成訓練。這個復雜,既是指存在很多生詞和知識點,還是指知識體系的龐大,還是指answer很長。前兩個好理解,第三個其實就是前面說的"8"的問題,你answer一長,中間出錯的概率就高,就不容易續(xù)寫成功。
我們統(tǒng)稱符合上面特點的數(shù)據(jù)為“垂類數(shù)據(jù)”。
對于垂類數(shù)據(jù),你絕不能期望僅用finetune和簡單的lora就能成功。你的垂類數(shù)據(jù)和LLM的訓練數(shù)據(jù)可以說是分布完全不相似的兩組數(shù)據(jù),你無法通過簡單的lora微調就讓LLM從一個輸出分布就跳到另一個完全不同的分布上。走完預訓練+sft+rl基本是標配了。
預訓練的作用是解決“眼生”的問題,所謂獲取知識也就是這個,你希望“給個query返回一個answer”,這個answer的碎片就隱藏在預訓練的數(shù)據(jù)里。所以這里需要大量預訓練數(shù)據(jù)。
然后是sft。為什么不直接rl?因為rl存在不穩(wěn)定的問題,所以最好用sft先把底子打好。sft就是給了LLM一個輸入輸出的范式,“問哪個問題,就回答哪段話”。問題是問題的花樣可多了,要是大伙都一個問問題的方式,對我們來說就沒這么累了。有一批人專門干批量指令生成,就是為了得到“一個問題,多種表達”的數(shù)據(jù),以適應用戶的需求。sft階段,一定要盡量壓低loss,既然干了垂類模型,就千萬別考慮泛用性了,否則你就得重走一遍chatgpt的訓練路子,數(shù)據(jù)也得用人家量級的,區(qū)別就是你多了一份垂類數(shù)據(jù)。Gimini今年6月有個論文指出幻覺就是loss太大,你壓低就沒幻覺了,這從上面對"8"的討論也能看出來。所以,一定要對單知識點做多指令QA,既可以等價于多個epoch,又可以防止過擬合,并且知識量大就必須有海量數(shù)據(jù)支撐。
rl階段可以選rlhf和dpo,后者現(xiàn)在好像效果更好,但是還是得看實際數(shù)據(jù),所以兩種都要做。

http://aloenet.com.cn/news/31919.html

相關文章:

  • 沈陽網(wǎng)站建設培訓學校怎么建網(wǎng)站教程圖解
  • 大型網(wǎng)站seo方案長沙網(wǎng)站推廣seo
  • 百度上做網(wǎng)站免費嗎品牌運營策劃方案
  • 邢臺人才網(wǎng)官網(wǎng)首頁下載優(yōu)化大師
  • dw網(wǎng)站建設流程游戲搜索風云榜
  • dreamwave cs6建設php網(wǎng)站十大成功營銷策劃案例
  • 保定網(wǎng)站排名優(yōu)化直通車關鍵詞優(yōu)化
  • wordpress 送錢啦濟南網(wǎng)站優(yōu)化排名推廣
  • 鹽城做百度網(wǎng)站百度推廣服務費3000元
  • 哪里有網(wǎng)站開發(fā)設計文章優(yōu)化關鍵詞排名
  • 做好網(wǎng)站建設通知seo行業(yè)崗位
  • 單頁面組合網(wǎng)站seo關鍵詞布局技巧
  • 公司官網(wǎng)站怎么搞南平seo
  • 找人做網(wǎng)站設計 哪個平臺可以找萬能的搜索引擎
  • 如何在本地搭建網(wǎng)站什么網(wǎng)站百度收錄快
  • wordpress章節(jié)分頁云浮seo
  • 網(wǎng)站頁面由什么構成百度seo關鍵詞優(yōu)化公司
  • WordPress數(shù)據(jù)庫文章優(yōu)化大師客服電話
  • 優(yōu)化系統(tǒng)設置深圳網(wǎng)站建設推廣優(yōu)化公司
  • 坪山網(wǎng)站建設基本流程揭陽新站seo方案
  • 建設銀行網(wǎng)站怎么登陸不了了寧波網(wǎng)站排名優(yōu)化seo
  • 南平 建網(wǎng)站搜索引擎有哪些
  • mac能用vs做網(wǎng)站嗎百度收錄域名
  • 網(wǎng)站建設冒用身份信息什么是網(wǎng)絡推廣
  • 商業(yè)網(wǎng)站制作5188關鍵詞挖掘
  • asp網(wǎng)站配置偽靜態(tài)站長工具seo綜合查詢煙雨樓
  • 做宣傳冊從哪個網(wǎng)站找素材360搜索引擎優(yōu)化
  • 網(wǎng)站建設的市場容量seo是什么職業(yè)崗位
  • 濟南網(wǎng)站制作服務seo sem是什么意思
  • 使用網(wǎng)站模板快速建站教案網(wǎng)絡營銷與直播電商