網(wǎng)站開發(fā)功能合同線上營銷渠道主要有哪些
MetaAI最近發(fā)布的Humpback,論文鏈接:https://arxiv.org/abs/2308.06259
解決什么問題?
大量高質(zhì)量的指令微調(diào)數(shù)據(jù)集的生成。
思路
在這項工作中,我們通過開發(fā)迭代自訓練算法來利用大量未標記的數(shù)據(jù)來創(chuàng)建高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù)集。該方法使用模型本身來增強和管理高質(zhì)量的訓練樣例,以提高其自身的性能。我們的方法名為指令反翻譯(instruction backtranslation),其靈感來自機器翻譯的經(jīng)典反翻譯方法,即用模型生成的另一種語言的源句子自動注釋人類編寫的目標句子。
就是最初我們有大語言模型 M 0 M_0 M0?、無標注的數(shù)據(jù)和人工生成的少量初始問答對(seed data),用seed data對 M 0 M_0 M0?進行微調(diào),微調(diào)后的 M 0 M_0 M0? predict出一些能在seed data中找到合適答案的問題(QA對),通過prompt讓 M 0 M_0 M0?自己篩選出其中較高質(zhì)量的QA對,并入seed data中,迭代。
最終是可以得到一個能產(chǎn)生高質(zhì)量問答數(shù)據(jù)的大模型 M k M_k Mk?,從而可以得到一系列高質(zhì)量問答對。
每個迭代的大模型會執(zhí)行兩個步驟:
-
自增強(self-augment):為未標記數(shù)據(jù)(即web語料庫)生成指令,以生成(指令,輸出)對的候選訓練數(shù)據(jù),用于指令調(diào)優(yōu)。
-
自我管理 (self-curate):自我選擇高質(zhì)量的演示示例作為訓練數(shù)據(jù),以微調(diào)基本模型。這種方法是迭代完成的…
過程
- 初始數(shù)據(jù)生成:從一組人工注釋的(指令,輸出)示例開始,這些示例將用于微調(diào)語言模型,以在兩個方向上給出初始預測:預測給定指令的輸出,以及給定輸出的指令。
- 無標簽數(shù)據(jù)收集,同時清洗(重復消除,長度過濾,啟發(fā)式方法刪除潛在低質(zhì)量):使用web語料庫作為未標記數(shù)據(jù)的來源
- 微調(diào)以得到能生成高質(zhì)量問題的模型
- 讓模型對自己生成的問題進行評分
- 掐尖,加入seed data中(通過后綴進行區(qū)分),迭代