中國建設(shè)銀行濟(jì)南招聘信息網(wǎng)站google搜索app下載
本文是LLM系列文章,針對《Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor》的翻譯。
@TOC
摘要
指令調(diào)優(yōu)使預(yù)訓(xùn)練的語言模型能夠從推理時間的自然語言描述中執(zhí)行新的任務(wù)。這些方法依賴于以眾包數(shù)據(jù)集或用戶交互形式進(jìn)行的大量人工監(jiān)督。在這項工作中,我們介紹了非自然指令:一個創(chuàng)造性和多樣化指令的大型數(shù)據(jù)集,幾乎沒有人工勞動。我們收集了64,000個例子,通過提示一個語言模型,其中包含三個指令的種子例子,并引出第四個。然后通過提示模型重新表述每個指令來擴(kuò)展該集合,創(chuàng)建總計約240,000個指令、輸入和輸出示例。實驗表明,盡管包含了相當(dāng)數(shù)量的噪聲,但在非自然指令上的訓(xùn)練可以與在開源人工管理數(shù)據(jù)集上的訓(xùn)練相媲美,在各種基準(zhǔn)測試中超過了T0++和Tk-Instruct等模型的性能。這些結(jié)果證明了模型生成數(shù)據(jù)作為一種經(jīng)濟(jì)有效的方法的潛力替代眾包的數(shù)據(jù)集擴(kuò)展和多樣化。
1 引言
2 數(shù)據(jù)收集
3 數(shù)據(jù)分析
4 實驗設(shè)置
5 結(jié)果
6 生成模型消融
7 相關(guān)工作
8 結(jié)論
我們介紹了非自然指令,這是一個自動生成的自然語言指令數(shù)據(jù)集及其相應(yīng)的輸入和輸出。據(jù)我們所知,這是第一個自動生成的通用NLP數(shù)據(jù)集。我們的實驗表明,在多個基準(zhǔn)測試中,在非自然指令上訓(xùn)練的模型優(yōu)于在手動注釋數(shù)據(jù)集上訓(xùn)練的模型。非自然指令不僅具有成本效益,我們還提供了證據(jù),證明所產(chǎn)生的指令具有更高的多樣性,并且在設(shè)計的任務(wù)中具有高水平的創(chuàng)造力,這是群體工作者難以獲得的特征。消融表明,即使沒有指令調(diào)優(yōu)的較弱模型也可以生成有用的指令,盡管它們可能難以產(chǎn)生相應(yīng)的輸出。然而,提出有趣的任務(wù)和編寫不同的指令可以說是數(shù)據(jù)收集過程的主要挑戰(zhàn),而給定指令和輸入,輸出通常更容易通過眾包進(jìn)行注釋。我們的發(fā)現(xiàn)鼓勵利用模型進(jìn)行通用數(shù)據(jù)生成,我們認(rèn)為這是未來研究的一個有趣方向。
9 局限性
我們指出了未來自動指令生成的一些改進(jìn)方向。
首先,如§3所示,非自然指令包含有噪聲的例子,其中指令、輸入或輸出都是無效的。未來的工作可能側(cè)重于為這些示例開發(fā)更好的過濾器——例如,通過將示例子集注釋為有效或無效,并訓(xùn)練分類器來確定生成實例的正確性。
其次,未來的工作可能采用“人在循環(huán)”的方法,即人類應(yīng)該識別具有挑戰(zhàn)性的模式,鼓勵模型生成更復(fù)雜的示例。在另一個人在循環(huán)的場景中,人類可以查詢非自然指令訓(xùn)練的模型,以找到這些模型失敗的例子,從而收集更難的例子。
最后,語言模型有時會反映訓(xùn)練數(shù)據(jù)中存在的不良偏差。因此,自動生成的數(shù)據(jù)可能包含此類內(nèi)容。我們注意到,在我們的手工分析中,我們沒有注意到任何有害的例子。盡管如此,未來的工作可能會考慮應(yīng)用過濾機(jī)制來降低有偏見內(nèi)容的風(fēng)險。