php網(wǎng)站的客服窗口怎么做關(guān)鍵詞推廣怎么做
首先解釋這篇工作名稱Palm-E,發(fā)表時間為2023.03,其中的Palm是谷歌內(nèi)部在2022.04開發(fā)的大語言模型,功能類似ChatGPT,只是由于各種原因沒有那樣火起來,E是Embodied的首字母,翻譯過來就是具身多模態(tài)大語言模型大模型,我們一般習(xí)慣將其稱為具身多模態(tài)大模型。
何為具身?這個詞聽起來非常陌生,簡單說就是AI+agent(機器人是其中一種agent)的結(jié)合,強調(diào)的的agent通過與環(huán)境互動來獲取智能,類似人類獲得智能的范式,博主將在之后的博客里做專門篇幅講解,歡迎大家繼續(xù)關(guān)注,下面開始來詳細拆解這篇論文。
Palm-E兩大任務(wù):視覺問答(VQA)和具身任務(wù)規(guī)劃
Palm-E用統(tǒng)一的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方式進行多任務(wù),主要包括視覺問答(VQA)和具身任務(wù)規(guī)劃。
具身任務(wù)規(guī)劃
該任務(wù)要求大模型能理解人類的語言和意圖,還需要機器人觀察和操作環(huán)境中的物體,以及規(guī)劃一系列的子目標和動作。其輸入是多模態(tài)的輸入(如文本、圖像、觸覺信息以及機器人的3D空間狀態(tài)等),輸出可被機器人逐步執(zhí)行的任務(wù)步驟,比如當我們讓其去抽屜里拿薯片,Palm-e會輸出如下子任務(wù)步驟,而后機器人利用其它模塊(我們稱之為Policy,本工作用了RT1和LAVA這兩個Policy來執(zhí)行這些步驟skill)來逐步執(zhí)行之:
step1:導(dǎo)航到抽屜;
step2:打開抽屜;
step3:取出薯片;
step4:關(guān)閉抽屜;
step5:導(dǎo)航至主人處;
step6:將薯片交給主人;
VQA
該任務(wù)與agent無關(guān),用戶輸入圖片和想問的問題,大模型輸出對問題的文字回復(fù)。
貢獻
- 提出和演示一個通用的,可遷移學(xué)習(xí)的,智能決策的多模態(tài)大模型;
- 訓(xùn)練方面,引入先進的結(jié)構(gòu)思想,使得可以對多模態(tài)輸入數(shù)據(jù)進行符號表征,用于訓(xùn)練推理,如neural scene representations ,entity-labeling multimodal tokens.
- 除了具身推理(embodied reasoner), PaLM-E也是一個視覺語言方面的通才;
- 演示了增大模型的規(guī)??梢詷O大地提升多模態(tài)大模型性能,特別是減少災(zāi)難性遺忘(catastrophic forgetting)
Palm-E網(wǎng)絡(luò)結(jié)構(gòu)
整個網(wǎng)絡(luò)的結(jié)構(gòu)如上所示,多模態(tài)數(shù)據(jù)(圖像,文本,物體狀態(tài)等)經(jīng)過特定的編碼后直接輸送到大語言模型,借助大語言模型的能力輸出文字,這些文字可以是對問題的回復(fù),也可以是對任務(wù)的規(guī)劃。(看上去大家都應(yīng)該學(xué)fei了)
訓(xùn)練與實驗
文章大篇幅介紹了相關(guān)實驗,實驗數(shù)據(jù)集如下,主要包括網(wǎng)絡(luò)VQA數(shù)據(jù)和機器人軌跡數(shù)據(jù)。
實驗通過消融對比了不同大語言模型規(guī)模和訓(xùn)練方式對任務(wù)的影響。
VQA任務(wù)
VQA不是本工作的核心,但附帶也能進行此類認為,因此也做了相關(guān)測評,該實驗對比了不同規(guī)模模型和訓(xùn)練方式對該任務(wù)的影響,結(jié)果如下:
純語言任務(wù)
該實驗對比了不同規(guī)模模型對純語言問答任務(wù)的影響。
機器人具身規(guī)劃任務(wù)
這一部分是本工作的核心,驗證了大語言模型規(guī)模和訓(xùn)練方式對該任務(wù)的影響,分別在TAMP(純規(guī)劃),Language table(機械臂桌面push任務(wù))和機器人移動操作任務(wù)(室內(nèi)移動操作任務(wù))上進行對比。
TAMP(Task and Motion Planning)任務(wù)
Language-Table
在該任務(wù)中,Palm-E規(guī)劃任務(wù),將高層次的人類語言轉(zhuǎn)化成多個機器人可執(zhí)行步驟,然后調(diào)用LAVA這個工作執(zhí)行,整個工作流程如下所示:
一些實驗結(jié)果如下所示:
移動操作任務(wù)
可供性評估(Affordance prediction)和失敗檢測
Affordance是指根據(jù)圖片判斷某個子任務(wù)skill可否被成功執(zhí)行,失敗檢測是指根據(jù)觀測,判斷任務(wù)是否被成功完成,兩者都是機器人閉環(huán)任務(wù)規(guī)劃的一大重要環(huán)節(jié),對比結(jié)果如下:
長水平規(guī)劃(Long-horizon)
實驗摘要和討論
通用性與特定任務(wù)模型–遷移性(Generalist vs specialist models – transfer)
利用多任務(wù)數(shù)據(jù)訓(xùn)練,最終可對單個任務(wù)起促進作用。(但這個實驗博主覺得不太嚴密,缺乏一個full only robot data實驗)
數(shù)據(jù)有效性(Data efficiency)
機器人的數(shù)據(jù)很難獲得,但通過大量網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練,Palm-E也可在少量機器人數(shù)據(jù)上訓(xùn)練出一個不錯的用于任務(wù)規(guī)劃的模型,體現(xiàn)了一定的遷移性,OSRT的結(jié)果展示了另一種數(shù)據(jù)有效性的示例–使用集合輸入表征。
保存純語言能力
論文介紹了兩種方法:
- 訓(xùn)練過程中freeze住LLM模型,但這可能會使得在機器人任務(wù)中很失敗;
- 使用足夠大的LLM模型。
總結(jié)
我們提出通過將圖像等多模態(tài)信息注入到具身語言模型中來構(gòu)建具身多模態(tài)大語言模型。實驗表明現(xiàn)成的最先進的視覺語言模型僅接受一般 VQA 和字幕任務(wù)的訓(xùn)練還不足以用于具身推理任務(wù),也有近期的工作表明了其在可供性評估上的局限性,為了克服這些局限性,我們提出PaLM-E,一個單一模型,能夠在模擬和現(xiàn)實世界中控制不同的機器人,同時
具備一般視覺語言任務(wù)能力。尤其是將新穎的神經(jīng)場景表示 (即 OSRT)應(yīng)用到Pla-E,使得即使沒有大規(guī)模數(shù)據(jù),該模型在機器人多任務(wù)中也特別有效。重要的是,我們也證明這種多模態(tài)訓(xùn)練帶來多種遷移能力——將語言融入具身決策規(guī)劃中,從而使機器人更高效地完成規(guī)劃任務(wù)。盡管我們的結(jié)果表明凍結(jié)語言模型是可行的,使得通向通用具身多模式模型的道路同時完全保留語言能力,我們還提出了使用解凍模型的替代途徑:增加語言模型的大小會顯著減少災(zāi)難性遺忘。最大的模型,PaLM-E-562B,展示了強大的思維鏈能力和視覺圖像任務(wù)能力。
個人思考
谷歌Palm-E的工作向我們展示了將大語言模型和多模態(tài)應(yīng)用于機器人具身規(guī)劃中,可以動態(tài)規(guī)劃任務(wù),同時展現(xiàn)了一定的遷移泛化性。但這個工作比較難以復(fù)現(xiàn),模型易懂,但其中最大問題就在于它需要大量的數(shù)據(jù),如同大多數(shù)其他AI工作一樣,機器人具身大規(guī)模數(shù)據(jù)才是最大的瓶頸。