當前位置：首頁 > news >正文

php網(wǎng)站的客服窗口怎么做關(guān)鍵詞推廣怎么做

news 2025/7/8 14:58:55

php網(wǎng)站的客服窗口怎么做,關(guān)鍵詞推廣怎么做,微信鏈接網(wǎng)站怎么做的,廣東新冠疫情最新情況首先解釋這篇工作名稱Palm-E，發(fā)表時間為2023.03，其中的Palm是谷歌內(nèi)部在2022.04開發(fā)的大語言模型，功能類似ChatGPT，只是由于各種原因沒有那樣火起來，E是Embodied的首字母，翻譯過來就是具身多模態(tài)大語言模型…

首先解釋這篇工作名稱Palm-E，發(fā)表時間為2023.03，其中的Palm是谷歌內(nèi)部在2022.04開發(fā)的大語言模型，功能類似ChatGPT，只是由于各種原因沒有那樣火起來，E是Embodied的首字母，翻譯過來就是具身多模態(tài)大語言模型大模型，我們一般習(xí)慣將其稱為具身多模態(tài)大模型。

何為具身？這個詞聽起來非常陌生，簡單說就是AI+agent（機器人是其中一種agent）的結(jié)合，強調(diào)的的agent通過與環(huán)境互動來獲取智能，類似人類獲得智能的范式，博主將在之后的博客里做專門篇幅講解，歡迎大家繼續(xù)關(guān)注，下面開始來詳細拆解這篇論文。

Palm-E兩大任務(wù)：視覺問答(VQA)和具身任務(wù)規(guī)劃

Palm-E用統(tǒng)一的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方式進行多任務(wù)，主要包括視覺問答(VQA)和具身任務(wù)規(guī)劃。

具身任務(wù)規(guī)劃

該任務(wù)要求大模型能理解人類的語言和意圖，還需要機器人觀察和操作環(huán)境中的物體，以及規(guī)劃一系列的子目標和動作。其輸入是多模態(tài)的輸入（如文本、圖像、觸覺信息以及機器人的3D空間狀態(tài)等），輸出可被機器人逐步執(zhí)行的任務(wù)步驟，比如當我們讓其去抽屜里拿薯片，Palm-e會輸出如下子任務(wù)步驟，而后機器人利用其它模塊(我們稱之為Policy，本工作用了RT1和LAVA這兩個Policy來執(zhí)行這些步驟skill)來逐步執(zhí)行之：
step1：導(dǎo)航到抽屜；
step2：打開抽屜；
step3：取出薯片；
step4：關(guān)閉抽屜；
step5：導(dǎo)航至主人處；
step6：將薯片交給主人；
在這里插入圖片描述

VQA

該任務(wù)與agent無關(guān)，用戶輸入圖片和想問的問題，大模型輸出對問題的文字回復(fù)。
在這里插入圖片描述

貢獻

提出和演示一個通用的,可遷移學(xué)習(xí)的，智能決策的多模態(tài)大模型；
訓(xùn)練方面，引入先進的結(jié)構(gòu)思想，使得可以對多模態(tài)輸入數(shù)據(jù)進行符號表征，用于訓(xùn)練推理，如neural scene representations ，entity-labeling multimodal tokens.
除了具身推理（embodied reasoner）， PaLM-E也是一個視覺語言方面的通才；
演示了增大模型的規(guī)?？梢詷O大地提升多模態(tài)大模型性能，特別是減少災(zāi)難性遺忘(catastrophic forgetting)

Palm-E網(wǎng)絡(luò)結(jié)構(gòu)

在這里插入圖片描述

整個網(wǎng)絡(luò)的結(jié)構(gòu)如上所示，多模態(tài)數(shù)據(jù)(圖像，文本，物體狀態(tài)等)經(jīng)過特定的編碼后直接輸送到大語言模型，借助大語言模型的能力輸出文字，這些文字可以是對問題的回復(fù)，也可以是對任務(wù)的規(guī)劃。（看上去大家都應(yīng)該學(xué)fei了）

訓(xùn)練與實驗

文章大篇幅介紹了相關(guān)實驗，實驗數(shù)據(jù)集如下，主要包括網(wǎng)絡(luò)VQA數(shù)據(jù)和機器人軌跡數(shù)據(jù)。
在這里插入圖片描述

實驗通過消融對比了不同大語言模型規(guī)模和訓(xùn)練方式對任務(wù)的影響。

VQA任務(wù)

VQA不是本工作的核心，但附帶也能進行此類認為，因此也做了相關(guān)測評，該實驗對比了不同規(guī)模模型和訓(xùn)練方式對該任務(wù)的影響，結(jié)果如下：
在這里插入圖片描述

純語言任務(wù)

該實驗對比了不同規(guī)模模型對純語言問答任務(wù)的影響。
在這里插入圖片描述

機器人具身規(guī)劃任務(wù)

這一部分是本工作的核心，驗證了大語言模型規(guī)模和訓(xùn)練方式對該任務(wù)的影響，分別在TAMP(純規(guī)劃)，Language table(機械臂桌面push任務(wù))和機器人移動操作任務(wù)（室內(nèi)移動操作任務(wù)）上進行對比。

TAMP(Task and Motion Planning)任務(wù)

在這里插入圖片描述

Language-Table

在該任務(wù)中，Palm-E規(guī)劃任務(wù)，將高層次的人類語言轉(zhuǎn)化成多個機器人可執(zhí)行步驟，然后調(diào)用LAVA這個工作執(zhí)行，整個工作流程如下所示：
在這里插入圖片描述
一些實驗結(jié)果如下所示：

移動操作任務(wù)

可供性評估（Affordance prediction）和失敗檢測

Affordance是指根據(jù)圖片判斷某個子任務(wù)skill可否被成功執(zhí)行，失敗檢測是指根據(jù)觀測，判斷任務(wù)是否被成功完成，兩者都是機器人閉環(huán)任務(wù)規(guī)劃的一大重要環(huán)節(jié)，對比結(jié)果如下：
在這里插入圖片描述

長水平規(guī)劃(Long-horizon)

在這里插入圖片描述

實驗摘要和討論

通用性與特定任務(wù)模型–遷移性(Generalist vs specialist models – transfer)

利用多任務(wù)數(shù)據(jù)訓(xùn)練，最終可對單個任務(wù)起促進作用。（但這個實驗博主覺得不太嚴密，缺乏一個full only robot data實驗）
在這里插入圖片描述

數(shù)據(jù)有效性(Data efficiency）

機器人的數(shù)據(jù)很難獲得，但通過大量網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練，Palm-E也可在少量機器人數(shù)據(jù)上訓(xùn)練出一個不錯的用于任務(wù)規(guī)劃的模型，體現(xiàn)了一定的遷移性，OSRT的結(jié)果展示了另一種數(shù)據(jù)有效性的示例–使用集合輸入表征。

保存純語言能力

論文介紹了兩種方法：

訓(xùn)練過程中freeze住LLM模型，但這可能會使得在機器人任務(wù)中很失敗；
使用足夠大的LLM模型。

總結(jié)

我們提出通過將圖像等多模態(tài)信息注入到具身語言模型中來構(gòu)建具身多模態(tài)大語言模型。實驗表明現(xiàn)成的最先進的視覺語言模型僅接受一般 VQA 和字幕任務(wù)的訓(xùn)練還不足以用于具身推理任務(wù)，也有近期的工作表明了其在可供性評估上的局限性，為了克服這些局限性，我們提出PaLM-E，一個單一模型，能夠在模擬和現(xiàn)實世界中控制不同的機器人，同時
具備一般視覺語言任務(wù)能力。尤其是將新穎的神經(jīng)場景表示（即 OSRT）應(yīng)用到Pla-E，使得即使沒有大規(guī)模數(shù)據(jù)，該模型在機器人多任務(wù)中也特別有效。重要的是，我們也證明這種多模態(tài)訓(xùn)練帶來多種遷移能力——將語言融入具身決策規(guī)劃中，從而使機器人更高效地完成規(guī)劃任務(wù)。盡管我們的結(jié)果表明凍結(jié)語言模型是可行的，使得通向通用具身多模式模型的道路同時完全保留語言能力，我們還提出了使用解凍模型的替代途徑：增加語言模型的大小會顯著減少災(zāi)難性遺忘。最大的模型，PaLM-E-562B，展示了強大的思維鏈能力和視覺圖像任務(wù)能力。

個人思考

谷歌Palm-E的工作向我們展示了將大語言模型和多模態(tài)應(yīng)用于機器人具身規(guī)劃中，可以動態(tài)規(guī)劃任務(wù)，同時展現(xiàn)了一定的遷移泛化性。但這個工作比較難以復(fù)現(xiàn)，模型易懂，但其中最大問題就在于它需要大量的數(shù)據(jù)，如同大多數(shù)其他AI工作一樣，機器人具身大規(guī)模數(shù)據(jù)才是最大的瓶頸。

查看全文

http://aloenet.com.cn/news/27825.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

php網(wǎng)站的客服窗口怎么做關(guān)鍵詞推廣怎么做

Palm-E兩大任務(wù)：視覺問答(VQA)和具身任務(wù)規(guī)劃

具身任務(wù)規(guī)劃

VQA

貢獻

Palm-E網(wǎng)絡(luò)結(jié)構(gòu)

訓(xùn)練與實驗

VQA任務(wù)

純語言任務(wù)

機器人具身規(guī)劃任務(wù)

TAMP(Task and Motion Planning)任務(wù)

Language-Table

移動操作任務(wù)

可供性評估（Affordance prediction）和失敗檢測

長水平規(guī)劃(Long-horizon)

實驗摘要和討論

通用性與特定任務(wù)模型–遷移性(Generalist vs specialist models – transfer)

數(shù)據(jù)有效性(Data efficiency）

保存純語言能力

總結(jié)

個人思考

相關(guān)文章：