南京網(wǎng)站開發(fā)注冊app國外直播平臺tiktok
原創(chuàng) | |
1 | 從感知決策到具身智能的技術(shù)躍遷與挑戰(zhàn)(基座模型與VLA模型) |
2 | ALOHA機器人平臺:低成本、高精度雙臂操作及其進展深度解析 |
3 | (上)通用智能體與機器人Transformer:Gato和RT-1技術(shù)解析及與LLM Transformer的異同 |
4 | (下)通用智能體與機器人Transformer:Gato和RT-1技術(shù)解析及與LLM Transformer的異同 |
接上篇《(上)通用智能體與機器人Transformer:Gato和RT-1技術(shù)解析及與LLM Transformer的異同? 》
3. Google/DeepMind的“RT-1 (Robotics Transformer 1)”
RT-1
3.1. 動機與愿景:擴展機器人泛化能力
- 機器人領(lǐng)域的挑戰(zhàn): 與計算機視覺或自然語言處理不同,機器人領(lǐng)域在收集真實世界數(shù)據(jù)方面面臨獨特挑戰(zhàn),這使得模型的泛化能力尤為關(guān)鍵。傳統(tǒng)的端到端機器人學習通常涉及收集狹隘、任務(wù)特定的數(shù)據(jù)。
- 借鑒基礎(chǔ)模型的成功經(jīng)驗: RT-1的動機是借鑒現(xiàn)代機器學習模型(它們利用大規(guī)模、多樣化、任務(wù)無關(guān)的數(shù)據(jù)集實現(xiàn)零樣本或少樣本性能)的成功經(jīng)驗,將其轉(zhuǎn)移到機器人領(lǐng)域。
- 成功的關(guān)鍵: 作者認為,成功的關(guān)鍵在于開放式、任務(wù)無關(guān)的訓練,結(jié)合能夠吸收多樣化機器人數(shù)據(jù)的高容量架構(gòu)。這使得模型能夠“吸收”經(jīng)驗并學習適用于單個任務(wù)的通用模式,從而提高效率。
3.2. 技術(shù)架構(gòu)與輸入/輸出處理
??
- 基于Transformer的機器人控制模型:?RT-1(機器人Transformer 1)是一種基于Transformer的新型架構(gòu),專門為大規(guī)模真實世界機器人控制而設(shè)計。它接收一系列圖像和自然語言任務(wù)描述作為輸入,并輸出機器人每一步需要執(zhí)行的動作。該模型通過將高維輸入(攝像機圖像、指令)和輸出(電機指令)編碼為緊湊的Token表示供Transformer使用,從而實現(xiàn)高效的運行時推理,以進行實時控制。
動作Token化:離散化處理
機器人的動作被分解為多個維度,以實現(xiàn)精細控制。這包括:
手臂運動: 7個變量,涵蓋了三維位置 (x, y, z)、三維姿態(tài) (roll, pitch, yaw) 以及夾持器的開合狀態(tài) 。 ?
底座運動: 3個變量,包括二維位置 (x, y) 和一個偏航角 (yaw) 。 ?
模式切換: 一個額外的離散變量,用于在三種模式之間切換:控制手臂、控制底座或終止任務(wù) 。 ?
每個動作維度都被離散化為256個bin 。目標值被映射到這些均勻分布的bin中的一個 。這種每維度離散化的動作表示允許模型捕獲復(fù)雜的多模態(tài)分布,這比標準連續(xù)高斯分布只能捕獲單一模式有顯著改進,從而提升了動作的精確性和多樣性 。 ?
1. 連續(xù)動作 vs. 離散化動作連續(xù)動作(Continuous Actions):在傳統(tǒng)的機器人控制中,機器人的關(guān)節(jié)角度、末端執(zhí)行器位置(x, y, z)、姿態(tài)(roll, pitch, yaw)等都是連續(xù)的數(shù)值。
例如,一個關(guān)節(jié)可能在 0 到 360 度之間連續(xù)變化,夾持器開合度可以在 0 到 0.1 米之間連續(xù)變化。大多數(shù)強化學習算法在處理這些連續(xù)動作時,通常會假設(shè)動作服從高斯分布,并直接輸出均值和方差,讓機器人從這個分布中采樣一個動作。離散化動作(Discretized Actions):RT-1 沒有直接輸出連續(xù)值,而是將每個連續(xù)的動作維度(如手臂的 x 坐標、y 坐標、roll 等)都切分成固定數(shù)量的“小區(qū)間”或“桶”(bins)。就像把一條很長的線段均勻地切成 256 小段一樣。2. 256個Bin的含義“每個動作維度都被離散化為256個bin”意味著,對于像手臂的 x 坐標這樣的一個連續(xù)維度,它不再是一個無限可能的小數(shù),而是被強制映射到 256 個預(yù)定義的整數(shù)索引中的一個。例如,如果手臂的 x 坐標范圍是 -1 到 1 米:Bin 0 可能對應(yīng) -1.0 到 -0.992 米Bin 1 可能對應(yīng) -0.992 到 -0.984 米...Bin 255 可能對應(yīng) 0.992 到 1.0 米這樣,模型要預(yù)測的不再是一個浮點數(shù),而是一個介于 0 到 255 之間的離散整數(shù)。這使得動作預(yù)測變成了一個分類問題:模型需要從 256 個可能的 Bin 中選擇一個。3. 為什么這樣做(捕獲復(fù)雜多模態(tài)分布)這是這種離散化方法的關(guān)鍵優(yōu)勢,也是它比標準高斯分布有顯著改進的地方:標準連續(xù)高斯分布捕獲單一模式的局限性:如果你用一個**高斯分布**來預(yù)測動作,它會輸出一個均值和一個方差。這意味著它傾向于認為只有一個“最佳”的動作,而且這個最佳動作周圍的動作也比較可能。這種方法只能很好地表達**單一的、集中在某個點上的行為模式。然而,在復(fù)雜的機器人任務(wù)中,通??赡艽嬖诙喾N同樣有效或合理的操作方式來完成一個子任務(wù)。例如,機器人可以從左邊或右邊抓取一個物體;或者在某個狀態(tài)下,既可以抬高手臂也可以降低手臂,這取決于下一步的策略。高斯分布很難同時表示這些多樣的、分散的“最佳”動作。它可能會把所有這些“最佳”動作平均掉,導致預(yù)測一個位于它們中間的、實際上可能并不好的動作。離散化動作的優(yōu)勢:捕獲復(fù)雜的多模態(tài)分布:通過將動作離散化為多個 Bin,模型可以為每個 Bin 學習一個概率分布(就像分類任務(wù)一樣)。如果存在多種合理的動作方式,模型可以同時為這些不同動作對應(yīng)的 Bin 分配較高的概率。例如,如果從左邊抓取物體對應(yīng)的 x 坐標在 Bin 50,從右邊抓取在 Bin 200,模型可以同時預(yù)測 Bin 50 和 Bin 200 都有高概率,而不是只預(yù)測一個介于 50 和 200 之間(可能導致撞到物體)的 Bin。這種能力使得模型能夠理解和預(yù)測動作空間中存在的多個“高峰”(modes),這些高峰代表了不同的可行行為。這被稱為捕獲多模態(tài)分布(multimodal distributions)。4. 提升動作的精確性和多樣性精確性(Precision):通過細致地切分 256 個 Bin,模型可以在預(yù)測時達到相當高的精度,因為它仍然是在一個連續(xù)的范圍內(nèi)進行選擇,只是選擇的粒度是 1/256。同時,由于能捕獲多模態(tài),模型可以更精確地選擇最適合當前狀態(tài)的某個動作模式。
多樣性(Diversity):這是最大的優(yōu)點。當有多種合法且有效的行為時,模型不會被限制在單一預(yù)測上。它能夠識別并學習到這些不同的有效策略,從而使得機器人的行為更加靈活和多樣化,更能夠適應(yīng)復(fù)雜和不確定的真實世界環(huán)境。
表1: RT-1 動作空間離散化詳情
動作類型 | 維度數(shù)量 | 具體維度 | 離散化Bins數(shù)量 |
---|---|---|---|
手臂運動 | 7 | x, y, z, roll, pitch, yaw, 夾持器開合 | 256 |
底座運動 | 3 | x, y, yaw | 256 |
模式切換 | 1 | 控制手臂, 控制底座, 終止任務(wù) | 3 (離散變量) |
-
輸入處理流程:
(1)?視覺特征: 圖像首先通過ImageNet預(yù)訓練的卷積神經(jīng)網(wǎng)絡(luò)(EfficientNet)進行處理。該EfficientNet通過FiLM(Feature-wise Linear Modulation)層,根據(jù)預(yù)訓練的自然語言指令嵌入進行條件化,以提取與任務(wù)相關(guān)的視覺特征。EfficientNet 的輸出是一系列高維的特征圖(feature maps),這些特征圖包含了圖像的豐富語義和空間信息,但通常具有較高的維度和冗余性。例如,一個?\(H \times W \times C\)?的特征圖,如果直接展平,會產(chǎn)生大量的特征向量。
FiLM (Feature-wise Linear Modulation) 是一種非常強大且通用的神經(jīng)網(wǎng)絡(luò)條件化方法,它允許一個神經(jīng)網(wǎng)絡(luò)的計算過程根據(jù)另一個輸入(條件信息)進行動態(tài)調(diào)整。這在多模態(tài)任務(wù)中特別有用,比如在 RT-1 中,它能讓圖像特征的提取過程被自然語言指令所“引導”。
FiLM 的核心思想是,它通過一個簡單的特征維度上的仿射變換(affine transformation)來調(diào)制(modulate)神經(jīng)網(wǎng)絡(luò)中間層的激活值。這個仿射變換的參數(shù)(縮放因子?和偏移量?
)是由另一個獨立的網(wǎng)絡(luò)(稱為 FiLM 生成器,FiLM Generator)根據(jù)條件信息動態(tài)生成的。
用數(shù)學公式表示,如果??是某個神經(jīng)網(wǎng)絡(luò)層(例如卷積層或全連接層)的輸出激活值,那么經(jīng)過 FiLM 層調(diào)制后的輸出?
為:
其中:
是輸入到 FiLM 層的特征圖或激活值。
表示逐元素乘法 (element-wise multiplication),也稱為 Hadamard 乘積。
(gamma)是縮放因子 (scaling factor)。
(beta)是偏移量 (bias / shifting factor)。
關(guān)鍵在于:
和?
不是可學習的固定參數(shù)(像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層中的權(quán)重那樣),它們是由 FiLM 生成器根據(jù)條件信息動態(tài)計算出來的。
?和?
?的維度與?
的特征維度(即通道數(shù))匹配,并且對每個特征通道獨立應(yīng)用。這就是“Feature-wise”的含義。
FiLM 生成器 (FiLM Generator)
FiLM 的另一個關(guān)鍵部分是FiLM 生成器。這是一個獨立的神經(jīng)網(wǎng)絡(luò),它接收條件信息作為輸入,然后輸出對應(yīng)每個特征通道的和?
值。
例如,在 RT-1 中:
- 條件信息:?自然語言指令(例如,經(jīng)過編碼器處理后的語言嵌入向量)。
- FiLM 生成器:?一個小型神經(jīng)網(wǎng)絡(luò)(通常是幾層全連接層),它將語言嵌入向量作為輸入。
- 輸出:?生成器輸出兩個向量,一個用于?
,一個用于?
。這兩個向量的維度與被調(diào)制的目標網(wǎng)絡(luò)層的特征通道數(shù)相同。
FiLM 如何影響神經(jīng)網(wǎng)絡(luò)計算
FiLM 通過動態(tài)地縮放和偏移特征激活值,賦予模型強大的條件化能力:
-
動態(tài)調(diào)整特征表示:?語言指令(或任何其他條件信息)可以通過?
?和
?來動態(tài)地調(diào)整圖像特征的表示。
-
例如,如果指令是“抓取紅色方塊”,FiLM 層可能會學習到提高與“紅色”特征相關(guān)的通道的激活值(通過大的?
),并抑制與背景或不相關(guān)顏色相關(guān)的通道的激活值(通過小的?\
甚至負的?
,如果后面跟著 ReLU 激活,這能有效地“關(guān)閉”某些通道)。
-
?則可以用來調(diào)整特征的基線或激活閾值。
-
實現(xiàn)跨模態(tài)交互:?FiLM 使得視覺骨干網(wǎng)絡(luò)(例如 EfficientNet)的計算能夠被文本指令所“引導”。這意味著圖像特征的提取不再是靜態(tài)的,而是根據(jù)當前任務(wù)和指令進行自適應(yīng)的調(diào)整。
-
細粒度控制:?由于?
和?
是逐特征(逐通道)計算的,FiLM 提供了對神經(jīng)網(wǎng)絡(luò)內(nèi)部特征表示的細粒度控制。這比簡單地將條件信息拼接(concatenation)到輸入特征中更強大,因為它可以直接修改特征的語義含義。
-
提高泛化能力:?通過條件化,模型可以更好地泛化到新的任務(wù)或場景。例如,如果模型學習了如何根據(jù)顏色指令處理圖像,它就可以在看到新顏色物體時,通過調(diào)整?
和?
來適應(yīng)。
FiLM 層的原理是:通過一個輔助網(wǎng)絡(luò)(FiLM 生成器)根據(jù)外部條件信息動態(tài)生成縮放因子?\和偏移量?
,然后將這些參數(shù)逐特征地應(yīng)用到目標神經(jīng)網(wǎng)絡(luò)層的激活值上,從而實現(xiàn)對目標網(wǎng)絡(luò)計算過程的動態(tài)調(diào)制。?這使得模型能夠根據(jù)條件信息自適應(yīng)地處理和理解數(shù)據(jù),極大地增強了神經(jīng)網(wǎng)絡(luò)在多模態(tài)和條件生成任務(wù)中的靈活性和性能。
- Token學習器模塊: 在圖像和文本處理之后,RT-1架構(gòu)的一個關(guān)鍵組件是Token學習器模塊。該模塊負責從處理過的視覺特征中計算出一組緊湊的Token,然后將其輸入到Transformer中。這一步驟對于效率至關(guān)重要,因為Transformer網(wǎng)絡(luò)(盡管容量大)需要保持相對較小(僅接收48個Token作為輸入),以確??焖偻评砗蛯θ祟愑脩舻捻憫?yīng)能力。這表明它專注于為Transformer提供高度壓縮的相關(guān)信息。
RT-1 的Token 學習器模塊 (Token Learner module) 是其架構(gòu)中一個非常重要的組件,它的主要作用是**將從圖像中提取的豐富但冗余的視覺特征,壓縮成一組緊湊、有代表性的 Token 序列,以便高效地輸入到 Transformer 模型中進行處理**。目的:Token 學習器模塊的任務(wù)就是將 EfficientNet 輸出的這些高維、冗余的視覺特征圖,轉(zhuǎn)化成一個**固定數(shù)量且高度壓縮的 Token 序列**。為什么要這樣做?因為 Transformer 的注意力機制計算成本與輸入序列長度的平方成正比。直接使用原始的圖像特征(例如,將每個像素或每個小塊的特征都視為一個 Token)會導致序列過長,使得 Transformer 的計算量過大,難以在實時機器人控制中應(yīng)用。Token 學習器通過“學習”的方式來選擇和組合最重要的視覺信息,從而有效地減少了序列長度,同時保留了關(guān)鍵的視覺信息。計算原理: Token 學習器模塊本質(zhì)上是一個**注意力機制或基于卷積的模塊**,它通過學習的方式從輸入特征圖中“提煉”出少數(shù)幾個代表性的 Token。具體的計算過程可以概括為:Query Generation:Token 學習器內(nèi)部會生成一組可學習的“查詢向量”(或稱“原型向量”)。這些查詢向量的數(shù)量就是最終希望得到的 Token 數(shù)量(例如,RT-1 使用 8 或 16 個 Token)。注:查詢向量作用類似于卷積核,它是通過一次次訓練學習到的,代表了不同的“關(guān)注點”,當一個圖像的視覺特征圖(Keys 和 Values)輸入時,每個查詢向量會計算它與特征圖中所有“鍵”向量的相似度。Token 學習器的輸出不是動作,而是一組固定數(shù)量的、壓縮了圖像核心信息的視覺 Token 序列注意力加權(quán) (Attention Weighting)**:這些查詢向量會與 EfficientNet 提取的視覺特征圖進行交互。這種交互通常通過一個**注意力機制**來實現(xiàn)。具體來說,每個查詢向量會與特征圖中的所有位置(或特征向量)計算相似度得分。這些相似度得分被歸一化(例如通過 Softmax)得到注意力權(quán)重。這些權(quán)重表示了特征圖中每個部分對當前查詢向量的“重要性”或“相關(guān)性”。加權(quán)求和 (Weighted Summation)**:將計算出的注意力權(quán)重應(yīng)用于原始的視覺特征圖。每個查詢向量會對應(yīng)一個“加權(quán)求和”后的特征向量,這個向量就是最終輸出的一個 Token。這意味著,每個 Token 實際上是原始特征圖中多個位置特征的**軟組合**,其中權(quán)重由注意力機制學習。輸出 Token 序列:** 最終,Token 學習器輸出一個固定數(shù)量的 Token 序列,例如 `[token_1, token_2, ..., token_N]`,其中每個 Token 都代表了圖像中經(jīng)過選擇和壓縮的關(guān)鍵視覺信息。類比理解:Token 學習器可以想象成一個“信息篩選器”或“摘要器”。它不是簡單地對圖像進行固定分割,而是學習哪些圖像區(qū)域或特征組合對于理解當前任務(wù)和預(yù)測動作是最重要的,并把這些重要信息壓縮到少量 Token 中。例如,在抓取任務(wù)中,Token 學習器可能會學習將注意力集中在物體及其周圍區(qū)域的特征,而忽略背景中不相關(guān)的細節(jié)。總結(jié) Token 學習器計算的關(guān)鍵點:輸入: 經(jīng)過 CNN(EfficientNet + FiLM)處理的高維、豐富的視覺特征圖。
輸出:一組數(shù)量固定且緊湊的視覺 Token 序列。
核心機制: 通常是基于注意力機制的加權(quán)求和,通過學習查詢向量與輸入特征圖的交互,動態(tài)地選擇和組合最重要的視覺信息。
目的: 壓縮視覺信息,減少序列長度,從而提高 Transformer 的計算效率和實時推理能力,同時保留對任務(wù)決策至關(guān)重要的視覺特征。
- Transformer核心: RT-1的核心是一個僅解碼器Transformer網(wǎng)絡(luò)。該Transformer對Token學習器生成的緊湊Token集進行注意力處理,以生成離散的動作Token。動作是高度細粒度的,包括:
- 七個用于手臂運動的維度(x、y、z、滾轉(zhuǎn)、俯仰、偏航、夾持器開合)。
- 三個用于底座運動的維度(x、y、偏航)。
- 一個額外的離散維度,用于在三種操作模式之間切換:控制手臂、控制底座或終止回合。
-
閉環(huán)控制機制: RT-1以閉環(huán)控制方式運行,以3赫茲的頻率發(fā)出動作指令,直到發(fā)出“終止”動作或達到預(yù)設(shè)的時間步數(shù)。盡管其擁有3500萬參數(shù),但由于其高效的架構(gòu),實現(xiàn)了這種實時控制。
RT-1架構(gòu)的一個關(guān)鍵特點是,與Gato更統(tǒng)一的Token化方法不同,它在主Transformer之前使用了專門的預(yù)處理模塊,如帶有FiLM層的ImageNet預(yù)訓練EfficientNet和Token學習器。這表明,對于機器人技術(shù)而言,原始像素數(shù)據(jù)可能維度過高或噪聲過大,以至于純Transformer難以高效處理, 尤其是在實時約束下。這種因果關(guān)系在于,這些專門模塊充當智能特征提取器和降維器,將最顯著的視覺和語言信息提煉成緊湊的Token表示(48個Token),然后由隨后的Transformer進行有效推理以生成動作。這更廣泛的意義是,對于真實世界的機器人技術(shù),從原始像素到動作的純“端到端”Transformer可能尚未達到最佳或可行狀態(tài); 采用混合架構(gòu),利用特定領(lǐng)域的感知組件,可以顯著提高效率和性能,彌合高層推理和低層控制之間的鴻溝。
3.3. 數(shù)據(jù)收集策略與泛化能力
特征 | 描述 | 來源 |
---|---|---|
機器人數(shù)量 | 13臺 Everyday Robots (EDR) 移動機械臂車隊 | Everyday Robots (EDR) |
數(shù)據(jù)收集時長 | 17個月 | EDR 機器人課堂 (辦公室廚房環(huán)境) |
Episode數(shù)量 | 約13萬個 | 人類遠程遙操作演示 |
任務(wù)數(shù)量 | 超過700個,涵蓋多種高層技能和對象,如抓取、放置、開關(guān)抽屜等 | - |
數(shù)據(jù)來源多樣性 | 混合了EDR真實世界數(shù)據(jù)和Kuka機械臂的抓取數(shù)據(jù) (1:2比例);可吸收模擬數(shù)據(jù) | EDR, Kuka (QT-Opt項目), 模擬環(huán)境 |
數(shù)據(jù)標注 | 每個Episode均有文本指令描述 | - |
- 真實世界機器人數(shù)據(jù)集的規(guī)模與多樣性: RT-1成功的基石是其大規(guī)模的真實世界機器人數(shù)據(jù)集。該數(shù)據(jù)集是在17個月內(nèi)使用13臺機器人收集的,包含約13萬個回合,涵蓋700多個不同的任務(wù)。
- 數(shù)據(jù)多樣性對泛化的重要性: 指令列表和技能(例如,抓取、放置、開關(guān)抽屜、取物品、操作細長物體和打開罐子)的設(shè)計旨在測試對新指令的泛化能力以及執(zhí)行多種技能的能力。數(shù)據(jù)集的廣度和規(guī)模對于泛化至關(guān)重要,使模型能夠發(fā)現(xiàn)結(jié)構(gòu)相似任務(wù)之間的模式,并通過組合這些模式來執(zhí)行新任務(wù)。增加數(shù)據(jù)規(guī)模和多樣性可以提高模型的泛化能力。
- 可擴展性: 該系統(tǒng)易于擴展,允許持續(xù)提供更多樣化的數(shù)據(jù)以提高其能力,因為在添加新指令時沒有對特定技能做出任何假設(shè)。
-
異構(gòu)數(shù)據(jù)源的整合: RT-1展現(xiàn)了從不同領(lǐng)域(如模擬或甚至不同類型的機器人,例如Kuka機器人用于垃圾分類,而RT-1主要使用Everyday Robots)有效吸收數(shù)據(jù)的卓越靈活性。至關(guān)重要的是,這種整合在保持原有任務(wù)性能的同時,提高了對新場景的泛化能力。
雖然RT-1的13萬個回合數(shù)據(jù)集在機器人領(lǐng)域已經(jīng)相當龐大,但研究材料中反復(fù)強調(diào)的“多樣性”與規(guī)模并重,這是一個關(guān)鍵的發(fā)現(xiàn)。其潛在趨勢是,對于物理世界交互而言,僅僅積累更多數(shù)據(jù)點(數(shù)量)的效果不如確保這些數(shù)據(jù)點涵蓋廣泛的任務(wù)、物體、環(huán)境乃至機器人形態(tài)(多樣性)。這種因果關(guān)系在于,多樣化的數(shù)據(jù)迫使模型學習更抽象、可遷移的表示和技能,而非僅僅記憶特定的軌跡或任務(wù)實例。RT-1能夠泛化到未見任務(wù)、干擾物和背景,并整合來自不同機器人或模擬的數(shù)據(jù)而性能不下降,正是這一點的例證。這更廣泛的意義在于,機器人數(shù)據(jù)收集策略必須優(yōu)先考慮廣度和可變性,積極尋找新穎的場景和條件,以在復(fù)雜、連續(xù)的物理世界中實現(xiàn)魯棒的泛化,這與互聯(lián)網(wǎng)規(guī)模文本數(shù)據(jù)相對更容易的可擴展性形成對比。
3.4. 性能與魯棒性
評估類別 | RT-1成功率 | Gato成功率 | BC-Z成功率 | BC-Z XL成功率 | RT-1相對優(yōu)勢 |
---|---|---|---|---|---|
已知任務(wù) | 97% | 65% | 72% | - | 顯著領(lǐng)先 |
未見任務(wù) | 76% | - | - | - | 比次優(yōu)基線高24% |
干擾物魯棒性 | 83% | - | - | - | 比次優(yōu)基線高36% |
背景魯棒性 | 59% | - | - | - | 比次優(yōu)基線高18% |
長時程任務(wù) (Kitchen1) | 67% | 33% | 53% | - | 顯著領(lǐng)先 |
長時程任務(wù) (Kitchen2) | 67% | 0% | 13% | - | 顯著領(lǐng)先 |
Kuka數(shù)據(jù)融合 (垃圾桶揀選) | 39% (EDR+Kuka) | - | 22% (僅EDR) | - | 接近翻倍 |
- 對已知任務(wù)的高性能: RT-1在700多個訓練指令上實現(xiàn)了97%的成功率。
- 對未知任務(wù)的顯著泛化: RT-1展現(xiàn)了強大的泛化能力,在從未見過的指令上執(zhí)行成功率為76%,比次優(yōu)基線高出24%。這表明它能夠推斷并應(yīng)用學習到的模式到新場景中。
- 對環(huán)境變化的魯棒性: 該模型對環(huán)境變化也表現(xiàn)出顯著的魯棒性。在涉及干擾物的任務(wù)中成功率為83%,比次優(yōu)基線高出36%;在新的背景下任務(wù)成功率為59%,比次優(yōu)基線高出18%。這包括在其他模型失敗的全新廚房環(huán)境中保持性能。
- 長時序任務(wù): RT-1的性能使其能夠在SayCan等框架內(nèi)執(zhí)行非常長的時序任務(wù),最多可達50個階段。
-
與基線的比較: 與Gato、BC-Z和BC-Z XL(BC-Z的更大版本)等模仿學習基線相比,RT-1在各項測試中均顯示出明顯的改進。雖然Gato是一個通用智能體,但RT-1在機器人領(lǐng)域顯得更加專業(yè)和高效。
盡管RT-1在未見任務(wù)上取得了76%的成功率,并在干擾物和背景魯棒性方面有顯著提升,但從已知任務(wù)97%的成功率下降到未見任務(wù)的76%成功率,揭示了“具身泛化鴻溝”。其潛在趨勢是,在物理世界中實現(xiàn)真正的零樣本泛化仍然極具挑戰(zhàn),因為物理世界具有連續(xù)狀態(tài)、動態(tài)交互和不可預(yù)測的元素,這與語言領(lǐng)域相對離散和結(jié)構(gòu)化的特性形成對比。這種因果關(guān)系在于,即使有多樣化、大規(guī)模的真實世界數(shù)據(jù)和強大的Transformer模型,物理環(huán)境的巨大復(fù)雜性和無限變異性也使得模型難以完美地外推到全新場景。RT-1的貢獻在于顯著“縮小”了這一鴻溝,證明了基于Transformer的數(shù)據(jù)驅(qū)動方法是有效的。然而,更廣泛的意義在于,完全彌合這一鴻溝可能需要數(shù)據(jù)收集(例如,更高效的模擬到真實遷移、主動數(shù)據(jù)獲取)、架構(gòu)改進(例如,更好的物理歸納偏置)或更深層次地整合符號推理或規(guī)劃能力,以魯棒地處理真正的全新情況和長時序任務(wù)。
方面 | Gato | RT-1 |
---|---|---|
模型名稱 | “通用智能體” | “機器人Transformer 1” |
主要目標 | 多模態(tài)、多任務(wù)、多具身通用策略 | 真實世界機器人中的可擴展泛化模型 |
模型參數(shù)(約) | 12億 | 約3500萬 |
處理的關(guān)鍵模態(tài) | 圖像、文本、本體感受、關(guān)節(jié)扭矩、按鈕按壓 | 圖像、自然語言指令、機器人手臂/底座動作 |
核心架構(gòu) | 僅解碼器Transformer | EfficientNet + FiLM + Token學習器 + Transformer |
訓練范式 | 離線監(jiān)督學習 | 真實世界數(shù)據(jù)上的模仿學習 |
訓練數(shù)據(jù)規(guī)模(機器人相關(guān)) | 大量數(shù)據(jù)集(模擬、真實世界、自然語言、圖像) | 13萬個回合,700+任務(wù),13臺機器人,17個月 |
泛化焦點 | 跨模態(tài)/任務(wù)的最廣泛通用性 | 機器人領(lǐng)域中對未見任務(wù)/環(huán)境的魯棒性和泛化能力 |
4. 區(qū)別:機器人Transformer與大型語言模型Transformer
4.1. 架構(gòu)相似性與基本原理
- 共享Transformer骨干: 機器人Transformer(如RT-1和Gato)和大型語言模型都從根本上依賴于Transformer架構(gòu)。這種架構(gòu)的特點是其自注意力機制和并行處理能力,這使得它能夠高效處理序列數(shù)據(jù)并理解長距離依賴關(guān)系。
- Token化概念: 一個共同的基本原理是將多樣化輸入轉(zhuǎn)換為離散的Token序列。正如LLMs將文本Token化一樣,Gato將多模態(tài)數(shù)據(jù)Token化,而RT-1將圖像、語言指令和動作Token化。這種統(tǒng)一的表示使得Transformer能夠跨不同數(shù)據(jù)類型進行操作。
- 隨數(shù)據(jù)和參數(shù)的可擴展性: 兩種范式都表明,性能和泛化能力隨著數(shù)據(jù)、計算和模型規(guī)模的增加而提升。這種“縮放定律”是一個核心的共同發(fā)現(xiàn)。
- 自學習/無監(jiān)督訓練潛力: Transformer及其衍生的LLMs都能夠進行自學習或無監(jiān)督訓練,使它們能夠?qū)W習語法、語言和知識。雖然Gato是監(jiān)督訓練的,但其具備強化學習的潛力被提及。
4.2. 目的與應(yīng)用領(lǐng)域的差異
- LLMs:自然語言理解與生成: LLMs的主要目的是生成和理解人類自然語言。它們的應(yīng)用程序涵蓋文本生成、摘要、翻譯和對話式AI。
-
機器人Transformer:真實世界物理交互與控制: 相比之下,機器人Transformer(以RT-1和Gato的機器人能力為例)旨在實現(xiàn)具身AI——在真實世界環(huán)境中與物理系統(tǒng)進行交互和控制。它們的目標是使機器人能夠執(zhí)行物理任務(wù)、導航和操縱物體。
盡管LLMs和機器人Transformer都利用了相同的Transformer架構(gòu),但它們的最終目的和應(yīng)用領(lǐng)域存在根本性差異。LLMs在符號、語言領(lǐng)域運行,主要操作抽象概念并生成文本。然而,機器人Transformer則彌合了與物理世界之間的鴻溝,其“行動”具有切實的、現(xiàn)實世界的影響。其潛在趨勢是將人工智能能力從純粹的認知任務(wù)擴展到具身智能。這種因果關(guān)系在于,這種轉(zhuǎn)變引入了一系列新的復(fù)雜性和挑戰(zhàn),主要與物理交互的連續(xù)性、動態(tài)性和安全性關(guān)鍵性相關(guān)。這更廣泛的意義是,雖然LLMs推動了人工智能在語言方面能夠“理解”和“生成”的界限,但機器人Transformer正在推動人工智能在物理世界中能夠“做”的界限,標志著邁向能夠感知、推理并在我們現(xiàn)實中行動的真正智能體的關(guān)鍵一步。
4.3. 輸入/輸出模態(tài)與處理的差異
- LLMs:主要為文本輸入,文本輸出: LLMs通常以文本作為輸入,并生成文本作為輸出。它們的主要模態(tài)是語言,通過詞嵌入進行處理。
- 機器人Transformer:多模態(tài)感知輸入,物理動作輸出:
- 輸入: 機器人Transformer處理更豐富、更復(fù)雜的多模態(tài)感知輸入,包括高維視覺數(shù)據(jù)(圖像)、本體感受反饋(機器人關(guān)節(jié)狀態(tài))和自然語言指令。這些輸入代表著不斷變化的環(huán)境。
- 輸出: 它們的輸出是物理動作,例如關(guān)節(jié)扭矩、按鈕按壓、手臂運動和底座運動,通常為了控制目的而離散化。
-
實時控制與動態(tài)環(huán)境: 機器人技術(shù)要求實時響應(yīng)和低延遲(例如,RT-1以3Hz運行,Performer-MPC的延遲為8毫秒)。這是一個LLMs通常不面臨的關(guān)鍵約束。機器人技術(shù)面臨多模態(tài)表示、不斷變化的環(huán)境和有限計算的挑戰(zhàn)。
最根本的區(qū)別在于反饋循環(huán)的性質(zhì)。LLMs主要在符號信息(文本)的“讀寫”循環(huán)中操作。然而,機器人Transformer則嵌入在與物理世界交互的連續(xù)“感知-行動”循環(huán)中。其潛在趨勢是從處理靜態(tài)或順序呈現(xiàn)的數(shù)字數(shù)據(jù),轉(zhuǎn)向與動態(tài)、連續(xù)且通常嘈雜的物理環(huán)境進行交互。這種因果關(guān)系在于,這需要處理高維、多模態(tài)的感知輸入(圖像、本體感受)并生成精確的、實時的物理動作。對特定頻率(例如,RT-1的3Hz)的閉環(huán)控制和低延遲的需求,使其與LLMs(其響應(yīng)時間通常更靈活)根本不同。更廣泛的意義在于,機器人Transformer必須應(yīng)對具身化的固有復(fù)雜性:噪聲、不確定性、物理約束以及行動在現(xiàn)實世界中的直接后果,而純粹在數(shù)字領(lǐng)域中運行的LLMs則無需面對這些。這也解釋了RT-1中專門的輸入處理(EfficientNet、Token學習器)等架構(gòu)選擇,旨在為Transformer提煉相關(guān)信息,這在純文本LLMs中并不那么突出。
4.4. 訓練數(shù)據(jù)特性與規(guī)模
- LLMs:互聯(lián)網(wǎng)規(guī)模文本語料庫: LLMs的特點是在真正大規(guī)模的互聯(lián)網(wǎng)級文本數(shù)據(jù)集上進行訓練,這些數(shù)據(jù)集通常包含數(shù)十億網(wǎng)頁、維基百科等。這些數(shù)據(jù)集在語言表達的數(shù)量和多樣性上都非常龐大。
- 機器人Transformer:大規(guī)模、多樣化的真實世界機器人交互數(shù)據(jù): 盡管機器人數(shù)據(jù)集也很大,但其性質(zhì)根本不同。它們由真實世界的機器人經(jīng)驗組成,通常通過遙操作或自主探索收集,包含多模態(tài)傳感器讀數(shù)和相應(yīng)的動作。其規(guī)模(例如,RT-1的13萬個回合)在機器人領(lǐng)域是顯著的,但比互聯(lián)網(wǎng)文本數(shù)據(jù)小幾個數(shù)量級。重點在于物理領(lǐng)域內(nèi)任務(wù)、物體和環(huán)境的“多樣性”。
-
數(shù)據(jù)獲取挑戰(zhàn): 收集高質(zhì)量、多樣化的機器人數(shù)據(jù)比抓取互聯(lián)網(wǎng)文本更具挑戰(zhàn)性且成本更高。這一限制影響了機器人模型相對于LLMs可達到的規(guī)模。
訓練數(shù)據(jù)規(guī)模和獲取難度的巨大差異是機器人Transformer面臨的關(guān)鍵瓶頸。LLMs受益于互聯(lián)網(wǎng)上幾乎無限且易于獲取的文本數(shù)據(jù),而機器人數(shù)據(jù)收集本質(zhì)上是資源密集型、耗時且昂貴的。其潛在趨勢是,數(shù)據(jù)可用性的這種差異直接影響了可實現(xiàn)的模型規(guī)模。這種因果關(guān)系在于,由于真實世界機器人數(shù)據(jù)難以達到互聯(lián)網(wǎng)規(guī)模,機器人模型(如RT-1的約3500萬參數(shù),或Gato的12億參數(shù))通常比最大的LLMs(數(shù)百億參數(shù))小幾個數(shù)量級。更廣泛的意義是,通用機器人技術(shù)的未來進展將嚴重依賴于數(shù)據(jù)合成(例如,高保真模擬)、更高效的真實世界數(shù)據(jù)收集方法(例如,自主數(shù)據(jù)工廠、眾包遙操作),或開發(fā)更具樣本效率且能從較少數(shù)據(jù)中學習的模型。這個瓶頸從根本上限制了機器人Transformer當前可達到的規(guī)模,并因此限制了其相對于語言模型的涌現(xiàn)泛化能力,盡管它們共享架構(gòu)原理。
好的,這是機器人Transformer與大型語言模型Transformer的關(guān)鍵區(qū)別的 Markdown 格式表格:
方面 | 大型語言模型Transformer(LLM Transformer) | 機器人Transformer(Robotics Transformer) |
---|---|---|
核心目的 | 自然語言理解與生成 | 真實世界物理交互與控制 |
典型輸入模態(tài) | 文本 | 多模態(tài):圖像、本體感受、自然語言 |
典型輸出模態(tài) | 文本 | 物理動作(關(guān)節(jié)扭矩、按鈕按壓、手臂/底座運動) |
主要訓練數(shù)據(jù)源 | 互聯(lián)網(wǎng)規(guī)模文本語料庫(例如,Common Crawl,維基百科) | 大規(guī)模、多樣化的真實世界機器人交互數(shù)據(jù) |
典型規(guī)模(參數(shù)) | 數(shù)十億到數(shù)百億 | 數(shù)百萬到數(shù)十億(例如,RT-1約35M,Gato 1.2B) |
主要挑戰(zhàn) | 事實準確性、幻覺、偏見、訓練/推理計算成本。 | 實時控制、對動態(tài)/嘈雜環(huán)境的魯棒性、數(shù)據(jù)獲取難度/成本、物理交互中的安全性、模擬到真實遷移 |
5. 結(jié)論與未來展望
5.1. 貢獻總結(jié)
DeepMind的Gato通過在單一Transformer策略下統(tǒng)一多種模態(tài),推動了通用人工智能的界限,展示了“單一大腦”智能體的巨大潛力。它將不同類型的數(shù)據(jù)序列化為統(tǒng)一的Token流,使Transformer能夠?qū)W習跨模態(tài)的通用策略,從而實現(xiàn)多任務(wù)、多具身的能力。
Google/DeepMind的RT-1則通過大規(guī)模、多樣化的數(shù)據(jù)收集和專門的Transformer架構(gòu),在真實世界機器人泛化方面做出了重大貢獻。它展示了前所未有的魯棒性和任務(wù)性能,特別是在處理未見任務(wù)和環(huán)境變化方面。RT-1的成功表明,將LLMs的縮放定律應(yīng)用于機器人領(lǐng)域是可行的,盡管其架構(gòu)中包含了為處理高維感知數(shù)據(jù)而設(shè)計的特定預(yù)處理模塊。
5.2. 根本區(qū)別與共同原理的重申
盡管機器人Transformer和大型語言模型Transformer都利用了強大的Transformer架構(gòu)及其縮放定律,但它們在領(lǐng)域特定應(yīng)用上的差異導致了輸入/輸出模態(tài)、訓練數(shù)據(jù)特性和固有挑戰(zhàn)的根本性區(qū)別。LLMs主要在符號、語言領(lǐng)域運行,而機器人Transformer則專注于與物理世界的具身交互。這種從符號智能到具身智能的轉(zhuǎn)變是兩者核心分歧所在。
機器人Transformer必須應(yīng)對物理世界固有的復(fù)雜性,包括連續(xù)、動態(tài)、嘈雜的環(huán)境,以及對實時響應(yīng)和精確物理動作的嚴格要求。這與LLMs主要處理離散、結(jié)構(gòu)化文本數(shù)據(jù)的特點形成鮮明對比。