當前位置：首頁 > news >正文

南京網(wǎng)站開發(fā)注冊app國外直播平臺tiktok

news 2025/7/8 2:47:51

南京網(wǎng)站開發(fā)注冊app,國外直播平臺tiktok,怎樣給自己的店子做網(wǎng)站,wordpress多站點用戶原創(chuàng)1從感知決策到具身智能的技術(shù)躍遷與挑戰(zhàn)(基座模型與VLA模型)2ALOHA機器人平臺：低成本、高精度雙臂操作及其進展深度解析3(上)通用智能體與機器人Transformer：Gato和RT-1技術(shù)解析及與LLM Transformer的異同4(下)通用智能體與機器人Transformer&#x…

	原創(chuàng)
1	從感知決策到具身智能的技術(shù)躍遷與挑戰(zhàn)(基座模型與VLA模型)
2	ALOHA機器人平臺：低成本、高精度雙臂操作及其進展深度解析
3	(上)通用智能體與機器人Transformer：Gato和RT-1技術(shù)解析及與LLM Transformer的異同
4	(下)通用智能體與機器人Transformer：Gato和RT-1技術(shù)解析及與LLM Transformer的異同

接上篇《(上)通用智能體與機器人Transformer：Gato和RT-1技術(shù)解析及與LLM Transformer的異同? 》

3. Google/DeepMind的“RT-1 (Robotics Transformer 1)”

RT-1

3.1. 動機與愿景：擴展機器人泛化能力

機器人領(lǐng)域的挑戰(zhàn)：與計算機視覺或自然語言處理不同，機器人領(lǐng)域在收集真實世界數(shù)據(jù)方面面臨獨特挑戰(zhàn)，這使得模型的泛化能力尤為關(guān)鍵。傳統(tǒng)的端到端機器人學習通常涉及收集狹隘、任務(wù)特定的數(shù)據(jù)。
借鑒基礎(chǔ)模型的成功經(jīng)驗： RT-1的動機是借鑒現(xiàn)代機器學習模型（它們利用大規(guī)模、多樣化、任務(wù)無關(guān)的數(shù)據(jù)集實現(xiàn)零樣本或少樣本性能）的成功經(jīng)驗，將其轉(zhuǎn)移到機器人領(lǐng)域。
成功的關(guān)鍵：作者認為，成功的關(guān)鍵在于開放式、任務(wù)無關(guān)的訓練，結(jié)合能夠吸收多樣化機器人數(shù)據(jù)的高容量架構(gòu)。這使得模型能夠“吸收”經(jīng)驗并學習適用于單個任務(wù)的通用模式，從而提高效率。

3.2. 技術(shù)架構(gòu)與輸入/輸出處理

基于Transformer的機器人控制模型：?RT-1（機器人Transformer 1）是一種基于Transformer的新型架構(gòu)，專門為大規(guī)模真實世界機器人控制而設(shè)計。它接收一系列圖像和自然語言任務(wù)描述作為輸入，并輸出機器人每一步需要執(zhí)行的動作。該模型通過將高維輸入（攝像機圖像、指令）和輸出（電機指令）編碼為緊湊的Token表示供Transformer使用，從而實現(xiàn)高效的運行時推理，以進行實時控制。

動作Token化：離散化處理

機器人的動作被分解為多個維度，以實現(xiàn)精細控制。這包括：

手臂運動： 7個變量，涵蓋了三維位置 (x, y, z)、三維姿態(tài) (roll, pitch, yaw) 以及夾持器的開合狀態(tài) 。 ?

底座運動： 3個變量，包括二維位置 (x, y) 和一個偏航角 (yaw) 。 ?

模式切換：一個額外的離散變量，用于在三種模式之間切換：控制手臂、控制底座或終止任務(wù) 。 ?

每個動作維度都被離散化為256個bin 。目標值被映射到這些均勻分布的bin中的一個。這種每維度離散化的動作表示允許模型捕獲復(fù)雜的多模態(tài)分布，這比標準連續(xù)高斯分布只能捕獲單一模式有顯著改進，從而提升了動作的精確性和多樣性。 ?

1. 連續(xù)動作 vs. 離散化動作連續(xù)動作（Continuous Actions）：在傳統(tǒng)的機器人控制中，機器人的關(guān)節(jié)角度、末端執(zhí)行器位置（x, y, z）、姿態(tài)（roll, pitch, yaw）等都是連續(xù)的數(shù)值。
例如，一個關(guān)節(jié)可能在 0 到 360 度之間連續(xù)變化，夾持器開合度可以在 0 到 0.1 米之間連續(xù)變化。大多數(shù)強化學習算法在處理這些連續(xù)動作時，通常會假設(shè)動作服從高斯分布，并直接輸出均值和方差，讓機器人從這個分布中采樣一個動作。離散化動作（Discretized Actions）：RT-1 沒有直接輸出連續(xù)值，而是將每個連續(xù)的動作維度（如手臂的 x 坐標、y 坐標、roll 等）都切分成固定數(shù)量的“小區(qū)間”或“桶”（bins）。就像把一條很長的線段均勻地切成 256 小段一樣。2. 256個Bin的含義“每個動作維度都被離散化為256個bin”意味著，對于像手臂的 x 坐標這樣的一個連續(xù)維度，它不再是一個無限可能的小數(shù)，而是被強制映射到 256 個預(yù)定義的整數(shù)索引中的一個。例如，如果手臂的 x 坐標范圍是 -1 到 1 米：Bin 0 可能對應(yīng) -1.0 到 -0.992 米Bin 1 可能對應(yīng) -0.992 到 -0.984 米...Bin 255 可能對應(yīng) 0.992 到 1.0 米這樣，模型要預(yù)測的不再是一個浮點數(shù)，而是一個介于 0 到 255 之間的離散整數(shù)。這使得動作預(yù)測變成了一個分類問題：模型需要從 256 個可能的 Bin 中選擇一個。3. 為什么這樣做（捕獲復(fù)雜多模態(tài)分布）這是這種離散化方法的關(guān)鍵優(yōu)勢，也是它比標準高斯分布有顯著改進的地方：標準連續(xù)高斯分布捕獲單一模式的局限性：如果你用一個**高斯分布**來預(yù)測動作，它會輸出一個均值和一個方差。這意味著它傾向于認為只有一個“最佳”的動作，而且這個最佳動作周圍的動作也比較可能。這種方法只能很好地表達**單一的、集中在某個點上的行為模式。然而，在復(fù)雜的機器人任務(wù)中，通?？赡艽嬖诙喾N同樣有效或合理的操作方式來完成一個子任務(wù)。例如，機器人可以從左邊或右邊抓取一個物體；或者在某個狀態(tài)下，既可以抬高手臂也可以降低手臂，這取決于下一步的策略。高斯分布很難同時表示這些多樣的、分散的“最佳”動作。它可能會把所有這些“最佳”動作平均掉，導致預(yù)測一個位于它們中間的、實際上可能并不好的動作。離散化動作的優(yōu)勢：捕獲復(fù)雜的多模態(tài)分布：通過將動作離散化為多個 Bin，模型可以為每個 Bin 學習一個概率分布（就像分類任務(wù)一樣）。如果存在多種合理的動作方式，模型可以同時為這些不同動作對應(yīng)的 Bin 分配較高的概率。例如，如果從左邊抓取物體對應(yīng)的 x 坐標在 Bin 50，從右邊抓取在 Bin 200，模型可以同時預(yù)測 Bin 50 和 Bin 200 都有高概率，而不是只預(yù)測一個介于 50 和 200 之間（可能導致撞到物體）的 Bin。這種能力使得模型能夠理解和預(yù)測動作空間中存在的多個“高峰”（modes），這些高峰代表了不同的可行行為。這被稱為捕獲多模態(tài)分布（multimodal distributions）。4. 提升動作的精確性和多樣性精確性（Precision）：通過細致地切分 256 個 Bin，模型可以在預(yù)測時達到相當高的精度，因為它仍然是在一個連續(xù)的范圍內(nèi)進行選擇，只是選擇的粒度是 1/256。同時，由于能捕獲多模態(tài)，模型可以更精確地選擇最適合當前狀態(tài)的某個動作模式。
多樣性（Diversity）：這是最大的優(yōu)點。當有多種合法且有效的行為時，模型不會被限制在單一預(yù)測上。它能夠識別并學習到這些不同的有效策略，從而使得機器人的行為更加靈活和多樣化，更能夠適應(yīng)復(fù)雜和不確定的真實世界環(huán)境。

表1: RT-1 動作空間離散化詳情

動作類型	維度數(shù)量	具體維度	離散化Bins數(shù)量
手臂運動	7	x, y, z, roll, pitch, yaw, 夾持器開合	256
底座運動	3	x, y, yaw	256
模式切換	1	控制手臂, 控制底座, 終止任務(wù)	3 (離散變量)

輸入處理流程：

(1)?視覺特征：圖像首先通過ImageNet預(yù)訓練的卷積神經(jīng)網(wǎng)絡(luò)（EfficientNet）進行處理。該EfficientNet通過FiLM（Feature-wise Linear Modulation）層，根據(jù)預(yù)訓練的自然語言指令嵌入進行條件化，以提取與任務(wù)相關(guān)的視覺特征。EfficientNet 的輸出是一系列高維的特征圖（feature maps），這些特征圖包含了圖像的豐富語義和空間信息，但通常具有較高的維度和冗余性。例如，一個?$H \times W \times C$?的特征圖，如果直接展平，會產(chǎn)生大量的特征向量。

FiLM (Feature-wise Linear Modulation) 是一種非常強大且通用的神經(jīng)網(wǎng)絡(luò)條件化方法，它允許一個神經(jīng)網(wǎng)絡(luò)的計算過程根據(jù)另一個輸入（條件信息）進行動態(tài)調(diào)整。這在多模態(tài)任務(wù)中特別有用，比如在 RT-1 中，它能讓圖像特征的提取過程被自然語言指令所“引導”。

FiLM 的核心思想是，它通過一個簡單的特征維度上的仿射變換（affine transformation）來調(diào)制（modulate）神經(jīng)網(wǎng)絡(luò)中間層的激活值。這個仿射變換的參數(shù)（縮放因子? $\gamma$ 和偏移量? $\beta$ ）是由另一個獨立的網(wǎng)絡(luò)（稱為 FiLM 生成器，FiLM Generator）根據(jù)條件信息動態(tài)生成的。

用數(shù)學公式表示，如果? $H$ ?是某個神經(jīng)網(wǎng)絡(luò)層（例如卷積層或全連接層）的輸出激活值，那么經(jīng)過 FiLM 層調(diào)制后的輸出? $H'$ 為：

$H' = \gamma \odot H + \beta$

其中：

$H$ 是輸入到 FiLM 層的特征圖或激活值。
$\odot$ 表示逐元素乘法 (element-wise multiplication)，也稱為 Hadamard 乘積。
$\gamma$ （gamma）是縮放因子 (scaling factor)。
$\beta$ （beta）是偏移量 (bias / shifting factor)。

關(guān)鍵在于：

$\gamma$ 和? $\beta$ 不是可學習的固定參數(shù)（像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層中的權(quán)重那樣），它們是由 FiLM 生成器根據(jù)條件信息動態(tài)計算出來的。
$\gamma$ ?和? $\beta$ ?的維度與? $H$ 的特征維度（即通道數(shù)）匹配，并且對每個特征通道獨立應(yīng)用。這就是“Feature-wise”的含義。

FiLM 生成器 (FiLM Generator)

FiLM 的另一個關(guān)鍵部分是FiLM 生成器。這是一個獨立的神經(jīng)網(wǎng)絡(luò)，它接收條件信息作為輸入，然后輸出對應(yīng)每個特征通道的 $\gamma$ 和? $\beta$ 值。

例如，在 RT-1 中：

條件信息：?自然語言指令（例如，經(jīng)過編碼器處理后的語言嵌入向量）。
FiLM 生成器：?一個小型神經(jīng)網(wǎng)絡(luò)（通常是幾層全連接層），它將語言嵌入向量作為輸入。
輸出：?生成器輸出兩個向量，一個用于? $\gamma$ ，一個用于? $\beta$ 。這兩個向量的維度與被調(diào)制的目標網(wǎng)絡(luò)層的特征通道數(shù)相同。

FiLM 如何影響神經(jīng)網(wǎng)絡(luò)計算

FiLM 通過動態(tài)地縮放和偏移特征激活值，賦予模型強大的條件化能力：

動態(tài)調(diào)整特征表示：?語言指令（或任何其他條件信息）可以通過? $\gamma$ ?和 $\beta$ ?來動態(tài)地調(diào)整圖像特征的表示。
例如，如果指令是“抓取紅色方塊”，FiLM 層可能會學習到提高與“紅色”特征相關(guān)的通道的激活值（通過大的? $\gamma$ ），并抑制與背景或不相關(guān)顏色相關(guān)的通道的激活值（通過小的?\ $\gamma$ 甚至負的? $\gamma$ ，如果后面跟著 ReLU 激活，這能有效地“關(guān)閉”某些通道）。
$\beta$ ?則可以用來調(diào)整特征的基線或激活閾值。
實現(xiàn)跨模態(tài)交互：?FiLM 使得視覺骨干網(wǎng)絡(luò)（例如 EfficientNet）的計算能夠被文本指令所“引導”。這意味著圖像特征的提取不再是靜態(tài)的，而是根據(jù)當前任務(wù)和指令進行自適應(yīng)的調(diào)整。
細粒度控制：?由于? $\gamma$ 和? $\beta$ 是逐特征（逐通道）計算的，FiLM 提供了對神經(jīng)網(wǎng)絡(luò)內(nèi)部特征表示的細粒度控制。這比簡單地將條件信息拼接（concatenation）到輸入特征中更強大，因為它可以直接修改特征的語義含義。
提高泛化能力：?通過條件化，模型可以更好地泛化到新的任務(wù)或場景。例如，如果模型學習了如何根據(jù)顏色指令處理圖像，它就可以在看到新顏色物體時，通過調(diào)整? $\gamma$ 和? $\beta$ 來適應(yīng)。

FiLM 層的原理是：通過一個輔助網(wǎng)絡(luò)（FiLM 生成器）根據(jù)外部條件信息動態(tài)生成縮放因子?\ $\gamma$ 和偏移量? $\beta$ ，然后將這些參數(shù)逐特征地應(yīng)用到目標神經(jīng)網(wǎng)絡(luò)層的激活值上，從而實現(xiàn)對目標網(wǎng)絡(luò)計算過程的動態(tài)調(diào)制。?這使得模型能夠根據(jù)條件信息自適應(yīng)地處理和理解數(shù)據(jù)，極大地增強了神經(jīng)網(wǎng)絡(luò)在多模態(tài)和條件生成任務(wù)中的靈活性和性能。

Token學習器模塊：在圖像和文本處理之后，RT-1架構(gòu)的一個關(guān)鍵組件是Token學習器模塊。該模塊負責從處理過的視覺特征中計算出一組緊湊的Token，然后將其輸入到Transformer中。這一步驟對于效率至關(guān)重要，因為Transformer網(wǎng)絡(luò)（盡管容量大）需要保持相對較小（僅接收48個Token作為輸入），以確?？焖偻评砗蛯θ祟愑脩舻捻憫?yīng)能力。這表明它專注于為Transformer提供高度壓縮的相關(guān)信息。

RT-1 的Token 學習器模塊 (Token Learner module) 是其架構(gòu)中一個非常重要的組件，它的主要作用是**將從圖像中提取的豐富但冗余的視覺特征，壓縮成一組緊湊、有代表性的 Token 序列，以便高效地輸入到 Transformer 模型中進行處理**。目的：Token 學習器模塊的任務(wù)就是將 EfficientNet 輸出的這些高維、冗余的視覺特征圖，轉(zhuǎn)化成一個**固定數(shù)量且高度壓縮的 Token 序列**。為什么要這樣做？因為 Transformer 的注意力機制計算成本與輸入序列長度的平方成正比。直接使用原始的圖像特征（例如，將每個像素或每個小塊的特征都視為一個 Token）會導致序列過長，使得 Transformer 的計算量過大，難以在實時機器人控制中應(yīng)用。Token 學習器通過“學習”的方式來選擇和組合最重要的視覺信息，從而有效地減少了序列長度，同時保留了關(guān)鍵的視覺信息。計算原理： Token 學習器模塊本質(zhì)上是一個**注意力機制或基于卷積的模塊**，它通過學習的方式從輸入特征圖中“提煉”出少數(shù)幾個代表性的 Token。具體的計算過程可以概括為：Query Generation：Token 學習器內(nèi)部會生成一組可學習的“查詢向量”（或稱“原型向量”）。這些查詢向量的數(shù)量就是最終希望得到的 Token 數(shù)量（例如，RT-1 使用 8 或 16 個 Token）。注：查詢向量作用類似于卷積核，它是通過一次次訓練學習到的，代表了不同的“關(guān)注點”，當一個圖像的視覺特征圖（Keys 和 Values）輸入時，每個查詢向量會計算它與特征圖中所有“鍵”向量的相似度。Token 學習器的輸出不是動作，而是一組固定數(shù)量的、壓縮了圖像核心信息的視覺 Token 序列注意力加權(quán) (Attention Weighting)**：這些查詢向量會與 EfficientNet 提取的視覺特征圖進行交互。這種交互通常通過一個**注意力機制**來實現(xiàn)。具體來說，每個查詢向量會與特征圖中的所有位置（或特征向量）計算相似度得分。這些相似度得分被歸一化（例如通過 Softmax）得到注意力權(quán)重。這些權(quán)重表示了特征圖中每個部分對當前查詢向量的“重要性”或“相關(guān)性”。加權(quán)求和 (Weighted Summation)**：將計算出的注意力權(quán)重應(yīng)用于原始的視覺特征圖。每個查詢向量會對應(yīng)一個“加權(quán)求和”后的特征向量，這個向量就是最終輸出的一個 Token。這意味著，每個 Token 實際上是原始特征圖中多個位置特征的**軟組合**，其中權(quán)重由注意力機制學習。輸出 Token 序列：** 最終，Token 學習器輸出一個固定數(shù)量的 Token 序列，例如 `[token_1, token_2, ..., token_N]`，其中每個 Token 都代表了圖像中經(jīng)過選擇和壓縮的關(guān)鍵視覺信息。類比理解：Token 學習器可以想象成一個“信息篩選器”或“摘要器”。它不是簡單地對圖像進行固定分割，而是學習哪些圖像區(qū)域或特征組合對于理解當前任務(wù)和預(yù)測動作是最重要的，并把這些重要信息壓縮到少量 Token 中。例如，在抓取任務(wù)中，Token 學習器可能會學習將注意力集中在物體及其周圍區(qū)域的特征，而忽略背景中不相關(guān)的細節(jié)。總結(jié) Token 學習器計算的關(guān)鍵點：輸入： 經(jīng)過 CNN（EfficientNet + FiLM）處理的高維、豐富的視覺特征圖。
輸出：一組數(shù)量固定且緊湊的視覺 Token 序列。
核心機制： 通常是基于注意力機制的加權(quán)求和，通過學習查詢向量與輸入特征圖的交互，動態(tài)地選擇和組合最重要的視覺信息。
目的： 壓縮視覺信息，減少序列長度，從而提高 Transformer 的計算效率和實時推理能力，同時保留對任務(wù)決策至關(guān)重要的視覺特征。

Transformer核心： RT-1的核心是一個僅解碼器Transformer網(wǎng)絡(luò)。該Transformer對Token學習器生成的緊湊Token集進行注意力處理，以生成離散的動作Token。動作是高度細粒度的，包括：
- 七個用于手臂運動的維度（x、y、z、滾轉(zhuǎn)、俯仰、偏航、夾持器開合）。
- 三個用于底座運動的維度（x、y、偏航）。
- 一個額外的離散維度，用于在三種操作模式之間切換：控制手臂、控制底座或終止回合。
閉環(huán)控制機制： RT-1以閉環(huán)控制方式運行，以3赫茲的頻率發(fā)出動作指令，直到發(fā)出“終止”動作或達到預(yù)設(shè)的時間步數(shù)。盡管其擁有3500萬參數(shù)，但由于其高效的架構(gòu)，實現(xiàn)了這種實時控制。

RT-1架構(gòu)的一個關(guān)鍵特點是，與Gato更統(tǒng)一的Token化方法不同，它在主Transformer之前使用了專門的預(yù)處理模塊，如帶有FiLM層的ImageNet預(yù)訓練EfficientNet和Token學習器。這表明，對于機器人技術(shù)而言，原始像素數(shù)據(jù)可能維度過高或噪聲過大，以至于純Transformer難以高效處理，尤其是在實時約束下。這種因果關(guān)系在于，這些專門模塊充當智能特征提取器和降維器，將最顯著的視覺和語言信息提煉成緊湊的Token表示（48個Token），然后由隨后的Transformer進行有效推理以生成動作。這更廣泛的意義是，對于真實世界的機器人技術(shù)，從原始像素到動作的純“端到端”Transformer可能尚未達到最佳或可行狀態(tài)；采用混合架構(gòu)，利用特定領(lǐng)域的感知組件，可以顯著提高效率和性能，彌合高層推理和低層控制之間的鴻溝。

3.3. 數(shù)據(jù)收集策略與泛化能力

特征	描述	來源
機器人數(shù)量	13臺 Everyday Robots (EDR) 移動機械臂車隊	Everyday Robots (EDR)
數(shù)據(jù)收集時長	17個月	EDR 機器人課堂 (辦公室廚房環(huán)境)
Episode數(shù)量	約13萬個	人類遠程遙操作演示
任務(wù)數(shù)量	超過700個，涵蓋多種高層技能和對象，如抓取、放置、開關(guān)抽屜等	-
數(shù)據(jù)來源多樣性	混合了EDR真實世界數(shù)據(jù)和Kuka機械臂的抓取數(shù)據(jù) (1:2比例)；可吸收模擬數(shù)據(jù)	EDR, Kuka (QT-Opt項目), 模擬環(huán)境
數(shù)據(jù)標注	每個Episode均有文本指令描述	-

真實世界機器人數(shù)據(jù)集的規(guī)模與多樣性： RT-1成功的基石是其大規(guī)模的真實世界機器人數(shù)據(jù)集。該數(shù)據(jù)集是在17個月內(nèi)使用13臺機器人收集的，包含約13萬個回合，涵蓋700多個不同的任務(wù)。
數(shù)據(jù)多樣性對泛化的重要性：指令列表和技能（例如，抓取、放置、開關(guān)抽屜、取物品、操作細長物體和打開罐子）的設(shè)計旨在測試對新指令的泛化能力以及執(zhí)行多種技能的能力。數(shù)據(jù)集的廣度和規(guī)模對于泛化至關(guān)重要，使模型能夠發(fā)現(xiàn)結(jié)構(gòu)相似任務(wù)之間的模式，并通過組合這些模式來執(zhí)行新任務(wù)。增加數(shù)據(jù)規(guī)模和多樣性可以提高模型的泛化能力。
可擴展性：該系統(tǒng)易于擴展，允許持續(xù)提供更多樣化的數(shù)據(jù)以提高其能力，因為在添加新指令時沒有對特定技能做出任何假設(shè)。
異構(gòu)數(shù)據(jù)源的整合： RT-1展現(xiàn)了從不同領(lǐng)域（如模擬或甚至不同類型的機器人，例如Kuka機器人用于垃圾分類，而RT-1主要使用Everyday Robots）有效吸收數(shù)據(jù)的卓越靈活性。至關(guān)重要的是，這種整合在保持原有任務(wù)性能的同時，提高了對新場景的泛化能力。

雖然RT-1的13萬個回合數(shù)據(jù)集在機器人領(lǐng)域已經(jīng)相當龐大，但研究材料中反復(fù)強調(diào)的“多樣性”與規(guī)模并重，這是一個關(guān)鍵的發(fā)現(xiàn)。其潛在趨勢是，對于物理世界交互而言，僅僅積累更多數(shù)據(jù)點（數(shù)量）的效果不如確保這些數(shù)據(jù)點涵蓋廣泛的任務(wù)、物體、環(huán)境乃至機器人形態(tài)（多樣性）。這種因果關(guān)系在于，多樣化的數(shù)據(jù)迫使模型學習更抽象、可遷移的表示和技能，而非僅僅記憶特定的軌跡或任務(wù)實例。RT-1能夠泛化到未見任務(wù)、干擾物和背景，并整合來自不同機器人或模擬的數(shù)據(jù)而性能不下降，正是這一點的例證。這更廣泛的意義在于，機器人數(shù)據(jù)收集策略必須優(yōu)先考慮廣度和可變性，積極尋找新穎的場景和條件，以在復(fù)雜、連續(xù)的物理世界中實現(xiàn)魯棒的泛化，這與互聯(lián)網(wǎng)規(guī)模文本數(shù)據(jù)相對更容易的可擴展性形成對比。

3.4. 性能與魯棒性

評估類別	RT-1成功率	Gato成功率	BC-Z成功率	BC-Z XL成功率	RT-1相對優(yōu)勢
已知任務(wù)	97%	65%	72%	-	顯著領(lǐng)先
未見任務(wù)	76%	-	-	-	比次優(yōu)基線高24%
干擾物魯棒性	83%	-	-	-	比次優(yōu)基線高36%
背景魯棒性	59%	-	-	-	比次優(yōu)基線高18%
長時程任務(wù) (Kitchen1)	67%	33%	53%	-	顯著領(lǐng)先
長時程任務(wù) (Kitchen2)	67%	0%	13%	-	顯著領(lǐng)先
Kuka數(shù)據(jù)融合 (垃圾桶揀選)	39% (EDR+Kuka)	-	22% (僅EDR)	-	接近翻倍

對已知任務(wù)的高性能： RT-1在700多個訓練指令上實現(xiàn)了97%的成功率。
對未知任務(wù)的顯著泛化： RT-1展現(xiàn)了強大的泛化能力，在從未見過的指令上執(zhí)行成功率為76%，比次優(yōu)基線高出24%。這表明它能夠推斷并應(yīng)用學習到的模式到新場景中。
對環(huán)境變化的魯棒性：該模型對環(huán)境變化也表現(xiàn)出顯著的魯棒性。在涉及干擾物的任務(wù)中成功率為83%，比次優(yōu)基線高出36%；在新的背景下任務(wù)成功率為59%，比次優(yōu)基線高出18%。這包括在其他模型失敗的全新廚房環(huán)境中保持性能。
長時序任務(wù)： RT-1的性能使其能夠在SayCan等框架內(nèi)執(zhí)行非常長的時序任務(wù)，最多可達50個階段。
與基線的比較：與Gato、BC-Z和BC-Z XL（BC-Z的更大版本）等模仿學習基線相比，RT-1在各項測試中均顯示出明顯的改進。雖然Gato是一個通用智能體，但RT-1在機器人領(lǐng)域顯得更加專業(yè)和高效。

盡管RT-1在未見任務(wù)上取得了76%的成功率，并在干擾物和背景魯棒性方面有顯著提升，但從已知任務(wù)97%的成功率下降到未見任務(wù)的76%成功率，揭示了“具身泛化鴻溝”。其潛在趨勢是，在物理世界中實現(xiàn)真正的零樣本泛化仍然極具挑戰(zhàn)，因為物理世界具有連續(xù)狀態(tài)、動態(tài)交互和不可預(yù)測的元素，這與語言領(lǐng)域相對離散和結(jié)構(gòu)化的特性形成對比。這種因果關(guān)系在于，即使有多樣化、大規(guī)模的真實世界數(shù)據(jù)和強大的Transformer模型，物理環(huán)境的巨大復(fù)雜性和無限變異性也使得模型難以完美地外推到全新場景。RT-1的貢獻在于顯著“縮小”了這一鴻溝，證明了基于Transformer的數(shù)據(jù)驅(qū)動方法是有效的。然而，更廣泛的意義在于，完全彌合這一鴻溝可能需要數(shù)據(jù)收集（例如，更高效的模擬到真實遷移、主動數(shù)據(jù)獲取）、架構(gòu)改進（例如，更好的物理歸納偏置）或更深層次地整合符號推理或規(guī)劃能力，以魯棒地處理真正的全新情況和長時序任務(wù)。

方面	Gato	RT-1
模型名稱	“通用智能體”	“機器人Transformer 1”
主要目標	多模態(tài)、多任務(wù)、多具身通用策略	真實世界機器人中的可擴展泛化模型
模型參數(shù)（約）	12億	約3500萬
處理的關(guān)鍵模態(tài)	圖像、文本、本體感受、關(guān)節(jié)扭矩、按鈕按壓	圖像、自然語言指令、機器人手臂/底座動作
核心架構(gòu)	僅解碼器Transformer	EfficientNet + FiLM + Token學習器 + Transformer
訓練范式	離線監(jiān)督學習	真實世界數(shù)據(jù)上的模仿學習
訓練數(shù)據(jù)規(guī)模（機器人相關(guān)）	大量數(shù)據(jù)集（模擬、真實世界、自然語言、圖像）	13萬個回合，700+任務(wù)，13臺機器人，17個月
泛化焦點	跨模態(tài)/任務(wù)的最廣泛通用性	機器人領(lǐng)域中對未見任務(wù)/環(huán)境的魯棒性和泛化能力

4. 區(qū)別：機器人Transformer與大型語言模型Transformer

4.1. 架構(gòu)相似性與基本原理

共享Transformer骨干：機器人Transformer（如RT-1和Gato）和大型語言模型都從根本上依賴于Transformer架構(gòu)。這種架構(gòu)的特點是其自注意力機制和并行處理能力，這使得它能夠高效處理序列數(shù)據(jù)并理解長距離依賴關(guān)系。
Token化概念：一個共同的基本原理是將多樣化輸入轉(zhuǎn)換為離散的Token序列。正如LLMs將文本Token化一樣，Gato將多模態(tài)數(shù)據(jù)Token化，而RT-1將圖像、語言指令和動作Token化。這種統(tǒng)一的表示使得Transformer能夠跨不同數(shù)據(jù)類型進行操作。
隨數(shù)據(jù)和參數(shù)的可擴展性：兩種范式都表明，性能和泛化能力隨著數(shù)據(jù)、計算和模型規(guī)模的增加而提升。這種“縮放定律”是一個核心的共同發(fā)現(xiàn)。
自學習/無監(jiān)督訓練潛力： Transformer及其衍生的LLMs都能夠進行自學習或無監(jiān)督訓練，使它們能夠?qū)W習語法、語言和知識。雖然Gato是監(jiān)督訓練的，但其具備強化學習的潛力被提及。

4.2. 目的與應(yīng)用領(lǐng)域的差異

LLMs：自然語言理解與生成： LLMs的主要目的是生成和理解人類自然語言。它們的應(yīng)用程序涵蓋文本生成、摘要、翻譯和對話式AI。
機器人Transformer：真實世界物理交互與控制：相比之下，機器人Transformer（以RT-1和Gato的機器人能力為例）旨在實現(xiàn)具身AI——在真實世界環(huán)境中與物理系統(tǒng)進行交互和控制。它們的目標是使機器人能夠執(zhí)行物理任務(wù)、導航和操縱物體。

盡管LLMs和機器人Transformer都利用了相同的Transformer架構(gòu)，但它們的最終目的和應(yīng)用領(lǐng)域存在根本性差異。LLMs在符號、語言領(lǐng)域運行，主要操作抽象概念并生成文本。然而，機器人Transformer則彌合了與物理世界之間的鴻溝，其“行動”具有切實的、現(xiàn)實世界的影響。其潛在趨勢是將人工智能能力從純粹的認知任務(wù)擴展到具身智能。這種因果關(guān)系在于，這種轉(zhuǎn)變引入了一系列新的復(fù)雜性和挑戰(zhàn)，主要與物理交互的連續(xù)性、動態(tài)性和安全性關(guān)鍵性相關(guān)。這更廣泛的意義是，雖然LLMs推動了人工智能在語言方面能夠“理解”和“生成”的界限，但機器人Transformer正在推動人工智能在物理世界中能夠“做”的界限，標志著邁向能夠感知、推理并在我們現(xiàn)實中行動的真正智能體的關(guān)鍵一步。

4.3. 輸入/輸出模態(tài)與處理的差異

LLMs：主要為文本輸入，文本輸出： LLMs通常以文本作為輸入，并生成文本作為輸出。它們的主要模態(tài)是語言，通過詞嵌入進行處理。
機器人Transformer：多模態(tài)感知輸入，物理動作輸出：
- 輸入：機器人Transformer處理更豐富、更復(fù)雜的多模態(tài)感知輸入，包括高維視覺數(shù)據(jù)（圖像）、本體感受反饋（機器人關(guān)節(jié)狀態(tài)）和自然語言指令。這些輸入代表著不斷變化的環(huán)境。
- 輸出：它們的輸出是物理動作，例如關(guān)節(jié)扭矩、按鈕按壓、手臂運動和底座運動，通常為了控制目的而離散化。
實時控制與動態(tài)環(huán)境：機器人技術(shù)要求實時響應(yīng)和低延遲（例如，RT-1以3Hz運行，Performer-MPC的延遲為8毫秒）。這是一個LLMs通常不面臨的關(guān)鍵約束。機器人技術(shù)面臨多模態(tài)表示、不斷變化的環(huán)境和有限計算的挑戰(zhàn)。

最根本的區(qū)別在于反饋循環(huán)的性質(zhì)。LLMs主要在符號信息（文本）的“讀寫”循環(huán)中操作。然而，機器人Transformer則嵌入在與物理世界交互的連續(xù)“感知-行動”循環(huán)中。其潛在趨勢是從處理靜態(tài)或順序呈現(xiàn)的數(shù)字數(shù)據(jù)，轉(zhuǎn)向與動態(tài)、連續(xù)且通常嘈雜的物理環(huán)境進行交互。這種因果關(guān)系在于，這需要處理高維、多模態(tài)的感知輸入（圖像、本體感受）并生成精確的、實時的物理動作。對特定頻率（例如，RT-1的3Hz）的閉環(huán)控制和低延遲的需求，使其與LLMs（其響應(yīng)時間通常更靈活）根本不同。更廣泛的意義在于，機器人Transformer必須應(yīng)對具身化的固有復(fù)雜性：噪聲、不確定性、物理約束以及行動在現(xiàn)實世界中的直接后果，而純粹在數(shù)字領(lǐng)域中運行的LLMs則無需面對這些。這也解釋了RT-1中專門的輸入處理（EfficientNet、Token學習器）等架構(gòu)選擇，旨在為Transformer提煉相關(guān)信息，這在純文本LLMs中并不那么突出。

4.4. 訓練數(shù)據(jù)特性與規(guī)模

LLMs：互聯(lián)網(wǎng)規(guī)模文本語料庫： LLMs的特點是在真正大規(guī)模的互聯(lián)網(wǎng)級文本數(shù)據(jù)集上進行訓練，這些數(shù)據(jù)集通常包含數(shù)十億網(wǎng)頁、維基百科等。這些數(shù)據(jù)集在語言表達的數(shù)量和多樣性上都非常龐大。
機器人Transformer：大規(guī)模、多樣化的真實世界機器人交互數(shù)據(jù)：盡管機器人數(shù)據(jù)集也很大，但其性質(zhì)根本不同。它們由真實世界的機器人經(jīng)驗組成，通常通過遙操作或自主探索收集，包含多模態(tài)傳感器讀數(shù)和相應(yīng)的動作。其規(guī)模（例如，RT-1的13萬個回合）在機器人領(lǐng)域是顯著的，但比互聯(lián)網(wǎng)文本數(shù)據(jù)小幾個數(shù)量級。重點在于物理領(lǐng)域內(nèi)任務(wù)、物體和環(huán)境的“多樣性”。
數(shù)據(jù)獲取挑戰(zhàn)：收集高質(zhì)量、多樣化的機器人數(shù)據(jù)比抓取互聯(lián)網(wǎng)文本更具挑戰(zhàn)性且成本更高。這一限制影響了機器人模型相對于LLMs可達到的規(guī)模。

訓練數(shù)據(jù)規(guī)模和獲取難度的巨大差異是機器人Transformer面臨的關(guān)鍵瓶頸。LLMs受益于互聯(lián)網(wǎng)上幾乎無限且易于獲取的文本數(shù)據(jù)，而機器人數(shù)據(jù)收集本質(zhì)上是資源密集型、耗時且昂貴的。其潛在趨勢是，數(shù)據(jù)可用性的這種差異直接影響了可實現(xiàn)的模型規(guī)模。這種因果關(guān)系在于，由于真實世界機器人數(shù)據(jù)難以達到互聯(lián)網(wǎng)規(guī)模，機器人模型（如RT-1的約3500萬參數(shù)，或Gato的12億參數(shù)）通常比最大的LLMs（數(shù)百億參數(shù)）小幾個數(shù)量級。更廣泛的意義是，通用機器人技術(shù)的未來進展將嚴重依賴于數(shù)據(jù)合成（例如，高保真模擬）、更高效的真實世界數(shù)據(jù)收集方法（例如，自主數(shù)據(jù)工廠、眾包遙操作），或開發(fā)更具樣本效率且能從較少數(shù)據(jù)中學習的模型。這個瓶頸從根本上限制了機器人Transformer當前可達到的規(guī)模，并因此限制了其相對于語言模型的涌現(xiàn)泛化能力，盡管它們共享架構(gòu)原理。

好的，這是機器人Transformer與大型語言模型Transformer的關(guān)鍵區(qū)別的 Markdown 格式表格：

方面	大型語言模型Transformer（LLM Transformer）	機器人Transformer（Robotics Transformer）
核心目的	自然語言理解與生成	真實世界物理交互與控制
典型輸入模態(tài)	文本	多模態(tài)：圖像、本體感受、自然語言
典型輸出模態(tài)	文本	物理動作（關(guān)節(jié)扭矩、按鈕按壓、手臂/底座運動）
主要訓練數(shù)據(jù)源	互聯(lián)網(wǎng)規(guī)模文本語料庫（例如，Common Crawl，維基百科）	大規(guī)模、多樣化的真實世界機器人交互數(shù)據(jù)
典型規(guī)模（參數(shù)）	數(shù)十億到數(shù)百億	數(shù)百萬到數(shù)十億（例如，RT-1約35M，Gato 1.2B）
主要挑戰(zhàn)	事實準確性、幻覺、偏見、訓練/推理計算成本。	實時控制、對動態(tài)/嘈雜環(huán)境的魯棒性、數(shù)據(jù)獲取難度/成本、物理交互中的安全性、模擬到真實遷移

5. 結(jié)論與未來展望

5.1. 貢獻總結(jié)

DeepMind的Gato通過在單一Transformer策略下統(tǒng)一多種模態(tài)，推動了通用人工智能的界限，展示了“單一大腦”智能體的巨大潛力。它將不同類型的數(shù)據(jù)序列化為統(tǒng)一的Token流，使Transformer能夠?qū)W習跨模態(tài)的通用策略，從而實現(xiàn)多任務(wù)、多具身的能力。

Google/DeepMind的RT-1則通過大規(guī)模、多樣化的數(shù)據(jù)收集和專門的Transformer架構(gòu)，在真實世界機器人泛化方面做出了重大貢獻。它展示了前所未有的魯棒性和任務(wù)性能，特別是在處理未見任務(wù)和環(huán)境變化方面。RT-1的成功表明，將LLMs的縮放定律應(yīng)用于機器人領(lǐng)域是可行的，盡管其架構(gòu)中包含了為處理高維感知數(shù)據(jù)而設(shè)計的特定預(yù)處理模塊。

5.2. 根本區(qū)別與共同原理的重申

盡管機器人Transformer和大型語言模型Transformer都利用了強大的Transformer架構(gòu)及其縮放定律，但它們在領(lǐng)域特定應(yīng)用上的差異導致了輸入/輸出模態(tài)、訓練數(shù)據(jù)特性和固有挑戰(zhàn)的根本性區(qū)別。LLMs主要在符號、語言領(lǐng)域運行，而機器人Transformer則專注于與物理世界的具身交互。這種從符號智能到具身智能的轉(zhuǎn)變是兩者核心分歧所在。

機器人Transformer必須應(yīng)對物理世界固有的復(fù)雜性，包括連續(xù)、動態(tài)、嘈雜的環(huán)境，以及對實時響應(yīng)和精確物理動作的嚴格要求。這與LLMs主要處理離散、結(jié)構(gòu)化文本數(shù)據(jù)的特點形成鮮明對比。

查看全文

http://aloenet.com.cn/news/47064.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡