當(dāng)前位置：首頁 > news >正文

廣州建設(shè)網(wǎng)站的公司外鏈下載

news 2025/7/5 23:33:15

廣州建設(shè)網(wǎng)站的公司,外鏈下載,深圳高端網(wǎng)站建設(shè)公司,門戶網(wǎng)站建設(shè)情況匯報(bào)25年2月來自浙大和菜鳥網(wǎng)絡(luò)的論文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。軌跡規(guī)劃對(duì)于自動(dòng)駕駛至關(guān)重要，可確保在復(fù)雜環(huán)境中安全高效地導(dǎo)航。雖然最近基于學(xué)習(xí)的方法&a…

25年2月來自浙大和菜鳥網(wǎng)絡(luò)的論文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。

軌跡規(guī)劃對(duì)于自動(dòng)駕駛至關(guān)重要，可確保在復(fù)雜環(huán)境中安全高效地導(dǎo)航。雖然最近基于學(xué)習(xí)的方法，特別是強(qiáng)化學(xué)習(xí) (RL)，在特定場(chǎng)景中顯示出良好的前景，但 RL 規(guī)劃器在訓(xùn)練效率低下和管理大規(guī)模真實(shí)駕駛場(chǎng)景方面仍存在困難。本文介紹 CarPlanner，一種使用 RL 生成多模態(tài)軌跡的一致自回歸規(guī)劃器。自回歸結(jié)構(gòu)可實(shí)現(xiàn)高效的大規(guī)模 RL 訓(xùn)練，而一致性的結(jié)合可通過在時(shí)間步驟中保持一致的時(shí)間一致性來確保穩(wěn)定的策略學(xué)習(xí)。此外，CarPlanner 采用具有專家指導(dǎo)的獎(jiǎng)勵(lì)函數(shù)和不變-視圖模塊的生成選擇框架，簡(jiǎn)化 RL 訓(xùn)練并提高策略性能。

軌跡規(guī)劃 [41] 在自動(dòng)駕駛中至關(guān)重要，它利用感知和軌跡預(yù)測(cè)模塊的輸出來生成自車的未來姿態(tài)?？刂破鞲櫾撘?guī)劃軌跡，產(chǎn)生閉環(huán)駕駛的控制命令。最近，基于學(xué)習(xí)的軌跡規(guī)劃備受關(guān)注，因其能夠自動(dòng)化算法迭代、消除繁瑣的規(guī)則設(shè)計(jì)并確保各種現(xiàn)實(shí)場(chǎng)景中的安全性和舒適性 [41]。

大多數(shù)現(xiàn)有研究 [3, 13, 19, 34] 采用模仿學(xué)習(xí) (IL) 來使規(guī)劃軌跡與人類專家的軌跡保持一致。然而，這種方法存在分布漂移 [33] 和因果混淆 [10] 的問題。強(qiáng)化學(xué)習(xí) (RL) 提供一種潛在的解決方案，它解決這些挑戰(zhàn)并通過獎(jiǎng)勵(lì)函數(shù)提供更豐富的監(jiān)督。盡管強(qiáng)化學(xué)習(xí)在游戲 [39]、機(jī)器人技術(shù) [22] 和語言模型 [28] 等領(lǐng)域表現(xiàn)出有效性，但它在大規(guī)模駕駛?cè)蝿?wù)中仍然存在訓(xùn)練效率低下和性能問題。

如圖（a）所示，該種方法涉及生成初始軌跡估計(jì)，然后通過 RL 的迭代應(yīng)用對(duì)其進(jìn)行細(xì)化。然而，包括 Gen-Drive [21] 在內(nèi)的最新研究表明，它仍然落后于最先進(jìn) IL 和基于規(guī)則的規(guī)劃器。這種方法的一個(gè)顯著限制是它忽略軌跡規(guī)劃任務(wù)中固有的時(shí)間因果關(guān)系。此外，在高維軌跡空間上直接優(yōu)化的復(fù)雜性可能會(huì)阻礙 RL 算法的性能。

自回歸模型，如圖（b）所示，其使用過渡模型中的單步策略循環(huán)地生成自車的姿態(tài)。在此類方法中，所有時(shí)間步驟中的自車姿態(tài)被合并以形成整體規(guī)劃軌跡?？紤]到時(shí)間因果關(guān)系，當(dāng)前的自回歸模型允許交互行為。然而，一個(gè)常見的限制是它們依賴于從動(dòng)作分布中進(jìn)行自回歸隨機(jī)采樣來生成多模態(tài)軌跡。這種普通的自回歸程序可能會(huì)損害長(zhǎng)期一致性，并不必要地?cái)U(kuò)大 RL 中的探索空間，從而導(dǎo)致性能不佳。

為了解決自回歸模型的局限性，本文引入 CarPlanner，這是一種一致的自回歸模型，旨在進(jìn)行高效、大規(guī)模的基于 RL 規(guī)劃器訓(xùn)練（見圖 ?）。CarPlanner 的關(guān)鍵見解是它將一致的模式表示作為自回歸模型的條件。

請(qǐng)?zhí)砑訄D片描述

MDP 用于對(duì)順序決策問題進(jìn)行建模，其形式為一個(gè)元組 ?S, A, P, R, ρ_0, γ, T?。S 是狀態(tài)空間。A 是動(dòng)作空間。P 是狀態(tài)轉(zhuǎn)換概率。R 表示獎(jiǎng)勵(lì)函數(shù)，有界。ρ_0 是初始狀態(tài)分布。T 是時(shí)間范圍，γ 是未來獎(jiǎng)勵(lì)的折扣因子。狀態(tài)-動(dòng)作序列定義為 τ =(s_0,a_0,s_1,a_1,…,s_T)，其中 s_t 和 a_t 是時(shí)間步驟 t 時(shí)的狀態(tài)和動(dòng)作。RL 的目標(biāo)是最大化預(yù)期回報(bào)。

狀態(tài) s_t 包含矢量表示的地圖和智體信息。地圖信息 m 包括道路網(wǎng)絡(luò)、交通信號(hào)燈等，用折線和多邊形表示。智體信息包括自車和其他交通智體的當(dāng)前和過去姿態(tài)，用折線表示。自車的智體索引為 0，交通智體的索引范圍從 1 到 N。對(duì)于每個(gè)智體 i，其歷史表示為 s^i_t?H:t，i ∈ {0,1,…,N}，其中 H 是歷史時(shí)間范圍。

將軌跡規(guī)劃任務(wù)建模為順序決策過程，并將自回歸模型分解為策略模型和轉(zhuǎn)換模型。連接軌跡規(guī)劃和自回歸模型的關(guān)鍵，是將動(dòng)作定義為自車的下一個(gè)姿態(tài)，即 a_t = s^0_t+1。因此，在推動(dòng)自回歸模型后，解碼后的姿勢(shì)被收集為自車規(guī)劃的軌跡，狀態(tài)序列進(jìn)一步分解為策略模型和轉(zhuǎn)換模型。這里典型的自回歸方法帶有固有的相關(guān)問題：跨時(shí)間的不一致行為源于策略分布，而策略分布取決于從動(dòng)作分布中進(jìn)行的隨機(jī)抽樣。

為了解決上述問題，在自回歸方式中引入隨時(shí)間步驟保持不變的一致性模式信息 c。由于專注于自車軌跡規(guī)劃，因此一致性模式 c 不會(huì)影響轉(zhuǎn)換模型。

這種一致性自回歸方式揭示一個(gè)生成-選擇框架，其中模式選擇器根據(jù)初始狀態(tài) s_0 對(duì)每種模式進(jìn)行評(píng)分，而軌跡生成器從模式條件策略中采樣來生成多模態(tài)軌跡。

該轉(zhuǎn)換模型需要在每個(gè)時(shí)間步中使用，因?yàn)樗鼤?huì)根據(jù)當(dāng)前狀態(tài) s_t 生成在時(shí)間步 t + 1 時(shí)的交通智體姿勢(shì)。實(shí)際上，這個(gè)過程非常耗時(shí)，而且使用這種轉(zhuǎn)換模型沒有看到性能提升，因此，用軌跡預(yù)測(cè)器 P (s_1:T^1:N |s_0 ) 作為非反應(yīng)性轉(zhuǎn)換模型，該模型在給定初始狀態(tài) s_0 的情況下一次性生成交通智體的所有未來姿勢(shì)。

規(guī)劃器架構(gòu)

CarPlanner 的框架如圖所示，包含四個(gè)關(guān)鍵組件：1) 非反應(yīng)式轉(zhuǎn)換模型、2) 模式選擇器、3) 軌跡生成器、和 4) 規(guī)則-增強(qiáng)選擇器。規(guī)劃器在生成-選擇框架內(nèi)運(yùn)行。

請(qǐng)?zhí)砑訄D片描述

給定初始狀態(tài) s_0 和所有可能的 N_mode 模式，軌跡選擇器評(píng)估并為每種模式分配分?jǐn)?shù)。然后，軌跡生成器生成與各自模式相對(duì)應(yīng)的 N_mode 軌跡。

對(duì)于軌跡生成器，初始狀態(tài) s_0 被復(fù)制 N_mode 次，每次都與 N_mode 模式之一相關(guān)聯(lián)，從而有效地創(chuàng)建 N_mode 平行世界。策略在這些模擬環(huán)境中執(zhí)行。在策略展開期間，軌跡預(yù)測(cè)器充當(dāng)狀態(tài)轉(zhuǎn)換模型，生成所有時(shí)間范圍內(nèi)交通智體的未來位置。

非反應(yīng)式轉(zhuǎn)換模型

該模塊以初始狀態(tài) s_0 作為輸入，輸出交通智體的未來軌跡。初始狀態(tài)由智體和地圖編碼器處理，然后由自注意 Transformer 編碼器 [43] 融合智體和地圖特征。然后將智體特征解碼為未來軌跡。

智體和地圖編碼器。狀態(tài) s_0 包含地圖和智體信息。地圖信息 m 由 N_m,1 條折線和 N_m,2 個(gè)多邊形組成。折線描述車道中心和車道邊界，每條折線包含 3 N_p 個(gè)點(diǎn)，其中 3 對(duì)應(yīng)車道中心、左邊界和右邊界。每個(gè)點(diǎn)的維度為 D_m = 9，并包含以下屬性：x、y、航向、速度限制和類別。連接時(shí)，左邊界和右邊界的點(diǎn)與中心點(diǎn)一起產(chǎn)生 N_m,1 × N_p × 3 D_m 的維度。

利用 PointNet [30] 從每條折線的點(diǎn)中提取特征，得到 N_m,1 × D 的維數(shù)，其中 D 表示特征維數(shù)。多邊形表示交叉路口、人行橫道、停車線等，每個(gè)多邊形包含 N_p 個(gè)點(diǎn)。利用另一個(gè) PointNet 從每個(gè)多邊形的點(diǎn)中提取特征，得到 N_m,2 × D 的維數(shù)。然后，將折線和多邊形的特征連??接起來形成整體地圖特征，得到 N_m × D 的維數(shù)。智體信息 A 由 N 個(gè)智體組成，每個(gè)智體保持過去 H 個(gè)時(shí)間步長(zhǎng)的姿勢(shì)。每個(gè)姿勢(shì)的維度為 D_a = 10，包括以下屬性：x、y、航向、速度、邊界框、時(shí)間步長(zhǎng)和類別。因此，智體信息的維度為 N × H × D_a。應(yīng)用另一個(gè) PointNet 從每個(gè)智體的姿勢(shì)中提取特征，故有 N × D 的智體特征維度。

模式選擇器

該模塊將 s_0 和縱向-橫向分解模式信息作為輸入，并輸出每種模式的概率。

路線-速度的分解模式。為了捕捉縱向行為，生成 N_lon 模式，表示與每種模式相關(guān)的軌跡平均速度。每個(gè)縱向模式 c_lon,j 定義為 j 的標(biāo)量值，在維度 D 上重復(fù)。因此，縱向模式的維數(shù)為 N_lon × D。對(duì)于橫向行為，使用圖搜索算法從地圖中識(shí)別 N_lat 條可能的路線。這些路線對(duì)應(yīng)于自車可用的車道。這些路線的維數(shù)為 N_lat × N_r × D_m。為了提取有意義的表示，用另一個(gè) PointNet 來聚合每條路線上 N_r 個(gè)點(diǎn)的特征，從而生成維度為 N_lat ×D 的橫向模式。為了創(chuàng)建全面的模式表示 c，結(jié)合橫向和縱向模式，得到 N_lat × N_lon × 2D 的組合維度。為了將此模式信息與其他特征維度對(duì)齊，將其傳遞通過線性層，映射回 N_lat × N_lon × D。N_mode = N_lat × N_lon。

基于查詢的 Transformer 解碼器。此解碼器用于將模式特征與從 s_0 派生的地圖和智體特征融合。在此框架中，模式用作查詢，而地圖和智體信息用作K-V。更新后的模式特征通過多層感知器 (MLP) 解碼以得出每個(gè)模式的分?jǐn)?shù)，然后使用 softmax 運(yùn)算符對(duì)其進(jìn)行歸一化。

軌跡生成器

該模塊以自回歸方式運(yùn)行，在給定當(dāng)前狀態(tài) s_t 和一致模式信息 c 的情況下，反復(fù)解碼自身車輛的下一個(gè)姿勢(shì) a_t。

不變-視圖模塊 (IVM)。在將模式和狀態(tài)輸入網(wǎng)絡(luò)之前，對(duì)它們進(jìn)行預(yù)處理以消除時(shí)間信息。對(duì)于狀態(tài) s_t 中的地圖和智體信息，選擇自身當(dāng)前姿勢(shì)的 KNN [29]，并僅將它們輸入到策略中。K 分別設(shè)置為地圖和智體元素的一半。對(duì)于捕捉橫向行為的路線，過濾掉那些段，其最接近自身車輛當(dāng)前姿勢(shì)的點(diǎn)作為起點(diǎn)，保留 K_r 個(gè)點(diǎn)。在這種情況下，K_r 設(shè)置為一條路線中 N_r 個(gè)點(diǎn)的四分之一。最后，將路線、智體和地圖姿勢(shì)轉(zhuǎn)換為當(dāng)前時(shí)間步 t 的自車坐標(biāo)系。從當(dāng)前時(shí)間步長(zhǎng) t 中減去歷史時(shí)間步長(zhǎng) t ? H : t，得到范圍為 ?H : 0 的時(shí)間步長(zhǎng)。

基于 Q 的 Transformer 解碼器。采用與模式選擇器相同的主干網(wǎng)絡(luò)架構(gòu)，但查詢維度不同。由于 IVM 以及不同模式產(chǎn)生不同狀態(tài)的事實(shí)，地圖和智體信息不能在模式之間共享。因此，融合每個(gè)單獨(dú)模式的信息。具體而言，Q維度為 1 × D，而 K-V 的維度為 (N + N_m) × D。輸出特征維度保持為 1 × D。需要強(qiáng)調(diào)的是，Transformer 解碼器可以并行處理來自多個(gè)模式的信息，無需使用一個(gè) for 循環(huán)按順序處理每個(gè)模式。

策略輸出。模式特征由兩個(gè)不同的頭處理：策略頭和 V 頭。每個(gè)頭包含自己的 MLP 來生成動(dòng)作分布的參數(shù)和相應(yīng)的 V 估計(jì)。采用高斯分布來建模動(dòng)作分布，在訓(xùn)練過程中，動(dòng)作從該分布中抽樣。相反，在推理過程中，利用分布平均來確定動(dòng)作。

規(guī)則-增強(qiáng)選擇器

該模塊首先引入一個(gè)基于規(guī)則的選擇器，以初始狀態(tài) s_0、多模態(tài)自車規(guī)劃軌跡和智體的預(yù)測(cè)未來軌跡為輸入。它計(jì)算駕駛導(dǎo)向指標(biāo)，例如安全性、進(jìn)度、舒適度等?；谝?guī)則的分?jǐn)?shù)和模式選擇器提供的模式分?jǐn)?shù)的加權(quán)和，獲得綜合分?jǐn)?shù)。得分最高的自車規(guī)劃軌跡被選為軌跡規(guī)劃器的輸出。

訓(xùn)練

首先訓(xùn)練非反應(yīng)式轉(zhuǎn)換模型，并在模式選擇器和軌跡生成器的訓(xùn)練期間凍結(jié)權(quán)重。不會(huì)將所有模式都輸入生成器，而是采用贏者通吃策略，其中根據(jù)自車真實(shí)軌跡分配正模式，并將其作為軌跡生成器的條件。

模式分配。正的橫向模式由真實(shí)軌跡的端點(diǎn)決定。從起始位置到該端點(diǎn)的縱向距離被劃分為 N_lon 間隔，正的縱向模式對(duì)應(yīng)于相關(guān)距離間隔。

損失函數(shù)。對(duì)于選擇器，使用交叉熵?fù)p失，即正模式的負(fù)對(duì)數(shù)似然和回歸自車真實(shí)軌跡的副任務(wù)。對(duì)于生成器，使用 PPO [36] 損失，它由三部分組成：策略改進(jìn)、價(jià)值估計(jì)和熵。

獎(jiǎng)勵(lì)函數(shù)。為了處理不同的場(chǎng)景，用自車未來姿勢(shì)和真值之間負(fù)的位移誤差 (DE) 作為通用獎(jiǎng)勵(lì)。還引入其他術(shù)語來提高軌跡質(zhì)量：碰撞率和可駕駛區(qū)域合規(guī)性。如果未來姿勢(shì)發(fā)生碰撞或超出可駕駛區(qū)域，則獎(jiǎng)勵(lì)設(shè)置為 -1；否則為 0。

模式丟棄。為了防止由于 Transformers 的殘差連接而過度依賴模式或路線信息，在訓(xùn)練期間實(shí)現(xiàn)一個(gè)模式丟棄模塊，該模塊隨機(jī)屏蔽路線以緩解此問題。

遵循 PDM [9] 來構(gòu)建訓(xùn)練和驗(yàn)證分割。訓(xùn)練集的大小為 176,218，其中使用所有可用的場(chǎng)景類型，每種類型有 4,000 個(gè)場(chǎng)景。驗(yàn)證集的大小為 1,118，其中選擇 100 個(gè)場(chǎng)景和 14 種類型。在 2 個(gè) NVIDIA 3090 GPU 中對(duì)所有模型進(jìn)行 50 次訓(xùn)練。每個(gè) GPU 的批次大小為 64。用 AdamW 優(yōu)化器，初始學(xué)習(xí)率為 1e-4，當(dāng)驗(yàn)證損失停止減少時(shí)，以耐心為 0 和減少因子為 0.3 降低學(xué)習(xí)率。對(duì)于 RL 訓(xùn)練，設(shè)置折扣 γ = 0.1 和 GAE 參數(shù) λ = 0.9。價(jià)值、策略和熵?fù)p失的權(quán)重分別設(shè)置為 3、100 和 0.001。縱向模式數(shù)設(shè)置為 12，橫向模式的最大數(shù)量設(shè)置為 5。

如下算法 1 概述 CarPlanner 框架的訓(xùn)練過程。該過程涉及兩個(gè)主要步驟：(1) 訓(xùn)練非反應(yīng)性轉(zhuǎn)換模型，(2) 訓(xùn)練模式選擇器和軌跡生成器。

請(qǐng)?zhí)砑訄D片描述

查看全文

http://aloenet.com.cn/news/41459.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

廣州建設(shè)網(wǎng)站的公司外鏈下載

規(guī)劃器架構(gòu)

非反應(yīng)式轉(zhuǎn)換模型

模式選擇器

軌跡生成器

規(guī)則-增強(qiáng)選擇器

訓(xùn)練

相關(guān)文章：