国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

廣州建設(shè)網(wǎng)站的公司外鏈下載

廣州建設(shè)網(wǎng)站的公司,外鏈下載,深圳高端網(wǎng)站建設(shè)公司,門戶網(wǎng)站建設(shè)情況匯報(bào)25年2月來自浙大和菜鳥網(wǎng)絡(luò)的論文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。 軌跡規(guī)劃對(duì)于自動(dòng)駕駛至關(guān)重要,可確保在復(fù)雜環(huán)境中安全高效地導(dǎo)航。雖然最近基于學(xué)習(xí)的方法&a…

25年2月來自浙大和菜鳥網(wǎng)絡(luò)的論文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。

軌跡規(guī)劃對(duì)于自動(dòng)駕駛至關(guān)重要,可確保在復(fù)雜環(huán)境中安全高效地導(dǎo)航。雖然最近基于學(xué)習(xí)的方法,特別是強(qiáng)化學(xué)習(xí) (RL),在特定場(chǎng)景中顯示出良好的前景,但 RL 規(guī)劃器在訓(xùn)練效率低下和管理大規(guī)模真實(shí)駕駛場(chǎng)景方面仍存在困難。本文介紹 CarPlanner,一種使用 RL 生成多模態(tài)軌跡的一致自回歸規(guī)劃器。自回歸結(jié)構(gòu)可實(shí)現(xiàn)高效的大規(guī)模 RL 訓(xùn)練,而一致性的結(jié)合可通過在時(shí)間步驟中保持一致的時(shí)間一致性來確保穩(wěn)定的策略學(xué)習(xí)。此外,CarPlanner 采用具有專家指導(dǎo)的獎(jiǎng)勵(lì)函數(shù)和不變-視圖模塊的生成選擇框架,簡(jiǎn)化 RL 訓(xùn)練并提高策略性能。

軌跡規(guī)劃 [41] 在自動(dòng)駕駛中至關(guān)重要,它利用感知和軌跡預(yù)測(cè)模塊的輸出來生成自車的未來姿態(tài)??刂破鞲櫾撘?guī)劃軌跡,產(chǎn)生閉環(huán)駕駛的控制命令。最近,基于學(xué)習(xí)的軌跡規(guī)劃備受關(guān)注,因其能夠自動(dòng)化算法迭代、消除繁瑣的規(guī)則設(shè)計(jì)并確保各種現(xiàn)實(shí)場(chǎng)景中的安全性和舒適性 [41]。

大多數(shù)現(xiàn)有研究 [3, 13, 19, 34] 采用模仿學(xué)習(xí) (IL) 來使規(guī)劃軌跡與人類專家的軌跡保持一致。然而,這種方法存在分布漂移 [33] 和因果混淆 [10] 的問題。強(qiáng)化學(xué)習(xí) (RL) 提供一種潛在的解決方案,它解決這些挑戰(zhàn)并通過獎(jiǎng)勵(lì)函數(shù)提供更豐富的監(jiān)督。盡管強(qiáng)化學(xué)習(xí)在游戲 [39]、機(jī)器人技術(shù) [22] 和語言模型 [28] 等領(lǐng)域表現(xiàn)出有效性,但它在大規(guī)模駕駛?cè)蝿?wù)中仍然存在訓(xùn)練效率低下和性能問題。

如圖(a)所示,該種方法涉及生成初始軌跡估計(jì),然后通過 RL 的迭代應(yīng)用對(duì)其進(jìn)行細(xì)化。然而,包括 Gen-Drive [21] 在內(nèi)的最新研究表明,它仍然落后于最先進(jìn) IL 和基于規(guī)則的規(guī)劃器。這種方法的一個(gè)顯著限制是它忽略軌跡規(guī)劃任務(wù)中固有的時(shí)間因果關(guān)系。此外,在高維軌跡空間上直接優(yōu)化的復(fù)雜性可能會(huì)阻礙 RL 算法的性能。

自回歸模型,如圖 (b)所示,其使用過渡模型中的單步策略循環(huán)地生成自車的姿態(tài)。在此類方法中,所有時(shí)間步驟中的自車姿態(tài)被合并以形成整體規(guī)劃軌跡??紤]到時(shí)間因果關(guān)系,當(dāng)前的自回歸模型允許交互行為。然而,一個(gè)常見的限制是它們依賴于從動(dòng)作分布中進(jìn)行自回歸隨機(jī)采樣來生成多模態(tài)軌跡。這種普通的自回歸程序可能會(huì)損害長(zhǎng)期一致性,并不必要地?cái)U(kuò)大 RL 中的探索空間,從而導(dǎo)致性能不佳。

為了解決自回歸模型的局限性,本文引入 CarPlanner,這是一種一致的自回歸模型,旨在進(jìn)行高效、大規(guī)模的基于 RL 規(guī)劃器訓(xùn)練(見圖 ?)。CarPlanner 的關(guān)鍵見解是它將一致的模式表示作為自回歸模型的條件。

請(qǐng)?zhí)砑訄D片描述

MDP 用于對(duì)順序決策問題進(jìn)行建模,其形式為一個(gè)元組 ?S, A, P, R, ρ_0, γ, T?。S 是狀態(tài)空間。A 是動(dòng)作空間。P 是狀態(tài)轉(zhuǎn)換概率。R 表示獎(jiǎng)勵(lì)函數(shù),有界。ρ_0 是初始狀態(tài)分布。T 是時(shí)間范圍,γ 是未來獎(jiǎng)勵(lì)的折扣因子。狀態(tài)-動(dòng)作序列定義為 τ =(s_0,a_0,s_1,a_1,…,s_T),其中 s_t 和 a_t 是時(shí)間步驟 t 時(shí)的狀態(tài)和動(dòng)作。RL 的目標(biāo)是最大化預(yù)期回報(bào)。

狀態(tài) s_t 包含矢量表示的地圖和智體信息。地圖信息 m 包括道路網(wǎng)絡(luò)、交通信號(hào)燈等,用折線和多邊形表示。智體信息包括自車和其他交通智體的當(dāng)前和過去姿態(tài),用折線表示。自車的智體索引為 0,交通智體的索引范圍從 1 到 N。對(duì)于每個(gè)智體 i,其歷史表示為 s^i_t?H:t,i ∈ {0,1,…,N},其中 H 是歷史時(shí)間范圍。

將軌跡規(guī)劃任務(wù)建模為順序決策過程,并將自回歸模型分解為策略模型和轉(zhuǎn)換模型。連接軌跡規(guī)劃和自回歸模型的關(guān)鍵,是將動(dòng)作定義為自車的下一個(gè)姿態(tài),即 a_t = s^0_t+1。因此,在推動(dòng)自回歸模型后,解碼后的姿勢(shì)被收集為自車規(guī)劃的軌跡,狀態(tài)序列進(jìn)一步分解為策略模型和轉(zhuǎn)換模型。這里典型的自回歸方法帶有固有的相關(guān)問題:跨時(shí)間的不一致行為源于策略分布,而策略分布取決于從動(dòng)作分布中進(jìn)行的隨機(jī)抽樣。

為了解決上述問題,在自回歸方式中引入隨時(shí)間步驟保持不變的一致性模式信息 c。由于專注于自車軌跡規(guī)劃,因此一致性模式 c 不會(huì)影響轉(zhuǎn)換模型。

這種一致性自回歸方式揭示一個(gè)生成-選擇框架,其中模式選擇器根據(jù)初始狀態(tài) s_0 對(duì)每種模式進(jìn)行評(píng)分,而軌跡生成器從模式條件策略中采樣來生成多模態(tài)軌跡。

該轉(zhuǎn)換模型需要在每個(gè)時(shí)間步中使用,因?yàn)樗鼤?huì)根據(jù)當(dāng)前狀態(tài) s_t 生成在時(shí)間步 t + 1 時(shí)的交通智體姿勢(shì)。實(shí)際上,這個(gè)過程非常耗時(shí),而且使用這種轉(zhuǎn)換模型沒有看到性能提升,因此,用軌跡預(yù)測(cè)器 P (s_1:T^1:N |s_0 ) 作為非反應(yīng)性轉(zhuǎn)換模型,該模型在給定初始狀態(tài) s_0 的情況下一次性生成交通智體的所有未來姿勢(shì)。

規(guī)劃器架構(gòu)

CarPlanner 的框架如圖所示,包含四個(gè)關(guān)鍵組件:1) 非反應(yīng)式轉(zhuǎn)換模型、2) 模式選擇器、3) 軌跡生成器、和 4) 規(guī)則-增強(qiáng)選擇器。規(guī)劃器在生成-選擇框架內(nèi)運(yùn)行。

請(qǐng)?zhí)砑訄D片描述

給定初始狀態(tài) s_0 和所有可能的 N_mode 模式,軌跡選擇器評(píng)估并為每種模式分配分?jǐn)?shù)。然后,軌跡生成器生成與各自模式相對(duì)應(yīng)的 N_mode 軌跡。

對(duì)于軌跡生成器,初始狀態(tài) s_0 被復(fù)制 N_mode 次,每次都與 N_mode 模式之一相關(guān)聯(lián),從而有效地創(chuàng)建 N_mode 平行世界。策略在這些模擬環(huán)境中執(zhí)行。在策略展開期間,軌跡預(yù)測(cè)器充當(dāng)狀態(tài)轉(zhuǎn)換模型,生成所有時(shí)間范圍內(nèi)交通智體的未來位置。

非反應(yīng)式轉(zhuǎn)換模型

該模塊以初始狀態(tài) s_0 作為輸入,輸出交通智體的未來軌跡。初始狀態(tài)由智體和地圖編碼器處理,然后由自注意 Transformer 編碼器 [43] 融合智體和地圖特征。然后將智體特征解碼為未來軌跡。

智體和地圖編碼器。狀態(tài) s_0 包含地圖和智體信息。地圖信息 m 由 N_m,1 條折線和 N_m,2 個(gè)多邊形組成。折線描述車道中心和車道邊界,每條折線包含 3 N_p 個(gè)點(diǎn),其中 3 對(duì)應(yīng)車道中心、左邊界和右邊界。每個(gè)點(diǎn)的維度為 D_m = 9,并包含以下屬性:x、y、航向、速度限制和類別。連接時(shí),左邊界和右邊界的點(diǎn)與中心點(diǎn)一起產(chǎn)生 N_m,1 × N_p × 3 D_m 的維度。

利用 PointNet [30] 從每條折線的點(diǎn)中提取特征,得到 N_m,1 × D 的維數(shù),其中 D 表示特征維數(shù)。多邊形表示交叉路口、人行橫道、停車線等,每個(gè)多邊形包含 N_p 個(gè)點(diǎn)。利用另一個(gè) PointNet 從每個(gè)多邊形的點(diǎn)中提取特征,得到 N_m,2 × D 的維數(shù)。然后,將折線和多邊形的特征連??接起來形成整體地圖特征,得到 N_m × D 的維數(shù)。智體信息 A 由 N 個(gè)智體組成,每個(gè)智體保持過去 H 個(gè)時(shí)間步長(zhǎng)的姿勢(shì)。每個(gè)姿勢(shì)的維度為 D_a = 10,包括以下屬性:x、y、航向、速度、邊界框、時(shí)間步長(zhǎng)和類別。因此,智體信息的維度為 N × H × D_a。應(yīng)用另一個(gè) PointNet 從每個(gè)智體的姿勢(shì)中提取特征,故有 N × D 的智體特征維度。

模式選擇器

該模塊將 s_0 和縱向-橫向分解模式信息作為輸入,并輸出每種模式的概率。

路線-速度的分解模式。為了捕捉縱向行為,生成 N_lon 模式,表示與每種模式相關(guān)的軌跡平均速度。每個(gè)縱向模式 c_lon,j 定義為 j 的標(biāo)量值,在維度 D 上重復(fù)。因此,縱向模式的維數(shù)為 N_lon × D。對(duì)于橫向行為,使用圖搜索算法從地圖中識(shí)別 N_lat 條可能的路線。這些路線對(duì)應(yīng)于自車可用的車道。這些路線的維數(shù)為 N_lat × N_r × D_m。為了提取有意義的表示,用另一個(gè) PointNet 來聚合每條路線上 N_r 個(gè)點(diǎn)的特征,從而生成維度為 N_lat ×D 的橫向模式。為了創(chuàng)建全面的模式表示 c,結(jié)合橫向和縱向模式,得到 N_lat × N_lon × 2D 的組合維度。為了將此模式信息與其他特征維度對(duì)齊,將其傳遞通過線性層,映射回 N_lat × N_lon × D。N_mode = N_lat × N_lon。

基于查詢的 Transformer 解碼器。此解碼器用于將模式特征與從 s_0 派生的地圖和智體特征融合。在此框架中,模式用作查詢,而地圖和智體信息用作K-V。更新后的模式特征通過多層感知器 (MLP) 解碼以得出每個(gè)模式的分?jǐn)?shù),然后使用 softmax 運(yùn)算符對(duì)其進(jìn)行歸一化。

軌跡生成器

該模塊以自回歸方式運(yùn)行,在給定當(dāng)前狀態(tài) s_t 和一致模式信息 c 的情況下,反復(fù)解碼自身車輛的下一個(gè)姿勢(shì) a_t。

不變-視圖模塊 (IVM)。在將模式和狀態(tài)輸入網(wǎng)絡(luò)之前,對(duì)它們進(jìn)行預(yù)處理以消除時(shí)間信息。對(duì)于狀態(tài) s_t 中的地圖和智體信息,選擇自身當(dāng)前姿勢(shì)的 KNN [29],并僅將它們輸入到策略中。K 分別設(shè)置為地圖和智體元素的一半。對(duì)于捕捉橫向行為的路線,過濾掉那些段,其最接近自身車輛當(dāng)前姿勢(shì)的點(diǎn)作為起點(diǎn),保留 K_r 個(gè)點(diǎn)。在這種情況下,K_r 設(shè)置為一條路線中 N_r 個(gè)點(diǎn)的四分之一。最后,將路線、智體和地圖姿勢(shì)轉(zhuǎn)換為當(dāng)前時(shí)間步 t 的自車坐標(biāo)系。從當(dāng)前時(shí)間步長(zhǎng) t 中減去歷史時(shí)間步長(zhǎng) t ? H : t,得到范圍為 ?H : 0 的時(shí)間步長(zhǎng)。

基于 Q 的 Transformer 解碼器。采用與模式選擇器相同的主干網(wǎng)絡(luò)架構(gòu),但查詢維度不同。由于 IVM 以及不同模式產(chǎn)生不同狀態(tài)的事實(shí),地圖和智體信息不能在模式之間共享。因此,融合每個(gè)單獨(dú)模式的信息。具體而言,Q維度為 1 × D,而 K-V 的維度為 (N + N_m) × D。輸出特征維度保持為 1 × D。需要強(qiáng)調(diào)的是,Transformer 解碼器可以并行處理來自多個(gè)模式的信息,無需使用一個(gè) for 循環(huán)按順序處理每個(gè)模式。

策略輸出。模式特征由兩個(gè)不同的頭處理:策略頭和 V 頭。每個(gè)頭包含自己的 MLP 來生成動(dòng)作分布的參數(shù)和相應(yīng)的 V 估計(jì)。采用高斯分布來建模動(dòng)作分布,在訓(xùn)練過程中,動(dòng)作從該分布中抽樣。相反,在推理過程中,利用分布平均來確定動(dòng)作。

規(guī)則-增強(qiáng)選擇器

該模塊首先引入一個(gè)基于規(guī)則的選擇器,以初始狀態(tài) s_0、多模態(tài)自車規(guī)劃軌跡和智體的預(yù)測(cè)未來軌跡為輸入。它計(jì)算駕駛導(dǎo)向指標(biāo),例如安全性、進(jìn)度、舒適度等?;谝?guī)則的分?jǐn)?shù)和模式選擇器提供的模式分?jǐn)?shù)的加權(quán)和,獲得綜合分?jǐn)?shù)。得分最高的自車規(guī)劃軌跡被選為軌跡規(guī)劃器的輸出。

訓(xùn)練

首先訓(xùn)練非反應(yīng)式轉(zhuǎn)換模型,并在模式選擇器和軌跡生成器的訓(xùn)練期間凍結(jié)權(quán)重。不會(huì)將所有模式都輸入生成器,而是采用贏者通吃策略,其中根據(jù)自車真實(shí)軌跡分配正模式,并將其作為軌跡生成器的條件。

模式分配。正的橫向模式由真實(shí)軌跡的端點(diǎn)決定。從起始位置到該端點(diǎn)的縱向距離被劃分為 N_lon 間隔,正的縱向模式對(duì)應(yīng)于相關(guān)距離間隔。

損失函數(shù)。對(duì)于選擇器,使用交叉熵?fù)p失,即正模式的負(fù)對(duì)數(shù)似然和回歸自車真實(shí)軌跡的副任務(wù)。對(duì)于生成器,使用 PPO [36] 損失,它由三部分組成:策略改進(jìn)、價(jià)值估計(jì)和熵。

獎(jiǎng)勵(lì)函數(shù)。為了處理不同的場(chǎng)景,用自車未來姿勢(shì)和真值之間負(fù)的位移誤差 (DE) 作為通用獎(jiǎng)勵(lì)。還引入其他術(shù)語來提高軌跡質(zhì)量:碰撞率和可駕駛區(qū)域合規(guī)性。如果未來姿勢(shì)發(fā)生碰撞或超出可駕駛區(qū)域,則獎(jiǎng)勵(lì)設(shè)置為 -1;否則為 0。

模式丟棄。為了防止由于 Transformers 的殘差連接而過度依賴模式或路線信息,在訓(xùn)練期間實(shí)現(xiàn)一個(gè)模式丟棄模塊,該模塊隨機(jī)屏蔽路線以緩解此問題。

遵循 PDM [9] 來構(gòu)建訓(xùn)練和驗(yàn)證分割。訓(xùn)練集的大小為 176,218,其中使用所有可用的場(chǎng)景類型,每種類型有 4,000 個(gè)場(chǎng)景。驗(yàn)證集的大小為 1,118,其中選擇 100 個(gè)場(chǎng)景和 14 種類型。在 2 個(gè) NVIDIA 3090 GPU 中對(duì)所有模型進(jìn)行 50 次訓(xùn)練。每個(gè) GPU 的批次大小為 64。用 AdamW 優(yōu)化器,初始學(xué)習(xí)率為 1e-4,當(dāng)驗(yàn)證損失停止減少時(shí),以耐心為 0 和減少因子為 0.3 降低學(xué)習(xí)率。對(duì)于 RL 訓(xùn)練,設(shè)置折扣 γ = 0.1 和 GAE 參數(shù) λ = 0.9。價(jià)值、策略和熵?fù)p失的權(quán)重分別設(shè)置為 3、100 和 0.001。縱向模式數(shù)設(shè)置為 12,橫向模式的最大數(shù)量設(shè)置為 5。

如下算法 1 概述 CarPlanner 框架的訓(xùn)練過程。該過程涉及兩個(gè)主要步驟:(1) 訓(xùn)練非反應(yīng)性轉(zhuǎn)換模型,(2) 訓(xùn)練模式選擇器和軌跡生成器。

請(qǐng)?zhí)砑訄D片描述

http://aloenet.com.cn/news/41459.html

相關(guān)文章:

  • 網(wǎng)站描述代碼怎么寫市場(chǎng)調(diào)研的步驟
  • 佳木斯做網(wǎng)站免費(fèi)發(fā)布推廣信息的軟件
  • 合肥的網(wǎng)站建設(shè)windows永久禁止更新
  • 電影網(wǎng)站怎么做seo網(wǎng)絡(luò)營(yíng)銷帶來的效果
  • 淘寶客網(wǎng)站W(wǎng)ordPressseo常用工具包括
  • 寶山做網(wǎng)站公司南陽網(wǎng)站seo
  • 做H5哪個(gè)網(wǎng)站字體漂亮一些濟(jì)南網(wǎng)站推廣公司
  • 沒網(wǎng)站能不能cpc廣告點(diǎn)擊賺錢做搜圖片找原圖
  • 給我一個(gè)免費(fèi)網(wǎng)站嗎互聯(lián)網(wǎng)推廣平臺(tái)有哪些公司
  • 工作室裝修網(wǎng)站源碼58同城網(wǎng)站推廣
  • 西安手機(jī)網(wǎng)站建設(shè)動(dòng)力無限推廣普通話黑板報(bào)
  • 珠海網(wǎng)站備案提交鏈接
  • 嘉興絲綢大廈做網(wǎng)站的公司seo網(wǎng)絡(luò)排名優(yōu)化方法
  • 網(wǎng)站建設(shè)與維護(hù)是什么內(nèi)容?十大軟件培訓(xùn)機(jī)構(gòu)
  • 平臺(tái)建設(shè)上線網(wǎng)站百度網(wǎng)盤app官網(wǎng)下載
  • 有官網(wǎng)建手機(jī)網(wǎng)站深圳網(wǎng)站建設(shè)公司
  • 南充響應(yīng)式網(wǎng)站建設(shè)2023年8月疫情又開始了嗎
  • 網(wǎng)站建設(shè)注意要求怎么做app推廣
  • 蕪湖網(wǎng)站建設(shè)求職簡(jiǎn)歷互聯(lián)網(wǎng)營(yíng)銷外包推廣
  • 外貿(mào)網(wǎng)站如何做的好處成都網(wǎng)站制作費(fèi)用
  • 制造網(wǎng)站建設(shè)哪家好推廣網(wǎng)絡(luò)營(yíng)銷案例
  • 網(wǎng)站開發(fā)詳細(xì)設(shè)計(jì)文檔十句經(jīng)典廣告語
  • 微信小程序網(wǎng)站建設(shè)哪家好高質(zhì)量?jī)?nèi)容的重要性
  • 有沒有專門做航拍婚禮網(wǎng)站小紅書seo排名帝搜軟件
  • 專業(yè)網(wǎng)站設(shè)計(jì)專家百度搜索排名服務(wù)
  • 天津網(wǎng)站建設(shè)服務(wù)好整合營(yíng)銷案例
  • 做網(wǎng)站需要用到ps嗎qq推廣網(wǎng)站
  • 怎么做局域網(wǎng)asp網(wǎng)站如何讓自己網(wǎng)站排名提高
  • 專業(yè)網(wǎng)站制作的公司網(wǎng)絡(luò)賺錢推廣
  • 佛山企業(yè)做網(wǎng)站拉新充場(chǎng)app推廣平臺(tái)