網(wǎng)站建設(shè)編寫(xiě)代碼問(wèn)題人工智能教育培訓(xùn)機(jī)構(gòu)排名
一、論文簡(jiǎn)述
1. 第一作者:Haofei Xu
2. 發(fā)表年份:2022
3. 發(fā)表期刊:AAAI
4. 關(guān)鍵詞:光流、圖神經(jīng)網(wǎng)絡(luò)、自適應(yīng)
5. 探索動(dòng)機(jī):現(xiàn)有光流估計(jì)方法主要解決基于特征相似性的匹配問(wèn)題,少有工作研究如何顯式推理場(chǎng)景中各部分的運(yùn)動(dòng)情況。
6. 工作目標(biāo):本文從一個(gè)新的角度提出基于圖模型的方法,充分利用場(chǎng)景(上下文)信息對(duì)光流估計(jì)進(jìn)行引導(dǎo)推理。
7. 核心思想:本文提出利用自適應(yīng)圖推理的光流估計(jì)模型(AGFlow),采用了一種適應(yīng)性學(xué)習(xí)機(jī)制,使得圖模型能夠利用場(chǎng)景特征節(jié)點(diǎn)之間的關(guān)系信息來(lái)引導(dǎo)運(yùn)動(dòng)特征節(jié)點(diǎn)進(jìn)行關(guān)系推理和信息交互,關(guān)鍵思想是將上下文推理從匹配過(guò)程中分離出來(lái),并利用場(chǎng)景信息通過(guò)學(xué)習(xí)對(duì)自適應(yīng)圖進(jìn)行推理來(lái)有效地輔助運(yùn)動(dòng)估計(jì)。
- A novel graph-based approach for optical flow. To our knowledge, this is the first work that explicitly exploits scene information to assist in optical flow estimation by using graph techniques. The proposed AGFlow can go beyond the regular grids and reason over the graph space to achieve a better motion understanding, thus successfully handling different challenges in optical flow.
- An adaptive cross-domain graph reasoning approach. In order to incorporate scene information, we generalize the learning to adapt mechanism from regular grids to the graph domain. Our designed graph adapter can fast adapt scene context to guide the global (motion) graph reasoning in a one-shot manner.
8. 實(shí)驗(yàn)結(jié)果:還行吧
The proposed AGFlow can effectively exploit the context information and incorporate it within the matching procedure, producing more robust and accurate results. On both Sintel clean and final passes, our AGFlow achieves the best accuracy with EPE of 1.43 and 2.47 pixels, outperforming state-of-the-art approaches by 11.2% and 13.6%, respectively.?
?9.論文&代碼下載:
https://github.com/ megvii-research/AGFlow
https://arxiv.org/pdf/2202.03857.pdf
二、實(shí)現(xiàn)過(guò)程
1. 問(wèn)題公式化
給定一對(duì)連續(xù)的輸入圖像,即源圖像I1和目標(biāo)圖像I2,光流估計(jì)的任務(wù)是預(yù)測(cè)源圖像I1和目標(biāo)圖像I2之間的密集位移場(chǎng)。基于深度學(xué)習(xí)的光流網(wǎng)絡(luò)通常采用編碼器-解碼器管道,首先提取上下文特征fc,獲得運(yùn)動(dòng)線索fm,然后基于融合特征fo,以循環(huán)/粗到細(xì)的方式進(jìn)行光流預(yù)測(cè)。
在AGFlow中,將解碼器中的特征融合表示為基于圖的推理和學(xué)習(xí)模型,其表述為fo = F(fc,fm)。具體來(lái)說(shuō),將模型定義為有向圖G=(V,E),其中V表示節(jié)點(diǎn)集合,E表示邊,G表示節(jié)點(diǎn)之間的連接和關(guān)系信息。運(yùn)行t次圖推理后,將更新后的節(jié)點(diǎn)映射回原始坐標(biāo)空間,以預(yù)測(cè)位移場(chǎng)。
2. 光流的自適應(yīng)圖推理
上圖描述了AGFlow用于光流的自適應(yīng)圖推理的概述?!?D CV”表示4D相關(guān)體,“C”表示連接,“L”表示加和。AGFlow基于RAFT開(kāi)發(fā)。具體來(lái)說(shuō),給定一對(duì)輸入圖像I1和I2,使用兩個(gè)基于殘差塊的編碼器來(lái)提取特征對(duì)(f1, f2)和上下文特性fc。然后在特征對(duì)上構(gòu)造4個(gè)尺度的4D相關(guān)體。在循環(huán)改進(jìn)框架中,利用四次卷積在多尺度匹配代價(jià)中從9×9區(qū)域捕獲運(yùn)動(dòng)特征fm。然后,自適應(yīng)圖推理(AGR)模塊以運(yùn)動(dòng)特征fm和上下文特征fc為輸入,進(jìn)行整體的運(yùn)動(dòng)推理。
節(jié)點(diǎn)嵌入。第一步是將規(guī)則坐標(biāo)空間中的上下文和運(yùn)動(dòng)特征投影到圖空間中。投影運(yùn)算將位置信息與原始網(wǎng)格特征解耦,使生成的低維節(jié)點(diǎn)特征表示更緊湊,表達(dá)能力更強(qiáng)。這里我們將圖模型中映射的節(jié)點(diǎn)V分為兩組:上下文節(jié)點(diǎn)vc = Vc1,···,Vcn,包含關(guān)于形狀的外觀特征和場(chǎng)景上下文的區(qū)域信息,運(yùn)動(dòng)節(jié)點(diǎn)vm = Vm1,···,Vm,存儲(chǔ)交叉圖像匹配依賴的運(yùn)動(dòng)特征。
具體來(lái)說(shuō),給定來(lái)自編碼器網(wǎng)絡(luò)的上下文特征fc∈c×h×w和運(yùn)動(dòng)特征fm∈c×h×w,采用投影函數(shù)Pf→v(·)將表示相似的特征分配給同一節(jié)點(diǎn)。設(shè)vc∈C×K和vm∈C×K表示圖空間中的初始節(jié)點(diǎn)嵌入,其中C表示通道號(hào),K為節(jié)點(diǎn)數(shù)。
為了在一組區(qū)域上構(gòu)建一個(gè)全局圖,在網(wǎng)格空間中制定Pf→v(·)作為特征向量的線性組合,即v = Pf→v(f),因此生成的節(jié)點(diǎn)能夠在整體原始特征圖中聚合遠(yuǎn)距離信息。這是由
其中N(·)是對(duì)每個(gè)節(jié)點(diǎn)向量的通道維數(shù)進(jìn)行的L-2歸一化函數(shù),Ff→v(f) ∈N×K將特征圖映射到節(jié)點(diǎn)向量的投影權(quán)重建模。該方法可以用任意輸入分辨率進(jìn)行訓(xùn)練。在實(shí)踐中,首先在f∈c×h×w上使用兩次卷積將信道維度從c更改為K,從而得到分辨率為K×h×w特征圖。然后應(yīng)用重塑函數(shù)得到分辨率為N×K的Ff→v(f),其中N = h×w, K是不依賴于空間分辨率的超參數(shù)。因此,兩種類型的節(jié)點(diǎn)嵌入可以由vc=Pf→v(fc)和vm=Pf→v(fm)產(chǎn)生。
自適應(yīng)圖推理。給定圖空間中的節(jié)點(diǎn)嵌入v,用于圖推理的鄰接矩陣通常可以通過(guò)測(cè)量所有節(jié)點(diǎn)向量之間的相似性來(lái)生成,如A=vTv。對(duì)鄰接矩陣A建模后,用圖卷積網(wǎng)絡(luò)進(jìn)行圖推理定義為
其中σ(·)是一個(gè)非線性激活函數(shù),wG是圖卷積的可學(xué)習(xí)參數(shù)。v^是用圖推理更新的節(jié)點(diǎn)表示,它可以迭代增強(qiáng),通過(guò)更多的運(yùn)行v^(t) = FG(v,A)(t),其中t表示更新迭代。
讓我們考慮上下文節(jié)點(diǎn)和運(yùn)動(dòng)節(jié)點(diǎn)的表示屬性。運(yùn)動(dòng)節(jié)點(diǎn)主要編碼圖像對(duì)之間的點(diǎn)的對(duì)應(yīng)關(guān)系,而忽略了區(qū)域內(nèi)像素之間的內(nèi)部關(guān)系,而上下文節(jié)點(diǎn)則獲得區(qū)域和形狀表示的具有可分辨性的特征。因此,我們需要解決兩個(gè)障礙:首先,上下文節(jié)點(diǎn)和運(yùn)動(dòng)節(jié)點(diǎn)之間存在不可避免的表示差距,這可能會(huì)阻礙直接整體圖推理的有效信息傳播。其次,運(yùn)動(dòng)節(jié)點(diǎn)缺乏對(duì)潛在位移場(chǎng)的形狀或布局的約束,因此它們無(wú)法為單個(gè)圖推理提供足夠的上下文信息。
為了解決這一問(wèn)題,提出了一種自適應(yīng)圖推理(AGR)模塊,將上下文推理與匹配過(guò)程解耦,同時(shí)將場(chǎng)景上下文的區(qū)域和形狀先驗(yàn)一次性轉(zhuǎn)移到運(yùn)動(dòng)節(jié)點(diǎn)。關(guān)鍵思想是在全局上下文中利用形狀和區(qū)域有判別性的表示指導(dǎo)具有自適應(yīng)參數(shù)的運(yùn)動(dòng)鄰接矩陣的學(xué)習(xí)。因此設(shè)計(jì)了一種鄰接矩陣的自適應(yīng)算法,以學(xué)習(xí)預(yù)測(cè)動(dòng)態(tài)參數(shù),根據(jù)特定于圖像的上下文信息定制運(yùn)動(dòng)關(guān)系建模。
這是由
其中Θ(·)是一個(gè)參數(shù)學(xué)習(xí)器,A(·)表示一個(gè)配備了Θ(vc)的動(dòng)態(tài)權(quán)重的上下文到運(yùn)動(dòng)圖自適應(yīng)器(GA)。在實(shí)踐中,實(shí)現(xiàn)了Θ(·),具有softmax激活的線性投影函數(shù)。如下圖所示,采用兩層MLP實(shí)現(xiàn)A(·),其中應(yīng)用第一個(gè)正則化線性函數(shù)和ReLU激活執(zhí)行通道的學(xué)習(xí),然后使用第二個(gè)具有自適應(yīng)核Θ(vc)的線性函數(shù)執(zhí)行節(jié)點(diǎn)交互,進(jìn)行上下文-動(dòng)作自適應(yīng)關(guān)系學(xué)習(xí)。具體來(lái)說(shuō),給定上下文節(jié)點(diǎn)vc∈C×K,預(yù)測(cè)了自適應(yīng)核Θ(vc)∈K×K在通道維度上卷積(C→K),然后轉(zhuǎn)化為第二個(gè)線性函數(shù)的K × K形自適應(yīng)權(quán)值,用于生成vm`。最后,在m`上進(jìn)行點(diǎn)積相似度來(lái)預(yù)測(cè)A?。
生成的參數(shù)Θ(vc)依賴于上下文節(jié)點(diǎn)來(lái)動(dòng)態(tài)利用當(dāng)前輸入的形狀和區(qū)域信息。這樣,運(yùn)動(dòng)節(jié)點(diǎn)可以快速適應(yīng)場(chǎng)景上下文,很好地利用轉(zhuǎn)移的節(jié)點(diǎn)關(guān)系進(jìn)行運(yùn)動(dòng)子圖推理。因此,增強(qiáng)的上下文節(jié)點(diǎn)v^c(t)由
類似地,運(yùn)動(dòng)節(jié)點(diǎn)v^m(t)由
FAG(·)表示用自適應(yīng)圖卷積網(wǎng)絡(luò)(AGCN)進(jìn)行運(yùn)動(dòng)節(jié)點(diǎn)推理。
注意力讀出。經(jīng)過(guò)t次關(guān)系推理和狀態(tài)更新后,提出了一個(gè)注意力讀出模塊,將增強(qiáng)的上下文節(jié)點(diǎn)vc(t)和運(yùn)動(dòng)節(jié)點(diǎn)v^m(t)從圖空間投影回網(wǎng)格特征空間,使整體圖交互模型與現(xiàn)有光流網(wǎng)絡(luò)兼容。更新后的特征圖既包含全局上下文信息,又包含局部像素級(jí)匹配代價(jià),可以更好地預(yù)測(cè)光流場(chǎng)。將反投影表述為
其中Pv→f(·)是一個(gè)線性組合函數(shù),將節(jié)點(diǎn)向量v^∈C×K映射到光流網(wǎng)絡(luò)原始網(wǎng)格空間中的特征圖f^∈C×N。在實(shí)際應(yīng)用中,我們?cè)诠?jié)點(diǎn)嵌入過(guò)程中重用投影矩陣。投影矩陣包含像素到節(jié)點(diǎn)的分配,并保留空間細(xì)節(jié),這對(duì)于恢復(fù)特征圖的分辨率至關(guān)重要。此外,通過(guò)重用區(qū)域分配不涉及額外的參數(shù),這也有助于減少計(jì)算開(kāi)銷。
上下文特征^fc由殘差操作產(chǎn)生
其中α表示一個(gè)可學(xué)習(xí)的參數(shù),初始化為0,并逐漸執(zhí)行加權(quán)和。同樣,運(yùn)動(dòng)特征^fm由
考慮到增強(qiáng)的特征^fc和^fm,對(duì)于特征融合一個(gè)的潛在障礙是上下文特征缺乏交叉圖像匹配的對(duì)應(yīng)信息,這可能導(dǎo)致全局位移的偏移,從而影響光流精度。為此,設(shè)計(jì)了一種注意力融合函數(shù),該融合函數(shù)首先從運(yùn)動(dòng)特征^fm中學(xué)習(xí)預(yù)測(cè)一組尺度權(quán)重,然后利用它們對(duì)整個(gè)密集位移進(jìn)行全局調(diào)整。具體來(lái)說(shuō),注意力融合函數(shù)定義為
其中⊕是一個(gè)連接操作,FCA(·)是一個(gè)通道注意力函數(shù),通過(guò)兩個(gè)具有ReLU和sigmoid激活的卷積實(shí)現(xiàn)。
7. 訓(xùn)練損失
7.1. 數(shù)據(jù)集
FlyingThings、Sintel、KITTI-2015、HD1K
7.2. 實(shí)現(xiàn)
通過(guò)PyTorch實(shí)現(xiàn)。訓(xùn)練策略延續(xù)RAFT。將上下文和運(yùn)動(dòng)節(jié)點(diǎn)的數(shù)量K設(shè)置為128。對(duì)于上下文圖和運(yùn)動(dòng)圖r,狀態(tài)更新迭代t設(shè)置為2和1。模型是在2 NVIDIAGeForce GTX 2080Ti GPU上
訓(xùn)練,批大小設(shè)置為8。
7.3. 方法比較
?7.4. 參數(shù)量及時(shí)間