怎么自己做網(wǎng)站嚇別人佛山seo聯(lián)系方式
本改進(jìn)已集成到 YOLOv8-Magic 框架。
我們提出了Axial Transformers
,這是一個(gè)基于自注意力的自回歸模型,用于圖像和其他組織為高維張量的數(shù)據(jù)?,F(xiàn)有的自回歸模型要么因高維數(shù)據(jù)的計(jì)算資源需求過(guò)大而受到限制,要么為了減少資源需求而在分布表達(dá)性或?qū)崿F(xiàn)的便捷性上做出妥協(xié)。相比之下,我們的架構(gòu)既保持了對(duì)數(shù)據(jù)聯(lián)合分布的完全表達(dá)性,也易于使用標(biāo)準(zhǔn)的深度學(xué)習(xí)框架實(shí)現(xiàn),同時(shí)在需要合理的內(nèi)存和計(jì)算資源的同時(shí),達(dá)到了標(biāo)準(zhǔn)生成建?;鶞?zhǔn)測(cè)試的最先進(jìn)結(jié)果。我們的模型基于axial attention
,這是自注意力的一個(gè)簡(jiǎn)單泛化,自然地與張量的多個(gè)維度在編碼和解碼設(shè)置中對(duì)齊。值得注意的是,所提出的層結(jié)構(gòu)允許在解碼過(guò)程中并行計(jì)算大部分上下文,而不引入任何獨(dú)立性假設(shè)。這種半并行結(jié)構(gòu)極大地促進(jìn)了甚至是非常大的Axial Transformer
的解碼應(yīng)用。我們?cè)?code>ImageNet-32 和 ImageNet-64
圖像基準(zhǔn)測(cè)試以及BAIR
Robotic Pushing視頻基準(zhǔn)測(cè)試上展示了Axial Transformer
的最先進(jìn)結(jié)果。我們開源了Axial Transformers
的實(shí)現(xiàn)。
1 論文簡(jiǎn)介
在當(dāng)今深度學(xué)習(xí)的研究中,如何有效地處理高維數(shù)據(jù),如圖像和視頻,是一個(gè)核心問(wèn)題。Axial Transformers
提供了一種創(chuàng)新的自注意力機(jī)制&#x