做網(wǎng)站怎么做鼠標(biāo)跟隨2023很有可能再次封城嗎
InstDisc
提出了個(gè)體判別任務(wù),而且利用這個(gè)代理任務(wù)與NCE Loss去做對(duì)比學(xué)習(xí)從而得到了不錯(cuò)的無(wú)監(jiān)督表征學(xué)習(xí)的結(jié)果;同時(shí)提出了別的數(shù)據(jù)結(jié)構(gòu)——Memory Bank來(lái)存儲(chǔ)大量負(fù)樣本;解決如何對(duì)特征進(jìn)行動(dòng)量式的更新
翻譯:
有監(jiān)督學(xué)習(xí)的結(jié)果激勵(lì)了我們的無(wú)監(jiān)督學(xué)習(xí)方法。對(duì)于來(lái)自豹的圖像,從已經(jīng)訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)分類器中獲得最高響應(yīng)的類都是視覺(jué)上相關(guān)的,例如,美洲虎和獵豹。無(wú)關(guān)語(yǔ)義標(biāo)記,而是數(shù)據(jù)本身明顯的相似性使一些類比其他類更接近。我們的無(wú)監(jiān)督方法將這種按類判別的無(wú)監(jiān)督信號(hào)發(fā)揮到了極致,并學(xué)習(xí)了區(qū)分單個(gè)實(shí)例的特征表示。
總結(jié):
把每個(gè)實(shí)例(也就是圖片)都看作一個(gè)類別,目標(biāo)是學(xué)一種特征,從而讓我們能把每一個(gè)圖片都區(qū)分開(kāi)來(lái)
翻譯:
這是無(wú)監(jiān)督特征學(xué)習(xí)方法的整體流程。我們使用主干CNN將每張圖像編碼為特征向量,將其投影到128維空間并進(jìn)行L2歸一化。最優(yōu)的特征嵌入是通過(guò)實(shí)例級(jí)判別來(lái)學(xué)習(xí)的,它試圖最大限度地將訓(xùn)練樣本的特征分散在128維單位球面上。
總結(jié):
通過(guò)CNN把所有圖片編碼成特征,希望這些特征在最后的特征空間里能夠盡可能的分開(kāi)
利用對(duì)比學(xué)習(xí)訓(xùn)練CNN,正樣本是圖片本身(可能加一些數(shù)據(jù)增強(qiáng)),負(fù)樣本則是數(shù)據(jù)集中其他圖片
大量的負(fù)樣本特征存在哪呢?運(yùn)用Memory Bank的形式,把特征存進(jìn)去,有多少特征就有多少行,因此特征的維度不能太大
Memory Bank隨機(jī)初始化維單位向量
正樣本利用CNN降低維度后,從Memory Bank中隨機(jī)抽取負(fù)樣本,然后可以用NCE Loss計(jì)算這個(gè)對(duì)比學(xué)習(xí)的目標(biāo)函數(shù),更新完網(wǎng)絡(luò)后,可以把這些數(shù)據(jù)樣本對(duì)應(yīng)的特征放進(jìn)Memory Bank更換掉
Proximal Regularization
給模型加了個(gè)約束,從而能讓Memory Bank中的那些特征進(jìn)行動(dòng)量式的更新
Unlike typical classification settings where each class has many instances, we only have one instance per class.During each training epoch, each class is only visited once.
Therefore, the learning process oscillates a lot from random sampling fluctuation. We employ the proximal optimization method [29] and introduce an additional term to encourage the smoothness of the training dynamics. At current iteration t, the feature representation for data xi is computed from the network v (t) i = fθ(xi). The memory bank of all the representation are stored at previous iteration V = fv (t?1)g. The loss function for a positive sample from Pd is:
翻譯:
與每個(gè)類有許多實(shí)例的典型分類設(shè)置不同,我們每個(gè)類只有一個(gè)實(shí)例。在每個(gè)訓(xùn)練階段,每個(gè)類只訪問(wèn)一次。因此,學(xué)習(xí)過(guò)程在隨機(jī)抽樣波動(dòng)中振蕩很大。我們采用了最接近優(yōu)化方法[29],并引入了一個(gè)額外的術(shù)語(yǔ)來(lái)鼓勵(lì)訓(xùn)練動(dòng)態(tài)的平滑性。在當(dāng)前迭代t中,數(shù)據(jù)xi的特征表示是從網(wǎng)絡(luò)v (t) i = fθ(xi)中計(jì)算出來(lái)的。所有表示的存儲(chǔ)庫(kù)都存儲(chǔ)在前一次迭代V = fv (t?1)g。Pd陽(yáng)性樣本的損失函數(shù)為:
?As learning converges, the difference between iterations, i.e. v (t) i ? v (t?1) i , gradually vanishes, and the augmented loss is reduced to the original one. With proximal regularization, our final objective becomes:
翻譯:
隨著學(xué)習(xí)的收斂,迭代之間的差值即v (t) i - v (t - 1) i逐漸消失,增廣損失減小到原始損失。通過(guò)近端正則化,我們的最終目標(biāo)變成:
InvaSpreed
對(duì)于相似的圖片,它的特征應(yīng)該保持不變性;對(duì)不相似的圖片,它的特征應(yīng)該盡可能分散開(kāi)
端到端;不需要借助外部數(shù)據(jù)結(jié)構(gòu)去存儲(chǔ)負(fù)樣本
同樣的圖片通過(guò)編碼器后得到的特征應(yīng)該很相似,而不同的則不相似?
?對(duì)X1來(lái)說(shuō),經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的X1‘就是它的正樣本,負(fù)樣本則是其他所有圖片(包括數(shù)據(jù)增強(qiáng)后的)
為什么要從同一個(gè)mini-batch中選正負(fù)樣本呢?這樣就可以用一個(gè)編碼器去做端到端的訓(xùn)練
圖片過(guò)編碼器再過(guò)全連接層,把特征維度降低,目標(biāo)函數(shù)則使用NCE Loss的變體
之所以被SimCLR打敗,是因?yàn)闆](méi)有鈔能力:mini-batch太小,導(dǎo)致負(fù)樣本太少
CPC
以上兩個(gè)都使用個(gè)體判別式的代理任務(wù),CPC則是使用生成式的代理任務(wù)
不光可以處理音頻,還可以處理文字、圖片、以及在強(qiáng)化學(xué)習(xí)中使用
我們有一個(gè)語(yǔ)音序列,從xt-3到xt代表過(guò)去到現(xiàn)在的輸入,將其全扔給一個(gè)編碼器,把編碼器返回的特征喂給一個(gè)自回歸模型gar(RNN或LSTM),得到ct(上下文的特征表示),如果ct足夠好,那么認(rèn)為它可以對(duì)未來(lái)的zt+1到zt+4做出合理預(yù)測(cè)
這里的正樣本是未來(lái)的輸入通過(guò)編碼器得到的未來(lái)時(shí)刻的特征輸出,也就是真正正確的zt+1到zt+4
負(fù)樣本的定義倒是很廣泛,任意輸入通過(guò)編碼器得到的特征輸出都是負(fù)樣本
CMC
定義正樣本的方式更廣泛:一個(gè)物體的很多視角都可以當(dāng)作正樣本
Abstract
Humans view the world through many sensory channels, e.g., the long-wavelength light channel, viewed by the left eye, or the high-frequency vibrations channel, heard by the right ear. Each view is noisy and incomplete, but important factors, such as physics, geometry, and semantics, tend to be shared between all views (e.g., a “dog” can be seen, heard, and felt). We investigate the classic hypothesis that a powerful representation is one that models view-invariant factors. We study this hypothesis under the framework of multiview contrastive learning, where we learn a representation that aims to maximize mutual information between different views of the same scene but is otherwise compact.
Our approach scales to any number of views, and is viewagnostic. We analyze key properties of the approach that make it work, finding that the contrastive loss outperforms a popular alternative based on cross-view prediction, and that the more views we learn from, the better the resulting representation captures underlying scene semantics. Our approach achieves state-of-the-art results on image and video unsupervised learning benchmarks.
翻譯:
人類通過(guò)許多感官通道來(lái)觀察世界,例如,左眼看到的長(zhǎng)波長(zhǎng)光通道,或右耳聽(tīng)到的高頻振動(dòng)通道。每個(gè)視圖都是嘈雜和不完整的,但重要的因素,如物理,幾何和語(yǔ)義,傾向于在所有視圖之間共享(例如,可以看到、聽(tīng)到和感覺(jué)到“狗”)。我們研究了一個(gè)經(jīng)典的假設(shè),即一個(gè)強(qiáng)大的表示是一個(gè)模型的觀點(diǎn)不變的因素。我們?cè)诙嘁晥D對(duì)比學(xué)習(xí)的框架下研究這一假設(shè),在多視圖對(duì)比學(xué)習(xí)中,我們學(xué)習(xí)的表征旨在最大化同一場(chǎng)景的不同視圖之間的相互信息,但除此之外是緊湊的。
我們的方法適用于任意數(shù)量的視圖,并且是視圖不可知論的。我們分析了使其有效的方法的關(guān)鍵屬性,發(fā)現(xiàn)對(duì)比損失優(yōu)于基于交叉視圖預(yù)測(cè)的流行替代方案,并且我們學(xué)習(xí)的視圖越多,結(jié)果表示捕獲底層場(chǎng)景語(yǔ)義的效果就越好。我們的方法在圖像和視頻無(wú)監(jiān)督學(xué)習(xí)基準(zhǔn)上取得了最先進(jìn)的結(jié)果。
總結(jié):
增大所有視覺(jué)間的互信息,從而學(xué)得一個(gè)能抓住不同視角下的關(guān)鍵因素的特征
選取的NYU RGBD數(shù)據(jù)集有四個(gè)視角,分別是原始的圖像、圖像對(duì)于的深度信息、surface normal(表面法線)、物體的分割圖像
雖然輸入來(lái)自于不同的視角,但都屬于一張圖片,因此這四個(gè)特征在特征空間中應(yīng)該盡可能靠近,互為正樣本;不配對(duì)的視角應(yīng)該盡可能遠(yuǎn)離?