wordpress 圖片 分離seo研究所
2024-10-19,由伊利諾伊大學(xué)厄巴納-香檳分校和香港城市大學(xué)的研究團(tuán)隊(duì)提出了一種創(chuàng)新方法,通過將常規(guī)視頻轉(zhuǎn)換成偽標(biāo)記的多攝像機(jī)視角推薦數(shù)據(jù)集,有效解決了在未知領(lǐng)域中模型泛化能力差的問題。數(shù)據(jù)集的創(chuàng)建,為電影、電視和其他媒體制作中的攝像機(jī)選擇提供了有力的輔助,顯著提高了模型在目標(biāo)領(lǐng)域的準(zhǔn)確性,實(shí)現(xiàn)了68%的相對(duì)改進(jìn)。
一、研究背景:
在電影、電視和其他媒體制作中,多攝像機(jī)系統(tǒng)的作用不可或缺。選擇合適的攝像機(jī)視角對(duì)于提高制作質(zhì)量和滿足觀眾偏好至關(guān)重要?;趯W(xué)習(xí)的視角推薦框架可以幫助專業(yè)人士做出決策,但這些框架在訓(xùn)練領(lǐng)域之外往往表現(xiàn)不佳,而標(biāo)記好的多攝像機(jī)視角推薦數(shù)據(jù)集的稀缺加劇了這一問題。
目前遇到困難和挑戰(zhàn):
1、多攝像機(jī)視角推薦模型在未見過的領(lǐng)域中泛化能力差,導(dǎo)致準(zhǔn)確率顯著下降。
2、現(xiàn)有的多攝像機(jī)編輯數(shù)據(jù)集(如TVMCE)僅限于特定場(chǎng)景和類型,無法覆蓋更廣泛的領(lǐng)域。
3、收集相同領(lǐng)域的數(shù)據(jù)需要多個(gè)同步攝像機(jī)捕捉同一事件,且需要專業(yè)的電影制作專家進(jìn)行標(biāo)記,這在實(shí)際操作中非常困難。
數(shù)據(jù)集地址:多攝像頭視圖推薦數(shù)據(jù)集|模型泛化數(shù)據(jù)集
二、讓我們一起來看一下Pseudo Multi-Camera Editing數(shù)據(jù)集:
Pseudo Multi-Camera Editing Dataset:通過將常規(guī)視頻轉(zhuǎn)換為偽標(biāo)記的多攝像機(jī)視角推薦數(shù)據(jù)集,以解決標(biāo)記數(shù)據(jù)稀缺的問題。研究團(tuán)隊(duì)利用視頻編輯中的鏡頭轉(zhuǎn)換來模擬攝像機(jī)切換,通過聚類鏡頭來模擬不同的攝像機(jī),并選擇每個(gè)“偽”攝像機(jī)中最相似的鏡頭作為候選鏡頭,與真實(shí)鏡頭一起生成偽標(biāo)記數(shù)據(jù)。
數(shù)據(jù)集構(gòu)建:
包括鏡頭檢測(cè)、聚類生成偽攝像機(jī)標(biāo)簽、以及從每個(gè)偽攝像機(jī)中選擇候選鏡頭。使用ResNet50預(yù)訓(xùn)練模型提取圖像特征,并計(jì)算鏡頭間的視覺相似度。
數(shù)據(jù)集特點(diǎn):
1、利用常規(guī)視頻生成偽標(biāo)記數(shù)據(jù),無需專業(yè)標(biāo)記。
2、通過聚類模擬多攝像機(jī)系統(tǒng),提高模型在未知領(lǐng)域的泛化能力。
3、實(shí)現(xiàn)了68%的相對(duì)準(zhǔn)確率提升。
研究者可以使用該數(shù)據(jù)集訓(xùn)練和測(cè)試多攝像機(jī)視角推薦模型。通過對(duì)比真實(shí)鏡頭和候選鏡頭的特征,模型可以學(xué)習(xí)在不同場(chǎng)景下選擇合適的攝像機(jī)視角。
基準(zhǔn)測(cè)試 :
在TVMCE數(shù)據(jù)集上,與現(xiàn)有的Temporal and Contextual Transformer (TC Transformer)模型相比,提出的框架在域內(nèi)準(zhǔn)確率上提高了11%。在未知領(lǐng)域(如情景喜劇場(chǎng)景)中,使用偽數(shù)據(jù)集訓(xùn)練的模型表現(xiàn)出顯著更好的泛化能力。
(a) 在特定域的標(biāo)記多相機(jī)編輯數(shù)據(jù)集上訓(xùn)練的模型對(duì)前所未見的域的泛化效果不佳,準(zhǔn)確性顯著下降。(b) 我們提出的方法利用常規(guī)視頻為目標(biāo)域生成偽標(biāo)記數(shù)據(jù)集并提高模型的準(zhǔn)確性
模型架構(gòu)。(a) 過去的編碼器將所有過去的特征編碼為單個(gè)特征向量。然后,應(yīng)用對(duì)比損失以最大化過去特征和真實(shí)特征之間的余弦相似性。(b) 特征提取器通過向圖像特征添加位置嵌入來對(duì)幀進(jìn)行編碼。
偽數(shù)據(jù)集生成管道。(a) 在輸入視頻中檢測(cè)到鏡頭,以及 (b) 分組。同一群集中的快照被視為來自同一“偽”攝像機(jī)。(c) 選擇鏡頭作為錨點(diǎn)。后續(xù)鏡頭是地面實(shí)況,而其他每個(gè) N-1 偽相機(jī)中最相似的鏡頭被選為候選鏡頭。
與基線的比較。多攝像頭視圖推薦模型對(duì)前所未見的領(lǐng)域的泛化效果不佳。ID:域內(nèi),OOD:域外。
視頻場(chǎng)景的影響。在與測(cè)試集不同的場(chǎng)景中訓(xùn)練的模型準(zhǔn)確率較低。綠色和紅色表示相同和不同。
視頻場(chǎng)景和類型(情景喜劇)的影響。更顯著的域差異(視頻場(chǎng)景 + 視頻類型)會(huì)嚴(yán)重影響準(zhǔn)確性。來自廣泛視頻的偽數(shù)據(jù)集可以覆蓋目標(biāo)視頻場(chǎng)景和類型,從而獲得更高的準(zhǔn)確性。綠色、橙色和紅色表示相同、有遮蓋和不同。
三、讓我們一起展望Pseudo Multi-Camera Editing數(shù)據(jù)集應(yīng)用
比如,我是一名電影剪輯師。
我日常的工作:坐在剪輯室里,我得盯著屏幕,看那些復(fù)雜的實(shí)驗(yàn)室場(chǎng)景,或者是太空船的駕駛艙。每個(gè)攝像機(jī)都捕捉了不同的角度,有的可能是全景,有的可能是特寫,還有的可能聚焦在某個(gè)重要的儀器上。我得決定什么時(shí)候切換到哪個(gè)鏡頭,才能讓觀眾感受到那種緊張刺激的氣氛,同時(shí)又不能錯(cuò)過任何重要的細(xì)節(jié)。這就像是在做一道復(fù)雜的數(shù)學(xué)題,你得把所有的元素都考慮到,還得保證最后的結(jié)果讓觀眾滿意。
現(xiàn)在有了這個(gè)Pseudo Multi-Camera Editing Dataset數(shù)據(jù)集訓(xùn)練的系統(tǒng),我的眼睛得到更好的休息。
比如,我在剪輯一個(gè)太空船即將進(jìn)入黑洞的緊張場(chǎng)景。這個(gè)系統(tǒng)就能幫我分析出,哪個(gè)鏡頭最能展現(xiàn)太空船的動(dòng)態(tài),哪個(gè)鏡頭最能捕捉到宇航員臉上的緊張表情。它會(huì)告訴我,現(xiàn)在可以切換到一個(gè)全景鏡頭,讓觀眾感受到太空船在黑洞面前的渺小;然后,再切換到宇航員的特寫,因?yàn)樗难凵裰型嘎冻鰣?jiān)定和決心。
這個(gè)系統(tǒng)就像是我的智能剪輯助手,它通過學(xué)習(xí)大量的視頻資料,已經(jīng)知道在這種科技電影中,哪些鏡頭最能打動(dòng)人心。比如,在剪輯一個(gè)科學(xué)家在實(shí)驗(yàn)室里做實(shí)驗(yàn)的場(chǎng)景時(shí),它會(huì)建議我切換到一個(gè)特寫鏡頭,聚焦在科學(xué)家手中的那個(gè)即將引爆的裝置上,因?yàn)槟莻€(gè)裝置的每一個(gè)細(xì)節(jié)都可能關(guān)系到整個(gè)實(shí)驗(yàn)的成敗。
而且,這個(gè)系統(tǒng)還能幫我處理那些特別復(fù)雜的特效場(chǎng)景。比如,太空船在太空中爆炸的場(chǎng)景,它能夠分析出哪個(gè)鏡頭最能捕捉到爆炸的震撼效果,哪個(gè)切換最能帶動(dòng)觀眾的情緒。這樣,我就可以把更多的精力放在故事的敘述上,而不是糾結(jié)于每個(gè)鏡頭的選擇。
有了Pseudo Multi-Camera Editing Dataset數(shù)據(jù)集訓(xùn)練的系統(tǒng),讓我在剪輯科技電影時(shí),能夠更加專注于創(chuàng)意和故事的講述,而不用擔(dān)心錯(cuò)過那些重要的細(xì)節(jié)。它幫我捕捉到每一個(gè)精彩的瞬間,讓我的工作變得更加高效和有趣。