免費推廣網(wǎng)站大全網(wǎng)如何做線上銷售和推廣
“視頻版ControlNet”來了!
讓藍衣戰(zhàn)神秒變迪士尼公舉:
視頻處理前后,除了畫風(fēng)以外,其他都不更改。
女孩說話的口型都保持一致。
正在插劍的姜文,也能“下一秒”變猩球崛起了。
這就是由全華人團隊打造的最新視頻處理算法CoDeF,發(fā)布才幾天,迅速在網(wǎng)上爆火。
網(wǎng)友們看了直呼:
這一天天的,虛實分辨越來越難了!
只需要自己拍點東西,然后覆蓋上去,就能變成各種各樣的動畫了。
有人說,只需給它一年時間,就能被用在電影制作上了。
這馬上引來其他人的肯定:技術(shù)發(fā)展真的非常瘋狂、非??臁?/p>
目前,團隊已將這一方法在GitHub上開源。
姿勢不變,畫風(fēng)“皮套”隨便換
之所以會被稱為是“視頻版ControlNet”,主要原因在于CoDeF能夠?qū)υ曨l做到精準(zhǔn)控制。
(ControlNet實現(xiàn)了根據(jù)提示詞精準(zhǔn)控制圖像元素改變,如人物動作、圖像結(jié)構(gòu)等)
根據(jù)給到的提示詞,它僅改變視頻的畫風(fēng),而且是針對完整視頻。
比如輸入“Chinese ink painting”,風(fēng)景紀(jì)錄片能秒變國風(fēng)水墨大作。
包括水流也能很好跟蹤,整個流體動向都沒有被改變。
甚至一大片穗子,在原視頻里怎么擺動,改變畫風(fēng)后頻率和幅度也如出一轍。
在畫風(fēng)改變上,CoDeF也做了很多細節(jié)處理,讓效果更加逼真合理。
“由春入冬”后,原本有漣漪的河流靜止了,天空中的云彩被換成了太陽,更加符合冬日景象。
霉霉變成魔法少女后,耳環(huán)被換成了發(fā)光寶石,手里的蘋果也換成了魔法球。
這樣一來,讓電影角色一鍵變老也簡單了許多。
皺紋可以“悄無聲息”上臉,其他一切都沒有變化。
所以,CoDeF是怎么實現(xiàn)的呢?
可跟蹤水和煙霧,跨幀一致性更強
CoDeF是英文“the content deformation field”的縮寫,即作者在此提出了一種叫做內(nèi)容形變場的新方法,來用于視頻風(fēng)格遷移任務(wù)。
比起靜態(tài)的圖像風(fēng)格遷移,這種任務(wù)的復(fù)雜點在于時間序列上的一致性和流暢度。
比如處理水、煙霧這種元素,兩幀畫面之間的一致性非常重要。
在此,作者“靈機一動”,提出用圖片算法來直接解決視頻任務(wù)。
他們只在一張圖像上部署算法,再將圖像-圖像的轉(zhuǎn)換,提升為視頻-視頻的轉(zhuǎn)換,將關(guān)鍵點檢測提升為關(guān)鍵點跟蹤,而且不需要任何訓(xùn)練。
這樣一來,相較于傳統(tǒng)方法,能夠?qū)崿F(xiàn)更好的跨幀一致性,甚至跟蹤非剛性物體。
具體而言,CoDeF將輸入視頻分解為2D內(nèi)容規(guī)范場(canonical content field)和3D時間形變場(temporal deformation field):
前者用于聚合整個視頻中的靜態(tài)內(nèi)容;后者則負責(zé)記錄圖像沿時間軸的每個單獨幀的轉(zhuǎn)換過程。
利用MLP(多層感知器),每個場都用多分辨率2D或3D哈希表來表示。
在此,作者特意引入了正則化,來保證內(nèi)容規(guī)范場能夠繼承原視頻中的語義信息(比如物體的形狀)。
如上圖所示,這一系列設(shè)計使得CoDeF可以自動支持各種圖像算法直接應(yīng)用于視頻處理——
也就是只需利用相應(yīng)算法提取出來一張規(guī)范圖像,然后通過時間形變場沿著時間軸傳播結(jié)果即可。
比如,給CoDeF“套上”本用于圖片處理的ControlNet,就可以完成視頻風(fēng)格的“翻譯”(也就是我們開頭和第一段看的那一堆效果):
“套上”分割一切算法SAM,我們就能輕松做到視頻的對象跟蹤,完成動態(tài)的分割任務(wù):
“套上”Real-ESRGAN,則給視頻做超分也是信手拈來……
整個過程非常輕松,不需要對待操作視頻進行任何調(diào)整或處理。
不僅能處理,還能保證效果,即良好的時間一致性和合成質(zhì)量。
如下圖所示,相比去年誕生的Layered neural atlas算法,CoDeF能夠呈現(xiàn)非常忠于原視頻的細節(jié),既沒有變形也無破壞。
而在根據(jù)文本提示修改視頻風(fēng)格的任務(wù)對比中,CoDeF全部表現(xiàn)突出,不僅最匹配所給要求,也有著更高的完成度。
跨幀一致性則如下圖所示:
一位一作剛本科畢業(yè)
這項研究由香港科技大學(xué)、螞蟻團隊、浙江大學(xué)CAD&CG實驗室共同帶來。
共同一作有三位,分別是歐陽豪、Yujun Shen和Yuxi Xiao。
其中歐陽豪為港科大博士,師從陳啟峰(本文通訊作者之一);本科導(dǎo)師為賈佳亞。曾在MSRA、商湯、騰訊優(yōu)圖實驗室實習(xí)過,現(xiàn)在正在谷歌實習(xí)。
另一位是Qiuyu?Wang。Yujun Shen是通訊作者之一。
他是螞蟻研究所的高級研究科學(xué)家,主管交互智能實驗室,研究方向為計算機視覺和深度學(xué)習(xí),尤其對生成模型和3D視覺效果感興趣。
第三位一作為Yuxi Xiao才剛剛從武大本科畢業(yè),今年9月開始在浙大CAD&CG實驗室讀博。
他以一作身份發(fā)表的論文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces,被CVPR2023接收。
論文地址:
https://arxiv.org/abs/2308.07926
項目地址:
https://qiuyu96.github.io/CoDeF/
參考鏈接:
https://twitter.com/LinusEkenstam/status/1692492872392626284