動(dòng)態(tài)商務(wù)網(wǎng)站開發(fā)與管理電商培訓(xùn)視頻教程
FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning
存在的問題
現(xiàn)有的字體生成方法雖然取得了令人滿意的性能,但在處理復(fù)雜字和風(fēng)格變化較大的字符(尤其是中文字符)時(shí),仍會(huì)出現(xiàn)嚴(yán)重的筆畫缺失、偽影、模糊、結(jié)構(gòu)布局錯(cuò)誤和風(fēng)格不一致等問題,如上圖4所示。
原因分析
-
大多數(shù)方法都采用基于 GAN 的框架,由于其對(duì)抗訓(xùn)練的性質(zhì),可能會(huì)出現(xiàn)訓(xùn)練不穩(wěn)定的問題。
-
這些方法大多只通過單一尺度的高維特征來感知內(nèi)容信息,而忽略了對(duì)保留源內(nèi)容(尤其是復(fù)雜字符)的細(xì)粒度細(xì)節(jié)。
-
許多方法利用先驗(yàn)知識(shí)來幫助字體生成,例如字符的筆畫或部件組成;然而,對(duì)于復(fù)雜的字符來說,獲取這些細(xì)粒度信息的成本很高;
-
在過去的方法中,目標(biāo)風(fēng)格通常由一個(gè)簡(jiǎn)單的分類器或判別器來進(jìn)行特征表示學(xué)習(xí),這種分類器或判別器很難學(xué)習(xí)到合適的風(fēng)格,在一定程度上阻礙了在風(fēng)格變化較大時(shí)的風(fēng)格轉(zhuǎn)換。
圖1 在內(nèi)容編碼器中不同尺度的特征圖
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection
將視覺語言模型應(yīng)用于弱監(jiān)督視頻異常檢測(cè)
「簡(jiǎn)述:」VadCLIP是利用對(duì)比語言-圖像預(yù)訓(xùn)練(CLIP)模型進(jìn)行弱監(jiān)督視頻異常檢測(cè)的新方法。它通過直接利用凍結(jié)的CLIP模型,無需預(yù)訓(xùn)練和微調(diào),簡(jiǎn)化了模型適應(yīng)過程。與現(xiàn)有方法不同,VadCLIP充分利用CLIP在視覺和語言之間的精細(xì)關(guān)聯(lián),采用雙分支結(jié)構(gòu)。一個(gè)分支進(jìn)行粗粒度二分類,另一個(gè)分支則充分利用語言-圖像對(duì)齊進(jìn)行細(xì)粒度分析。通過雙分支結(jié)構(gòu),VadCLIP實(shí)現(xiàn)了從CLIP到WSVAD任務(wù)的遷移學(xué)習(xí),實(shí)現(xiàn)了粗粒度和細(xì)粒度的視頻異常檢測(cè)。