廣州網(wǎng)站建設(shè) 易點(diǎn)seo站點(diǎn)是什么意思
0. 摘要
0.1. 問題提出
1.超分辨率(SR)是一個(gè)不適定逆問題,可行解眾多。
2.超分辨率(SR)算法在可行解中尋找一個(gè)在保真度和感知質(zhì)量之間取得平衡的“良好”解。
3.現(xiàn)有的方法重建高頻細(xì)節(jié)時(shí)會產(chǎn)生偽影和幻覺,模型區(qū)分圖像細(xì)節(jié)與偽影仍是難題。
0.2. 方法介紹
0.2.1. 損失函數(shù)改進(jìn)
本文表明,使用基于小波域損失函數(shù)的生成對抗網(wǎng)絡(luò)(GAN)超分辨率模型進(jìn)行訓(xùn)練,可以更好地學(xué)習(xí)到真正的高頻細(xì)節(jié)與偽影的特征,相比之下,RGB 域或傅里葉空間的損失函數(shù)則不然。
損失函數(shù)
損失函數(shù) | 定義 | 具體說明 |
RGB 域 | 在 RGB(紅、綠、藍(lán))顏色空間中定義的損失函數(shù)。 RGB 顏色空間是最常見的用于表示彩色圖像的模型,其中每個(gè)像素由紅、綠、藍(lán)三個(gè)通道的值來描述。 | 包含L2損失函數(shù)(均方誤差,MSE)、L1損失函數(shù)(平均絕對誤差,MAE)、感知損失 |
傅里葉空間 | 在傅里葉變換后的頻域中定義的損失函數(shù)。 傅里葉變換將圖像從空域(即 RGB 像素空間)轉(zhuǎn)換到頻域,其中低頻部分表示圖像的大致輪廓等基本信息,高頻部分表示圖像的細(xì)節(jié)信息。 | 在頻率域中,圖像的低頻部分主要包含了圖像的輪廓和基本形狀等信息,高頻部分則包含了圖像的細(xì)節(jié)信息。通過在傅里葉空間定義損失函數(shù),可以更好地控制重建圖像的頻率成分。 公式為
|
小波域 | 在小波變換后的小波域中定義的損失函數(shù)。 小波變換可以將圖像分解為不同尺度和方向的小波系數(shù),這些系數(shù)能夠更好地描述圖像的局部特征。 | 小波變換能夠同時(shí)提供圖像在空間和頻率上的局部信息。 在超分辨率重構(gòu)中,不同尺度的小波系數(shù)對應(yīng)著圖像不同層次的細(xì)節(jié)。大尺度的小波系數(shù)主要反映圖像的輪廓等低頻信息,小尺度的小波系數(shù)則反映圖像的細(xì)節(jié)等高頻信息。通過在小波域定義損失函數(shù),可以更有針對性地恢復(fù)圖像的細(xì)節(jié)。 公式為
|
0.2.2. 判別器訓(xùn)練創(chuàng)新
通常情況下,判別器是基于 RGB 圖像進(jìn)行訓(xùn)練的。RGB 圖像包含了紅、綠、藍(lán)三個(gè)顏色通道的信息,是我們常見的圖像表示形式。
然而,在本文中,作者提出僅對高頻小波子帶進(jìn)行判別器的訓(xùn)練。這樣訓(xùn)練的優(yōu)勢是高頻小波子帶能夠更突出地反映圖像中的細(xì)節(jié)和邊緣等信息,這些細(xì)節(jié)對于判斷圖像的真實(shí)性和質(zhì)量至關(guān)重要。例如,在一幅包含人物和背景的圖像中,人物的輪廓、發(fā)絲以及背景中的樹葉紋理等細(xì)節(jié)信息在高頻小波子帶中會更加明顯。通過在高頻小波子帶中訓(xùn)練判別器,它可以更專注于這些細(xì)節(jié)特征,從而更精準(zhǔn)地判斷生成的細(xì)節(jié)是真實(shí)的還是偽造的,有效地區(qū)分圖像中的真實(shí)細(xì)節(jié)和偽影,更好地控制細(xì)節(jié)與幻影偽影。
0.2.3. 生成器訓(xùn)練方式
在訓(xùn)練生成器時(shí),使用小波子帶的保真度損失。小波變換(如 SWT)可以將圖像分解為不同尺度和方向的子帶,每個(gè)子帶都包含了圖像在特定尺度和方向上的信息。通過計(jì)算生成圖像的小波子帶與真實(shí)高分辨率圖像的小波子帶之間的差異(保真度損失),并將這些差異反向傳播給生成器,使生成器學(xué)習(xí)如何調(diào)整生成的圖像,以減小這種差異。這種訓(xùn)練方式使得生成器在生成圖像時(shí),能夠更加關(guān)注圖像結(jié)構(gòu)的尺度和方向信息。例如,在生成建筑物的圖像時(shí),生成器可以根據(jù)不同小波子帶中的信息,準(zhǔn)確地還原出建筑物的輪廓(大尺度結(jié)構(gòu))以及墻壁上的磚塊紋理(小尺度結(jié)構(gòu)),并且保證這些結(jié)構(gòu)在不同方向上的正確性,如水平和垂直方向的線條等。這樣生成的超分辨率圖像在結(jié)構(gòu)和細(xì)節(jié)上更加逼真,與真實(shí)圖像的特征更加接近。
0.3. 結(jié)果展示
大量的實(shí)驗(yàn)結(jié)果表明,根據(jù)多個(gè)客觀指標(biāo)和視覺評估,我們的模型實(shí)現(xiàn)了更好的感知失真權(quán)衡。
1. 引言
1.1. 單幅圖像超分辨率
卷積神經(jīng)網(wǎng)絡(luò)CNN,通過像素級和
保真度損失進(jìn)行訓(xùn)練。
隨后出現(xiàn)了更好的模型,采用了殘差連接和稠密連接。
后來,空間注意力、通道注意力和Transformer網(wǎng)絡(luò)在峰值信噪比PSNR和結(jié)構(gòu)相似度SSIM方面表現(xiàn)出了令人印象深刻的性能。
然而,平均誤差最小化傾向于所有可行SR輸出的概率加權(quán)平均;因此,僅基于保真度損失進(jìn)行優(yōu)化的模型會產(chǎn)生過于平滑的圖像,缺乏HF細(xì)節(jié)。
1.2. 生成超分辨率模型
為了感知質(zhì)量更好的結(jié)果,提出了生成超分辨率模型,如生成對抗網(wǎng)絡(luò)GANs 、流模型和擴(kuò)散模型。生成超分辨率模型旨在從類似于真實(shí)圖像的分布中采樣預(yù)測的超分辨率圖像。 然而,眾所周知,它們會產(chǎn)生高頻細(xì)節(jié)的幻覺和結(jié)構(gòu)性偽影。
流和擴(kuò)散模型在某種意義上執(zhí)行隨機(jī)采樣,即單個(gè)模型可以生成許多樣本。因此,它們對每個(gè)樣本在學(xué)習(xí)細(xì)節(jié)與偽影之間的控制較少。
在本文中,我們專注于條件生成對抗網(wǎng)絡(luò)超分辨率模型,即單個(gè)訓(xùn)練模型生成單個(gè)超分辨率圖像樣本。生成對抗網(wǎng)絡(luò)模型通過像素級保真度和對抗(判別器)損失的加權(quán)和進(jìn)行訓(xùn)練。此外,還提出了額外的感知損失,如VGG損失、紋理匹配損失和內(nèi)容損失,以強(qiáng)制超分辨率和GT 圖像之間的特征級相似性,從而減輕幻覺和偽影。然而, 感知損失在控制幻覺和失真方面并不足夠有效。
1.3. 感知失真權(quán)衡
感知失真權(quán)衡假設(shè)指出,存在一個(gè)界限,超過這個(gè)界限,任何感知質(zhì)量的提升(通過無參考度量來衡量)都會以失真的增加(通過全參考度量來衡量) 為代價(jià)。在保真度和感知質(zhì)量之間找到最佳權(quán)衡不是一 個(gè)定義明確的優(yōu)化問題,主要是因?yàn)闆]有一種定量的感知圖像質(zhì)量度量與人類偏好有良好的相關(guān)性。認(rèn)識到這 一點(diǎn),最近的超分辨率挑戰(zhàn)要求超分辨率重建在正向退化模型下與低分辨率觀測結(jié)果一致(也稱為可行解), 并對視覺質(zhì)量進(jìn)行人類評估。然而,可行解集合的大小非常龐大,即使對于人類來說,確定哪些可行解包含真實(shí)的圖像細(xì)節(jié),哪些包含偽影或幻覺也是極其困難的。
1.5. 框架介紹
GAN-SR,利用小波域損失來抑制幻影和偽影,以實(shí)現(xiàn)更好的峰值信噪比(PD)權(quán)衡。
1.5.1. SWT子帶
SWT 是一種將圖像分解為多個(gè)子帶的技術(shù)。
在本文提出的 GAN - SR 框架中,利用 SWT 子帶的特性來定義保真損失和對立損失。
1.5.2. 保真損失
計(jì)算經(jīng)過 SWT 分解后的子帶的
損失加權(quán)組合與
經(jīng)過 SWT 分解后的子帶的
損失加權(quán)組合,再比較它們之間的差異(這里采用的不是傳統(tǒng)的 RGB 域
損失)
1.5.3. 對立損失
將的高頻子帶連接后輸入判別器得到一個(gè)結(jié)果,同時(shí)將
的高頻子帶連接后輸入判別器得到另一個(gè)結(jié)果,然后根據(jù)這兩個(gè)結(jié)果計(jì)算對立損失。
1.5.4. 不進(jìn)行子采樣
在一般的小波變換(如 DWT)過程中,子采樣是指在對圖像進(jìn)行分解時(shí),在某個(gè)方向(通常是水平或垂直方向)上每隔一定數(shù)量的像素點(diǎn)選取一個(gè)像素點(diǎn),從而降低圖像在該方向上的分辨率。例如,在水平方向上進(jìn)行 2 倍子采樣,就是每隔一個(gè)像素選取一個(gè)像素,這樣圖像的寬度就會變?yōu)樵瓉淼囊话?。子采樣的目的是減少數(shù)據(jù)量,加快計(jì)算速度,但同時(shí)也會損失一定的信息。SWT 在分解圖像時(shí)不進(jìn)行子采樣,這使得它能夠提供低頻(LF)和高頻(HF)子帶的獨(dú)特局部特征。因?yàn)闆]有子采樣帶來的信息丟失,SWT 分解后的子帶能夠更準(zhǔn)確地反映圖像在不同尺度和方向上的特征,圖像的尺度和頻率信息與空間位置內(nèi)在地耦合在一起。例如,對于一幅包含精細(xì)紋理和復(fù)雜結(jié)構(gòu)的圖像,SWT 可以完整地保留這些細(xì)節(jié)在各個(gè)子帶中的信息,使得模型在處理圖像時(shí)能夠更好地捕捉到圖像的局部特征,從而在定義保真損失和對立損失時(shí),能夠更精準(zhǔn)地控制圖像重建過程,有助于抑制幻影和偽影,實(shí)現(xiàn)更好的峰值信噪比權(quán)衡,提高超分辨率圖像的質(zhì)量。
1.6. 優(yōu)越性和貢獻(xiàn)
我們提出了一種小波域保真度損失(不同小波子帶的損失的加權(quán)組合,而非傳統(tǒng)的RGB域
損失),?它在 SWT 子帶中能更好地觀察到圖像局部結(jié)構(gòu)的尺度和方向,對局部結(jié)構(gòu)的尺度和方向更敏感。
我們提議在對抗訓(xùn)練中使用 SWT 域判別器,以控制高頻失真。我們表明,與傳統(tǒng)的 RGB 域判別器相比,在高頻小波子帶上訓(xùn)練判別器,能夠更好地控制優(yōu)化景觀,將失真與真實(shí)的圖像細(xì)節(jié)分離出來。
我們表明,將我們提出的小波引導(dǎo)訓(xùn)練方案與 RGB 域的 DISTS 感知損失(而非傳統(tǒng)的基于 VGG 的 LPIPS 損失)相結(jié)合,顯著提高了保真度(在峰值信噪比中高達(dá) 0.5 分貝),同時(shí)感知質(zhì)量的損失極小 (不到 1%)。
2. 相關(guān)工作
GAN-based SR.基于生成對抗網(wǎng)絡(luò)的超分辨率。
Training GANs by Frequency Domain Losses.通過頻域損失訓(xùn)練生成對抗網(wǎng)絡(luò)。
Modeling SR in the Wavelet Domain.在小波域中對超分辨率進(jìn)行建模。
3. WGSR: Wavelet-Guided SR Framework
WGSR框架通過以下方式抑制高頻幻影和失真,以實(shí)現(xiàn)更好的PD平衡:
- 僅在高頻 子帶上訓(xùn)練判別器
- 引入小波域失真損失來引導(dǎo)生成器
- 選擇更合適的感知損失,使其與我們的優(yōu)化目標(biāo)更好地耦合
3.1. 使用小波域損失的原因
平穩(wěn)小波變換(SWT)允許將圖像進(jìn)行多尺度分解,分解為一個(gè)被稱為 LL 的低頻子帶和幾個(gè)高頻(例如,LH、HL、HH)子帶。
LL 子帶的分解級別決定了分別在水平、垂直和對角方向傳輸詳細(xì)信息的高頻子帶的數(shù)量。
需要注意的是,由于在超分辨率任務(wù)中分辨率至關(guān)重要,我們使用 SWT 而不是經(jīng)典的離散小波變換DWT。SWT與DWT的主要區(qū)別在于SWT去除了 DWT 中的子采樣,因此,SWT 方法將尺度和頻率信息與空間位置內(nèi)在地耦合在一起。
LL 子帶的重要性:SWT 把圖像分解后,LL 子帶就像是圖像的 “根基”,對重建圖像的好壞(保真度)影響很大。如果這個(gè) “根基” 的頻率被改變了,那整個(gè)圖像就可能變得不像原來的樣子,也就是失真了。所以要保證 LL 子帶的頻率穩(wěn)定不變。同時(shí),圖像中那些和 LL 空間內(nèi)容能對應(yīng)得上的高頻部分(比如一些邊緣、紋理等細(xì)節(jié))也得重建好,這樣圖像看起來才真實(shí)。
通過對比 ESRGAN + 和 WGSR 方法在 SWT 分解下的情況,能看出 SWT 引導(dǎo)對抗訓(xùn)練的好處。
ESRGAN + 的問題:拿 ESRGAN + 這個(gè)方法來說,它在訓(xùn)練的時(shí)候沒有小波域損失的引導(dǎo),就像走路沒有地圖一樣。它生成的圖像有很明顯的夸大的偽影,就好像圖像上多了一些不該有的東西。特別是 HL 子帶,因?yàn)閳D像里結(jié)構(gòu)的方向等原因,這個(gè)子帶里有更多的幻影,也就是看起來不真實(shí)的東西,它的失真程度更高,在和其他子帶比較時(shí),峰值信噪比(PSNR)分?jǐn)?shù)最低。這就說明這個(gè)區(qū)域(HL 子帶)需要改進(jìn)。但是如果從普通的 RGB 圖像里去找這些問題并改進(jìn),對判別器網(wǎng)絡(luò)來說太難了,它根本發(fā)現(xiàn)不了圖像里這些不自然的偽影。
WGSR 的優(yōu)勢:而我們提出的 WGSR 方法就不一樣了。我們通過只把高頻(HF)子帶輸入到判別器網(wǎng)絡(luò)里,而不是整個(gè) RGB 圖像,這樣就能更容易地把圖像的細(xì)節(jié)和那些不好的偽影分開。經(jīng)過這樣的優(yōu)化,不管是在各個(gè)子帶,還是最后得到的超分辨率(SR)圖像,都有很大的進(jìn)步,圖像變得非常逼真,里面都是真實(shí)的圖像細(xì)節(jié),而不是那些假的幻影和偽影。所以說,SWT 引導(dǎo)的對抗訓(xùn)練是很有優(yōu)勢的,可以讓我們的模型生成更好的超分辨率圖像。
3.2. 結(jié)構(gòu)
如圖所示的所提出的框架由一個(gè)RGB域生成器和一個(gè)SWT 域判別器組成,它們使用 SWT 引導(dǎo)的保真度和對抗性以及像素域感知損失進(jìn)行聯(lián)合訓(xùn)練。該框架具有通用性,任何生成器和任何判別器模型都可以輕松地插入到這個(gè)框架中。
3.2.1. SWT域判別器
SWT 域判別器旨在判斷生成圖像的高頻細(xì)節(jié)與真實(shí)高頻細(xì)節(jié)的相似程度,通過特定的訓(xùn)練流程和架構(gòu),使其專注于評估水平、垂直和對角方向的細(xì)節(jié),以穩(wěn)定訓(xùn)練并有效防止幻覺與消除失真。
判別器任務(wù)
判別器就像一個(gè) “裁判”,它的工作是判斷生成圖像中的高頻細(xì)節(jié)(包括低頻、高頻和中頻子帶中的高頻部分)和真實(shí)圖像的高頻細(xì)節(jié)相比,有多像真的。它只關(guān)注圖像在水平、垂直和對角方向上的細(xì)節(jié),而不是直接看整個(gè) RGB 圖像。因?yàn)檫@些方向的細(xì)節(jié)對于控制圖像中真正的細(xì)節(jié)和那些不好的幻影、偽影特別重要。比如說,一張照片里建筑物的邊緣(水平和垂直方向細(xì)節(jié))、樹葉的脈絡(luò)(對角方向細(xì)節(jié))等,判別器要能判斷生成圖像里這些地方和真實(shí)圖像的差別。
子帶信息與訓(xùn)練簡化
低頻(LL)、高頻水平(LH)、高頻垂直(HL)和高頻對角(HH)子帶傳遞的是稀疏信息。這就好比給判別器提供了一份簡化的 “線索清單”,讓它的任務(wù)變得更容易,訓(xùn)練也能更穩(wěn)定。例如,在一幅風(fēng)景圖像中,LL 子帶可能給出了大致的地形輪廓(低頻信息),LH 子帶突出了水平方向的紋理(如河流、地平線等),HL 子帶強(qiáng)調(diào)了垂直方向的元素(如樹木、電線桿等),HH 子帶則體現(xiàn)了對角方向的細(xì)節(jié)(如山坡的斜邊、建筑物的棱角等)。這些信息不像完整的 RGB 圖像那么復(fù)雜,判別器可以更輕松地根據(jù)這些子帶信息來判斷圖像的好壞。
訓(xùn)練流程
首先,要對生成的圖像進(jìn)行 YCbCr 轉(zhuǎn)換,這就像是把圖像的 “語言” 翻譯成判別器能聽懂的形式。然后,只取其中的 Y 通道,把 Cb 和 Cr 通道扔掉,再對 Y 通道應(yīng)用 SWT 分解,這樣就能得到我們需要的低頻、高頻水平、高頻垂直和高頻對角子帶。在訓(xùn)練判別器的時(shí)候,只用 LH、HL、HH 這些細(xì)節(jié)子帶。
判別器架構(gòu)
判別器的內(nèi)部結(jié)構(gòu)像一個(gè) “加工廠”,有9個(gè)卷積層,這些卷積層的核大小在和
之間交替變化。
卷積層后面跟著二維批量歸一化,就像對加工過程中的數(shù)據(jù)進(jìn)行 “整理”,讓數(shù)據(jù)更規(guī)范。
在卷積層和批量歸一化之間還有 ReLU 激活函數(shù),它就像一個(gè) “開關(guān)”,決定哪些信息可以繼續(xù)傳遞下去。
每個(gè)卷積層輸出的特征數(shù)量從 64 慢慢增加到 512,最后通過兩個(gè)具有 LeakyReLU 激活的線性層,輸出一個(gè)二維數(shù)組。這個(gè)數(shù)組就是判別器給出的 “判決結(jié)果”,告訴我們生成圖像的高頻子帶和真實(shí)圖像的高頻子帶是否相似。
通過這樣的架構(gòu),判別器能夠把注意力集中在生成圖像的高頻細(xì)節(jié)上,尤其是那些能清楚區(qū)分偽造細(xì)節(jié)和真實(shí)細(xì)節(jié)的地方,從而防止圖像中出現(xiàn)幻覺(看到不存在的東西),并消除失真(讓圖像看起來更真實(shí))。
3.2.2. RGB域生成器
選擇RRDB架構(gòu)作為骨干生成器網(wǎng)絡(luò),其由 23 個(gè)不含批量歸一化的殘差密集塊組成。
除了輸出層,所有卷積層都使用具有64個(gè)特征的核,并選擇 Leaky ReLU 作為激活函數(shù)。
由于生成器網(wǎng)絡(luò)在訓(xùn)練期間隨機(jī)裁剪 RGB 塊,我們將其稱為 RGB 域生成器。
值得 一提的是,我們提出的具有小波域損失和小波變換域判別器的訓(xùn)練方案可以與任何生成器網(wǎng)絡(luò)架構(gòu)相結(jié)合。
3.3. 通過 SWT 域損失進(jìn)行訓(xùn)練
SWT 域保真損失
與傳統(tǒng) 方法使用 RGB 域保真損失不同,本文定義了 SWT 域保真損失
,并帶有相應(yīng)的調(diào)優(yōu)參數(shù)
。其計(jì)算方式是先對生成圖像
和真實(shí)圖像
進(jìn)行 SWT 分解,然后計(jì)算它們在各個(gè)子帶
上的
保真損失,乘以對應(yīng)的縮放因子
后求和,再對小批量數(shù)據(jù)求平均。
例如,對于圖像中的線條(如窗戶邊緣、建筑物輪廓等)和細(xì)節(jié)(如樹葉紋理、字母形狀等),通過調(diào)整不同子帶的權(quán)重,可以控制生成圖像在這些區(qū)域的高頻細(xì)節(jié),避免出現(xiàn)幻影或偽影,使生成圖像更接近真實(shí)圖像,從而調(diào)整保真度和感知質(zhì)量的平衡。
對抗損失
為避免改變現(xiàn)有頻率或引入新頻率,對抗損失僅在細(xì)節(jié)子帶(LH、HL 和 HH)上計(jì)算。其計(jì)算涉及判別器模型
,通過比較生成圖像和真實(shí)圖像在 SWT 域的細(xì)節(jié)子帶連接后的情況來確定損失。具體來說,公式中的兩項(xiàng)分別計(jì)算了真實(shí)圖像和生成圖像經(jīng)過判別器后的對數(shù)損失,兩者相加得到對抗損失。判別器的任務(wù)是區(qū)分真實(shí)和生成的細(xì)節(jié)子帶,生成器則要盡量 “欺騙” 判別器,使生成的細(xì)節(jié)子帶被判別為真實(shí)的,從而促使生成器生成更逼真的高頻細(xì)節(jié)。
生成器總體損失
生成器的總體損失由三部分組成:SWT 域保真損失
、對抗損失
乘以權(quán)重因子
、感知損失
乘以權(quán)重因子
。
感知損失用于衡量圖像質(zhì)量評估指標(biāo)(如DISTS)所提供的特征空間中的誤差。通過調(diào)整這些損失項(xiàng)的權(quán)重,可以靈活地調(diào)整生成的超分辨率圖像的保真度和感知質(zhì)量之間的平衡。
例如,如果希望生成的圖像更注重細(xì)節(jié)保真度,可以增加的權(quán)重;如果更看重感知質(zhì)量,可以適當(dāng)增加
的權(quán)重。
在實(shí)驗(yàn)中,通過經(jīng)驗(yàn)搜索確定了各參數(shù)的最佳值,如,
,
,
和
,以實(shí)現(xiàn)最佳的感知失真權(quán)衡。
判別器損失
判別器的損失計(jì)算方式與對抗損失相關(guān),其輸入僅為高頻細(xì)節(jié)子帶。它同樣通過比較真實(shí)圖像和生成圖像經(jīng)過判別器后的對數(shù)損失來確定,目的是使判別器能夠準(zhǔn)確地區(qū)分真實(shí)和生成的高頻細(xì)節(jié)子帶,從而引導(dǎo)生成器生成更逼真的圖像,減少偽影和失真。
4. 實(shí)驗(yàn)
4.1.? 實(shí)驗(yàn)設(shè)置
訓(xùn)練細(xì)節(jié)
訓(xùn)練集:DIV2K的800張,這些圖像是使用 MATLAB 雙三次下采樣核以 4 倍縮放因子生成的。在一個(gè)大小為 16 的小批量中,隨機(jī)裁剪
像素的RGB
塊并提供給生成器。然后,在對生成圖像的 Y 通道應(yīng)用平穩(wěn)小波變換(SWT)后計(jì)算損失項(xiàng)。
優(yōu)化過程:使用默認(rèn)設(shè)置為、
以及
的 ADAM 優(yōu)化器。
初始化生成器:我們使用預(yù)訓(xùn)練的 RRDB權(quán)重初始化生成器的訓(xùn)練參數(shù),然后進(jìn)行 次迭代,初始學(xué)習(xí)率為
,在
次迭代后減半。
由于小波損失是在訓(xùn)練期間計(jì)算的,它不影響運(yùn)行時(shí)間,因此 WGSR 的推理時(shí)間與 RRDB 的推理時(shí)間相同。
4.2.? 對比試驗(yàn)
定量比較
針對 超分辨率任務(wù),所提出的基于小波分解的優(yōu)化目標(biāo)與其他現(xiàn)有最佳方法的定量比較。最佳和次佳結(jié)果分別以粗體和下劃線標(biāo)記。
定性比較
SWT分解層級
層級作用:SWT 分解層級影響真實(shí)細(xì)節(jié)與偽影控制及 SR 性能,最佳層級取決于 LR 圖像結(jié)構(gòu)尺度和方向。
實(shí)驗(yàn)分析:以 Urban100 數(shù)據(jù)集中包含不同方向和空間頻率線條的圖像為例,如 img - 92,FxSR 和 SROOE 無法恢復(fù)正確結(jié)構(gòu),WGSR 使用 1 級 SWT 可恢復(fù)線條方向但有混疊,使用 2 級 SWT(將 1 級 SWT 的 LL 子帶進(jìn)一步分解為 4 個(gè)子帶并保持細(xì)節(jié)子帶不變,共 7 個(gè)子帶)可更好恢復(fù)結(jié)構(gòu),通過對 2 級分解的不同子帶設(shè)置權(quán)重(如,
,
,
),對 2 級高頻子帶在保真損失中加重懲罰可恢復(fù)更多真實(shí)細(xì)節(jié)和結(jié)構(gòu)。
小波基的選擇
選擇方法:實(shí)驗(yàn)研究了 haar、db7、db19、sym7、sym19、bior2.6、bior4.4 等小波濾波器對 WGSR 模型在 BSD100 基準(zhǔn)上的影響。
結(jié)果分析:不同小波家族的 PD 權(quán)衡性能不同,Symlet “sym19” 提供最佳客觀質(zhì)量,Daubechies “db7” 實(shí)現(xiàn)最佳感知質(zhì)量,“sym7” 濾波器達(dá)到最佳權(quán)衡點(diǎn),因此實(shí)驗(yàn)選用 “sym7” 小波濾波器。
4.3. 消融實(shí)驗(yàn)
實(shí)驗(yàn)?zāi)康?/strong>
探究 WGSR 方法中每個(gè)損失項(xiàng) (保真度、對抗損失
和感知損失
的作用。
實(shí)驗(yàn)設(shè)置與對比基準(zhǔn)
以 ESRGAN為基線 (),其
和
在 RGB 域計(jì)算,
采用
。
依次改變損失項(xiàng)的計(jì)算方式或類型,設(shè)置不同實(shí)驗(yàn)條件進(jìn)行對比:
如將
從LPIPS改為DISTS;
在SWT 域計(jì)算
保真損失;
在SWT域計(jì)算
;
在 SWT 域計(jì)算
和
且
為 LPIPS;
(WGSR)在SWT 域計(jì)算
和
且
為 DISTS。
實(shí)驗(yàn)結(jié)果分析
感知損失類型影響:中改變
為 DISTS 后,客觀和感知性能分別提高,表明 DISTS 有助于模型達(dá)到更好的 PD 點(diǎn)。
保真損失計(jì)算域影響:在 SWT 域計(jì)算
保真損失,客觀質(zhì)量提升約 1 dB 且感知質(zhì)量不變,說明在 SWT 子帶執(zhí)行保真度能更好控制生成細(xì)節(jié)。
對抗損失計(jì)算域影響:在 SWT 域計(jì)算
有利于感知質(zhì)量提升。
綜合影響:結(jié)合所有 SWT 域損失實(shí)現(xiàn)了客觀和感知質(zhì)量的最佳權(quán)衡。
4.4.?局限性
1.PSNR 和定量感知分?jǐn)?shù)不是視覺失真的良好評估指標(biāo)。WGSR在抑制視覺失真方面是有效的。然 而,這種視覺性能并未在定量測量中得到體現(xiàn)。
2.確定不同 SWT 域損失項(xiàng)的最佳權(quán)重是困難的,因?yàn)樵谒阉髯罴褭?quán)重過程中發(fā)現(xiàn),改變不同子帶保真損失權(quán)重會影響保真分?jǐn)?shù)和感知質(zhì)量。
如降低 LH 和 HL 子帶保真損失權(quán)重會使保真分?jǐn)?shù)下降,增加 HH 子帶保真項(xiàng)權(quán)重會降低感知質(zhì)量,同時(shí)較高的或
雖能提升感知質(zhì)量但會犧牲保真度。
權(quán)重選擇導(dǎo)致不同的感知 - 失真權(quán)衡點(diǎn),雖然使用小波域損失訓(xùn)練能使模型趨向更好的 PD 點(diǎn),但在區(qū)分真實(shí)圖像細(xì)節(jié)和偽影方面仍有改進(jìn)空間。
5. 結(jié)論
WGSR:一種新的基于生成對抗網(wǎng)絡(luò)(GAN)的超分辨率(SR)模型訓(xùn)練方法;該方法利用了小波域損失的加權(quán)組合;通過根據(jù)不同子帶中圖像特征的尺度和方向控制保真度和對抗損失的強(qiáng)度,我們的模型能夠以高重建精度學(xué)習(xí)真實(shí)的圖像細(xì)節(jié),同時(shí)避免高頻偽影和幻覺;從而實(shí)現(xiàn)了更好的PD權(quán)衡。
本文提出的對抗訓(xùn)練方法具有通用性,即任何現(xiàn)成的GAN - SR模型都可以輕松插入此框架以受益于小波引導(dǎo)。