網(wǎng)站設(shè)計第一步怎么做今日國內(nèi)新聞10則
文章目錄
- 一、文章概覽
- (一)問題提出
- (二)文章工作
- 二、判別比估計和密度鴻溝問題
- 三、伸縮密度比估計
- (一)核心思想
- (二)路標(biāo)創(chuàng)建
- (三)橋梁構(gòu)建
- (四)TRE應(yīng)用于互信息估計
- (五)TRE 應(yīng)用于基于能量的建模
- 四、實驗
- (一)1維峰值比率的設(shè)置及TRE的表現(xiàn)
- (二)高維度比率問題及TRE在大互信息(MI)估計中的表現(xiàn)
- (三)SpatialMultiOmniglot 上的 MI 估計和表示學(xué)習(xí)
- (四)MNIST 上基于能量的建模
一、文章概覽
(一)問題提出
密度比估計:
- 通過密度比估計進(jìn)行的無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個強大范例,是該領(lǐng)域重大進(jìn)展的源泉
- 根據(jù)數(shù)據(jù)樣本估計p/q比率,而不單獨估計分子和分母。
判別性密度比估計:
- 訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器來區(qū)分兩組樣本,因為對于許多損失函數(shù),可以從最佳分類器中提取 p/q 比值。
- 這種判別性方法在多個領(lǐng)域中產(chǎn)生了先進(jìn)的結(jié)果,是無監(jiān)督學(xué)習(xí)的基石。
密度鴻溝問題:
- 在兩個密度顯著不同的情況下,分類器就可以通過相對較差的密度比估計來獲得幾乎完美的精度。
- 實驗表明,每當(dāng) p 和 q 之間的KL散度超過幾十自然單位時,這種情況尤為明顯。
(二)文章工作
伸縮密度比估計(TRE) 框架:
- 用于克服密度鴻溝問題,實現(xiàn)在高維空間中準(zhǔn)確估計高度不同的密度之間的比率
- 采用由兩個步驟組成的“分而治之”策略:
- 第一步是逐漸將 p 中的樣本傳輸?shù)?q 中的樣本,創(chuàng)建中間數(shù)據(jù)集鏈
- 然后估計沿著這條鏈的連續(xù)數(shù)據(jù)集之間的密度比,與原始比率 p/q 不同,這些“鏈?zhǔn)奖嚷省笨梢酝ㄟ^分類準(zhǔn)確估計
- 最后通過伸縮乘積組合鏈?zhǔn)奖嚷室垣@得原始密度比 p/q 的估計。
實驗證明,TRE 相對于現(xiàn)有的單一比率方法在互信息估計、表示學(xué)習(xí)和能量基建模等任務(wù)中能夠顯著改善表現(xiàn)。
- 在互信息估計的背景下,TRE 可以準(zhǔn)確估計 30+ nat 的大 MI 值
- 表示學(xué)習(xí)實驗結(jié)果證實,TRE 比一系列現(xiàn)有的單比率基線提供了顯著的收益
- 基于能量的建模背景下,TRE 可以被視為噪聲對比估計 的擴(kuò)展,可以更有效地擴(kuò)展到高維數(shù)據(jù)。
二、判別比估計和密度鴻溝問題
假設(shè)p和q是有樣本的兩個密度,滿足 p ( x ) > 0 p(x)>0 p(x)>0, q ( x ) > 0 q(x)>0 q(x)>0,可以估計密度比 r ( x ) = p ( x ) / q ( x ) r(x)=p(x)/q(x) r(x)=p(x)/q(x) 來區(qū)分 p p p 和 q q q中的樣本。分類器的損失假設(shè)為廣泛使用的邏輯損失:
L ( θ ) = ? E x 1 ~ p log ? ( r ( x 1 ; θ ) 1 + r ( x 1 ; θ ) ) ? E x 2 ~ q log ? ( 1 1 + r ( x 2 ; θ ) ) L(\theta)=-E_{x_1\sim p}\log (\frac{r(x_1;\theta)}{1+r(x_1;\theta)})-E_{x_2\sim q}\log (\frac{1}{1+r(x_2;\theta)}) L(θ)=?Ex1?~p?log(1+r(x1?;θ)r(x1?;θ)?)?Ex2?~q?log(1+r(x2?;θ)1?)
其中 r ( x ; θ ) r(x;\theta) r(x;θ)是非負(fù)比率估計模型,為了強制非負(fù)性, r r r通常表示為無約束函數(shù)的指數(shù)。
密度鴻溝問題:
- 可能的誤差來源有很多:
- 使用錯誤指定的模型
- 不完善的優(yōu)化算法
- 上式中的期望的蒙特卡洛近似所產(chǎn)生的不準(zhǔn)確性
由于樣本量有限而產(chǎn)生的蒙特卡羅誤差實際上足以引發(fā)密度鴻溝問題,如果我們使用n=10000的樣本量并最小化有限樣本損失,最終得到的估計值 θ ^ \hat{\theta} θ^ 就會遠(yuǎn)離漸近極小值 θ ? = a r g m i n L ( θ ) \theta^*=argmin L(\theta) θ?=argminL(θ)。
L n ( θ ) = ∑ i = 1 n ? log ? ( r ( x 1 i ; θ ) 1 + r ( x 1 i ; θ ) ) ? log ? ( 1 1 + r ( x 2 i ; θ ) ) , x i i ~ p , x 2 i ~ q L^n(\theta)=\sum_{i=1}^n -\log (\frac{r(x_1^i;\theta)}{1+r(x_1^i;\theta)})-\log (\frac{1}{1+r(x_2^i;\theta)}), \ x_i^i\sim p,x_2^i\sim q Ln(θ)=i=1∑n??log(1+r(x1i?;θ)r(x1i?;θ)?)?log(1+r(x2i?;θ)1?),?xii?~p,x2i?~q對不同的樣本量重復(fù)相同的實驗,可以憑經(jīng)驗測量該方法的樣本效率.對于繪制的情況,我們看到樣本量的指數(shù)增加只會導(dǎo)致估計值線性下降錯誤。這一經(jīng)驗結(jié)果與理論結(jié)果一致,即基于密度比的 KL 散度下限僅對于 nats 數(shù)量呈指數(shù)級的樣本大小是嚴(yán)格的。
三、伸縮密度比估計
(一)核心思想
為了方便起見,進(jìn)行如下符號轉(zhuǎn)換: p = = p 0 p == p_0 p==p0?, q = = p m q == p_m q==pm? ,并通過伸縮乘積擴(kuò)展比率:
p 0 ( x ) p m ( x ) = p 0 ( x ) p 1 ( x ) p 1 ( x ) p 2 ( x ) . . . p m ? 2 ( x ) p m ? 1 ( x ) p m ? 1 ( x ) p m ( x ) \frac{p_0(x)}{p_m(x)}=\frac{p_0(x)}{p_1(x)}\frac{p_1(x)}{p_2(x)}... \frac{p_{m-2}(x)}{p_{m-1}(x)}\frac{p_{m-1}(x)}{p_m(x)} pm?(x)p0?(x)?=p1?(x)p0?(x)?p2?(x)p1?(x)?...pm?1?(x)pm?2?(x)?pm?(x)pm?1?(x)?
理想情況下, p k p_k pk? 能使分類器無法輕松將其與其兩個相鄰密度區(qū)分開。因此,該方法的兩個關(guān)鍵組成部分是:
- 路標(biāo)創(chuàng)建:將樣本 { x 0 1 , . . . , x 0 n } \{x_0^1,...,x_0^n\} {x01?,...,x0n?}從 p 0 p_0 p0?分布逐漸轉(zhuǎn)換到分布為 p m p_m pm?的樣本 { x m 1 , . . . , x m n } \{x_m^1,...,x_m^n\} {xm1?,...,xmn?}。轉(zhuǎn)換的每一步會獲得一個新數(shù)據(jù)集 { x k 1 , . . . , x k n } \{x_k^1,...,x_k^n\} {xk1?,...,xkn?},每個中間數(shù)據(jù)集都可以被視為來自隱式分布 p k p_k pk? 的樣本,可稱為路標(biāo)分布。
- 橋梁構(gòu)建:橋梁構(gòu)建方法涉及學(xué)習(xí)一組參數(shù)化的密度比率,這些比率是在連續(xù)的分布對之間估算的。用數(shù)學(xué)符號表示為 r k ( x ; θ k ) ≈ p k ( x ) p k + 1 ( x ) r_k(x;\theta_k)\approx \frac{p_k(x)}{p_{k+1}(x)} rk?(x;θk?)≈pk+1?(x)pk?(x)?,其中 k = 0 , . . . , m ? 1 k=0,...,m-1 k=0,...,m?1,每個 r k r_k rk?都是一個非負(fù)函數(shù),被稱為橋梁。
然后通過橋的乘積給出原始比率的估計:
r ( x ; θ ) = ∏ k = 0 m ? 1 r k ( x ; θ k ) ≈ ∏ k = 0 m ? 1 p k ( x ) p k + 1 ( x ) = p 0 ( x ) p m ( x ) r(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)\approx \prod_{k=0}^{m-1}\frac{p_k(x)}{p_{k+1}(x)}=\frac{p_0(x)}{p_m(x)} r(x;θ)=k=0∏m?1?rk?(x;θk?)≈k=0∏m?1?pk+1?(x)pk?(x)?=pm?(x)p0?(x)?
其中 θ θ θ 是所有 θ k θ_k θk? 向量的串聯(lián)。
(二)路標(biāo)創(chuàng)建
考慮兩種簡單的、確定性的路標(biāo)創(chuàng)建機(jī)制:線性組合和維度混合。
線性組合: 給定一個隨機(jī)對 x 0 ~ p 0 x_0 \sim p_0 x0?~p0? 和 x m ~ p m x_m \sim p_m xm?~pm?,通過以下方式定義第 k k k 個路標(biāo):
x k = 1 ? α k 2 x 0 + α k x m , k = 0 , . . . , m x_k=\sqrt{1-\alpha_k^2}x_0+\alpha_kx_m,\ k=0,...,m xk?=1?αk2??x0?+αk?xm?,?k=0,...,m
其中 α k α_k αk?形成從0到1遞增的序列,用于控制 x k x_k xk?到 x 0 x_0 x0?的距離。
維度混合: 將兩個向量的不同維度子集進(jìn)行拼接。給定一個長度為 d d d 的向量 x x x ,將其劃分為 m m m 個長度為 d / m d/m d/m 的子向量,表示為 x = ( x [ 1 ] , . . . , x [ m ] ) x = (x[1], ..., x[m]) x=(x[1],...,x[m]),每個 x [ i ] x[i] x[i]的長度為 d / m d/m d/m 。使用此表示法下,可以通過以下方式定義第 k 個路標(biāo):
x k = ( x m [ 1 ] , . . . , x m [ k ] , x 0 [ k + 1 ] , . . . , x 0 [ m ] ) , k = 0 , . . . , m x_k=(x_m[1],...,x_m[k],x_0[k+1],...,x_0[m]),\ k=0,...,m xk?=(xm?[1],...,xm?[k],x0?[k+1],...,x0?[m]),?k=0,...,m
(三)橋梁構(gòu)建
每個橋 r k ( x ; θ k ) r_k(x; θ_k) rk?(x;θk?) 都可以使用邏輯損失函數(shù)通過二元分類來學(xué)習(xí)。因此,解決這個分類任務(wù)集合是一個多任務(wù)學(xué)習(xí) (MTL) 問題, MTL 中的兩個關(guān)鍵問題是如何共享參數(shù)和如何定義聯(lián)合目標(biāo)函數(shù)。
參數(shù)共享:
將橋 r k ( x ; θ k ) r_k(x; θ_k) rk?(x;θk?) 的構(gòu)造分為兩個階段:
- 共享的隱藏向量 f k ( x ) f_k(x) fk?(x):
- 是一個深度神經(jīng)網(wǎng)絡(luò),其參數(shù)在不同的橋梁 r k r_k rk?中是共享的
- 每個橋梁有自己的預(yù)激活尺度和偏置,用于每個隱藏單元
- 頭部映射:
- 將隱藏向量 f k ( x ) f_k(x) fk?(x)映射到標(biāo)量 log ? r k ( x ; θ k ) \log r_k(x;\theta_k) logrk?(x;θk?)
- 映射可以是線性的或者二次的,具體的參數(shù)化根據(jù)實驗的具體情況而定
TRE 損失函數(shù):
-
TRE 損失函數(shù)由 m 個邏輯損失的平均值給出:
L T R E ( θ ) = 1 m ∑ k = 0 m ? 1 L k ( θ k ) L k ( θ k ) = ? E x k ~ p k log ? ( r k ( x k ; θ k ) 1 + r k ( x k ; θ k ) ) ? E x k + 1 ~ q k + 1 log ? ( 1 1 + r ( x k + 1 ; θ k ) ) L_{TRE}(\theta)=\frac{1}{m}\sum_{k=0}^{m-1}L_k(\theta_k)\\ L_k(\theta_k)=-E_{x_k\sim p_k}\log (\frac{r_k(x_k;\theta_k)}{1+r_k(x_k;\theta_k)})-E_{x_{k+1}\sim q_{k+1}}\log (\frac{1}{1+r(x_{k+1};\theta_k)}) LTRE?(θ)=m1?k=0∑m?1?Lk?(θk?)Lk?(θk?)=?Exk?~pk??log(1+rk?(xk?;θk?)rk?(xk?;θk?)?)?Exk+1?~qk+1??log(1+r(xk+1?;θk?)1?) -
訓(xùn)練中的樣本分配與潛在問題:
- 在訓(xùn)練過程中,每個比率估計器 r k r_k rk?會看到不同的樣本: r 0 r_0 r0?會看到接近真實數(shù)據(jù)的樣本,即從 p 0 p_0 p0?和 p 1 p_1 p1?中采樣的樣本;最終的比率 r m ? 1 r_{m-1} rm?1?則會看到來自 p m ? 1 p_{m-1} pm?1?和 p m p_m pm?的樣本
- 這種訓(xùn)練樣本分配方式可能會在訓(xùn)練和部署之間造成不匹配的問題。因為在學(xué)習(xí)之后,我們希望在相同的輸入 x x x 上評估所有的比率 r k r_k rk?,然而每個比率估計器在訓(xùn)練期間看到的輸入分布不同,這可能導(dǎo)致在新測試點上的泛化能力受到影響。
實驗結(jié)果沒有顯示這種不匹配是一個問題,這表明盡管在訓(xùn)練期間看到不同的輸入,每個比率都能夠推廣到新的測試點。我們推測,這種泛化是通過參數(shù)共享來促進(jìn)的,這使得每個比率估計器都可以間接地受到來自所有路標(biāo)分布的樣本的影響。盡管如此,對這個泛化問題進(jìn)行更深入的分析值得進(jìn)一步開展工作。
(四)TRE應(yīng)用于互信息估計
兩個隨機(jī)變量 u u u 和 v v v 之間的互信息 (MI) 可以寫為:
I ( u , v ) = E p ( u , v ) [ log ? r ( u , v ) ] , r ( u , v ) = p ( u , v ) p ( u ) p ( v ) I(u,v)=E_{p(u,v)}[\log r(u,v)],\ r(u,v)=\frac{p(u,v)}{p(u)p(v)} I(u,v)=Ep(u,v)?[logr(u,v)],?r(u,v)=p(u)p(v)p(u,v)?
從聯(lián)合密度和邊際乘積生成樣本:
從聯(lián)合密度 p ( u , v ) p(u,v) p(u,v)中獲取樣本 ( u , v ) (u,v) (u,v),通過將數(shù)據(jù)集中的 v v v 向量打亂,可以從邊際乘積 p ( u ) p ( v ) p(u)p(v) p(u)p(v)中獲取樣本。具體來說,我們保留 u u u 不變,將 v v v 在數(shù)據(jù)集中進(jìn)行隨機(jī)重排。
路標(biāo)樣本的生成:
為了執(zhí)行TRE(密度比率估計),我們需要生成路標(biāo)樣本:
先從聯(lián)合密度 p ( u , v ) p(u,v) p(u,v)中獲取一個樣本 x 0 = ( u , v 0 ) x_0=(u,v_0) x0?=(u,v0?),從邊際乘積 p ( u ) p ( v ) p(u)p(v) p(u)p(v) 中取一個樣本 x m = ( u , v m ) x_m=(u,v_m) xm?=(u,vm?),其中 u u u 保持固定,僅 v v v 不變,然后使用路標(biāo)構(gòu)建機(jī)制來生成中間路標(biāo)樣本 x k = ( u , v k ) x_k=(u,v_k) xk?=(u,vk?),其中 k = 0 , . . . , m k=0,...,m k=0,...,m。
(五)TRE 應(yīng)用于基于能量的建模
基于能量的模型 (EBM) 是一個靈活的非負(fù)函數(shù)參數(shù)族 { ? ( x ; θ ) } \{\phi(x; θ)\} {?(x;θ)},其中每個函數(shù)與概率密度成正比。給定密度為 p ( x ) p(x) p(x) 的數(shù)據(jù)分布樣本,基于能量的建模的目標(biāo)是找到一個參數(shù) θ ? θ^* θ?,使得 ? ( x ; θ ? ) \phi(x; θ^*) ?(x;θ?)近似于 c p ( x ) cp(x) cp(x) ,其中 c c c為一個正常數(shù)。
本文作者考慮 ? ( x ; θ ) = r ( x ; θ ) q ( x ) \phi(x; θ)=r(x;\theta)q(x) ?(x;θ)=r(x;θ)q(x), q q q是可以從中采樣的已知密度(例如高斯流或歸一化流),而 r r r 是一個無約束的正函數(shù)。給定這個參數(shù)化,最優(yōu) r r r 簡單地等于密度比 p ( x ) / q ( x ) p(x)/q(x) p(x)/q(x),因此學(xué)習(xí) EBM 的問題變成了估計密度比的問題,這可以通過 TRE 來解決。由于 TRE 實際上估計比率乘積,因此最終EBM的形式為:
? ( x ; θ ) = ∏ k = 0 m ? 1 r k ( x ; θ k ) q ( x ) \phi(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)q(x) ?(x;θ)=k=0∏m?1?rk?(x;θk?)q(x)
四、實驗
(一)1維峰值比率的設(shè)置及TRE的表現(xiàn)
實驗設(shè)置:
- 使用單參數(shù)二次分類器的極端峰值高斯 p (σ = 10?6) 和寬高斯 q (σ = 1) 之間的密度比估計
- 使用二次形式的橋梁,其中 b k b_k bk?設(shè)置為其真實值,而 w k w_k wk?被重新參數(shù)化為 e x p ( θ k ) exp(\theta_k) exp(θk?)以避免出現(xiàn)不必要的對數(shù)尺度。
log ? r k ( x ) = w k x 2 + b k \log r_k(x)=w_kx^2+b_k logrk?(x)=wk?x2+bk?
實驗結(jié)果:
- 樣本效率:TRE在使用100個樣本時就獲得了比單一比率估計使用100,000個樣本更好的解決方案,顯示出三數(shù)量級的改進(jìn)。
- 準(zhǔn)確性提升:通過樣本效率曲線,可以清楚地看到TRE在所有樣本規(guī)模下都具有顯著的準(zhǔn)確性提升。
(二)高維度比率問題及TRE在大互信息(MI)估計中的表現(xiàn)
實驗設(shè)置:
- x ∈ R 2 d x\in R^{2d} x∈R2d是一個高斯隨機(jī)變量,具有塊對角協(xié)方差矩陣。每個塊是2x2的矩陣,對角線上為1,非對角線上為0.8,目標(biāo)是估計這個高斯分布與標(biāo)準(zhǔn)正態(tài)分布之間的比率。
- 使用二次形式橋梁,其中 W k W_k Wk?是對稱矩陣, b k b_k bk?是偏置項
log ? r k ( x ) = x T W k x + b k \log r_k(x)=x^TW_kx+b_k logrk?(x)=xTWk?x+bk?
實驗結(jié)果:
單一比率估計在MI值大于20 nats時變得非常不準(zhǔn)確,相比之下,TRE能夠準(zhǔn)確估計高達(dá)80 nats的MI值,即使對于320維的變量也是如此。
(三)SpatialMultiOmniglot 上的 MI 估計和表示學(xué)習(xí)
實驗設(shè)置:
- SpatialMultiOmniglot問題源于Omniglot數(shù)據(jù)集,其中字符被空間排列成一個 n × n n \times n n×n 的網(wǎng)格,每個網(wǎng)格位置包含來自固定字母表的字符。在此設(shè)置中,每個網(wǎng)格位置被視為一個類別隨機(jī)變量,其實現(xiàn)是相應(yīng)字母表中的字符。我們形成的網(wǎng)格對 ( u , v ) (u,v) (u,v) 使得對應(yīng)的網(wǎng)格位置包含按字母順序排列的字符。根據(jù)這種設(shè)置,可以計算出真實的MI值。
- 每個橋梁使用的可分離架構(gòu)形式如下,其中 g g g和 f k f_k fk?是14層卷積ResNets, f k f_k fk?使用了參數(shù)共享方案。
log ? r k ( u , v ) = g ( u ) T W k f k ( v ) \log r_k(u,v)=g(u)^TW_kf_k(v) logrk?(u,v)=g(u)TWk?fk?(v) - 路標(biāo)構(gòu)建使用按維度混合機(jī)制,其中 m = n 2 m=n^2 m=n2,即一次混合一個維度。
實驗結(jié)果:
- MI估計(左圖):結(jié)果顯示,只有TRE能夠準(zhǔn)確估計高達(dá)約35 nats的高M(jìn)I值。
- 表示學(xué)習(xí)(右圖):隨著網(wǎng)格中字符數(shù)量的增加(即MI的增加),所有單一密度比率基線的性能顯著下降。相比之下,TRE始終獲得超過97%的準(zhǔn)確率。
(四)MNIST 上基于能量的建模
能量模型的形式:
? ( x ; θ ) = ∏ k = 0 m ? 1 r k ( x ; θ k ) q ( x ) \phi(x;\theta)=\prod_{k=0}^{m-1}r_k(x;\theta_k)q(x) ?(x;θ)=k=0∏m?1?rk?(x;θk?)q(x)
其中 q q q是預(yù)先指定的“噪聲”分布,從中可以進(jìn)行采樣,比率的乘積由TRE給出。
實驗設(shè)置:
- 使用MNIST手寫數(shù)字?jǐn)?shù)據(jù)集,每個樣本是28x28像素的灰度圖像,代表一個手寫數(shù)字。
- 考慮三種噪聲分布的選擇:多變量高斯分布、高斯copula、有耦合層的有理二次神經(jīng)樣條流(RQ-NSF)
- 每種噪聲分布都首先通過最大似然估計擬合到數(shù)據(jù)上。
TRE中構(gòu)建路標(biāo):
每種噪聲分布可以表示為標(biāo)準(zhǔn)正態(tài)分布的可逆變換。也就是說每個隨機(jī)變量可以表示為 F ( z ) F(z) F(z),其中 z ~ N ( 0 , I ) z\sim N(0,I) z~N(0,I)。我們可以在z-空間中通過線性組合方式生成路標(biāo),然后映射回x-空間,進(jìn)而得到:
x k = F ( 1 ? α k 2 F ? 1 ( x 0 ) + α k F ? 1 ( x m ) ) x_k=F(\sqrt{1-\alpha_k^2}F^{-1}(x_0)+\alpha_kF^{-1}(x_m)) xk?=F(1?αk2??F?1(x0?)+αk?F?1(xm?))
能量基準(zhǔn)模型的構(gòu)建:
每個橋梁 r k ( x ) r_k(x) rk?(x)的形式為:
log ? r k ( x ) = ? f k ( x ) T W k f k ( x ) ? f k ( x ) T b k ? c k \log r_k(x)=-f_k(x)^TW_kf_k(x)-f_k(x)^Tb_k-c_k logrk?(x)=?fk?(x)TWk?fk?(x)?fk?(x)Tbk??ck?
其中 f k ( x ) f_k(x) fk?(x)是一個18層卷積ResNet, W k W_k Wk?被約束為正定矩陣。這個約束確保了EBM的對數(shù)密度有一個上限。
- 通過表格中的估計對數(shù)似然來定量評估學(xué)習(xí)到的EBM模型。
- 通過下圖中從模型中隨機(jī)采樣的樣本來進(jìn)行定性評估
從上述結(jié)果可以看出,對于簡單的噪聲分布選擇,單一比率估計在高維情況下表現(xiàn)不佳,只有在使用復(fù)雜的神經(jīng)密度估計器(如RQ-NSF)時表現(xiàn)良好。相比之下,TRE在所有噪聲選擇中都顯示出改進(jìn),這通過近似對數(shù)似然和樣本的視覺保真度來衡量。特別是在高斯噪聲分布下,TRE的改進(jìn)尤為顯著:每維比特數(shù)(bits per dimension, bpd)大約降低了0.66,對應(yīng)著大約360 nats的改進(jìn)。此外,生成的樣本顯著更加連貫,并且在視覺保真度上比RQ-NSF樣本要好。