長沙岳麓區(qū)做網(wǎng)站seo內(nèi)容優(yōu)化是什么
本文用一種淺顯易懂的方式說明KL散度。
參考資料
KL散度本質(zhì)上是比較兩個(gè)分布的相似程度。
現(xiàn)在給出2個(gè)簡單的離散分布,稱為分布1和分布2.
分布1有3個(gè)樣本,
其中A的概率為50%, B的概率為40%,C的概率為10%
分布2也有3個(gè)樣本:
其中A的概率為50%,B的概率為10%,C的概率為40%。
現(xiàn)在想比較分布1和分布2的相似程度。
直觀看上去分布1和分布2中樣本A的概率是一樣的,僅僅B和C的概率換了一下。
分布應(yīng)該是相似的,但是如何量化來看呢。
可以這樣做,用分布1的各個(gè)樣本的概率和分布2樣本概率做比值,相加再求平均。
現(xiàn)假設(shè)分布1的概率分布為P,分布2的概率分布為Q,
那么P(A) = 0.5, P(B)=0.4, P( C) = 0.1
Q(A) = 0.5, Q(B) = 0.1, Q( C) = 0.4,
各樣本概率做比值之后為:
P(A)/Q(A) + P(B)/Q(B) + P( C)/Q( C) = 1+4+1/4
再對3個(gè)樣本取平均: (1+4+1/4) / 3 = 1.75
這就是我們想要的分布1和分布2的相似度。
不過有一個(gè)問題,
可以看到P(B)和Q(B), P( C)和Q( C)僅僅概率做了交換,它們的相似度大小應(yīng)該是一樣的(僅僅方向不一樣),
也就是說P(B)/Q(B), P( C)/Q( C)的絕對值應(yīng)該是一樣的,符號不一樣。
但是現(xiàn)在,哪個(gè)分子大哪個(gè)結(jié)果就大,這是不應(yīng)該的,
想要這樣一個(gè)函數(shù)來解決這個(gè)問題,
f(4) = y
f(1/4) = -y,
這里的4為P(B)/Q(B), 1/4為P( C)/Q( C),
經(jīng)過f(x)后得到的應(yīng)該是同樣的相似度大小,只是方向不一樣,一個(gè)是變大的方向,一個(gè)是變小的方向,用負(fù)號表示方向的不同。
那么什么樣的函數(shù)能滿足f(x)呢,
可以取幾個(gè)值畫一下,你會(huì)發(fā)現(xiàn),這個(gè)f(x)就是log(x)。
那么現(xiàn)在把剛才的相似度修改一下,
把簡單的P(x)/Q(x)換成log(P(x) / Q(x)).
于是變?yōu)?#xff1a; ∑ 1 n l o g P ( x ) Q ( x ) / n \sum_{1}^{n} log\frac{P(x)}{Q(x)} / n 1∑n?logQ(x)P(x)?/n
對樣本取平均值表示每個(gè)樣本的weight都是1/n,
不要取這么平均,把weight改為P(x),
那么就得到 ∑ 1 n P ( x ) l o g P ( x ) Q ( x ) \sum_{1}^{n} P(x) log\frac{P(x)}{Q(x)} 1∑n?P(x)logQ(x)P(x)?
這就是我們熟悉的KL散度,它比較的是分布P和分布Q的相似度。
“||”右邊的Q表示是reference分布。
K L ( P ∣ ∣ Q ) = ∑ 1 n P ( x ) l o g P ( x ) Q ( x ) KL(P||Q) = \sum_{1}^{n} P(x) log\frac{P(x)}{Q(x)} KL(P∣∣Q)=1∑n?P(x)logQ(x)P(x)?