網(wǎng)站安全狗 攔截301網(wǎng)絡(luò)推廣公司哪家做得好
機(jī)器學(xué)習(xí)的基本要素包括模型、學(xué)習(xí)準(zhǔn)則(策略)和優(yōu)化算法三個(gè)部分。機(jī)器學(xué)習(xí)方法之間的不同,主要來(lái)自其模型、學(xué)習(xí)準(zhǔn)則(策略)、優(yōu)化算法的不同。
模型
機(jī)器學(xué)習(xí)首要考慮的問(wèn)題是學(xué)習(xí)什么樣的模型(Model)。在監(jiān)督學(xué)習(xí)中,給定訓(xùn)練集,學(xué)習(xí)的目的是希望能夠擬合一個(gè)函數(shù) f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)來(lái)完成從輸入特征向量 x {\bm x} x到輸出標(biāo)簽的映射。這個(gè)需要擬合的函數(shù) f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)稱為模型,它由參數(shù)向量 θ {\bm \theta} θ決定。 θ {\bm \theta} θ稱為模型參數(shù)向量, θ {\bm \theta} θ所在的空間稱為參數(shù)空間(Parameter Space)。一般來(lái)說(shuō),模型有兩種形式,一種形式是概率模型(條件概率分布),另一種形式是非概率模型(決策函數(shù))。決策函數(shù)還可以再分為線性和非線性兩種,對(duì)應(yīng)的模型稱為線性模型和非線性模型。在實(shí)際應(yīng)用中,將根據(jù)具體的學(xué)習(xí)方法來(lái)決定采用概率模型還是非概率模型。
將訓(xùn)練得到的模型稱為一個(gè)假設(shè),從輸入空間到輸出空間的所有可能映射組成的集合稱為假設(shè)空間(Hypothesis Space)。在監(jiān)督學(xué)習(xí)中,模型是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間包含所有可能的條件概率分布或決策函數(shù)。例如,假設(shè)決策函數(shù)是輸入特征向量 x {\bm x} x的線性函數(shù),那么模型的假設(shè)空間是所有這些線性函數(shù)構(gòu)成的函數(shù)集合。假設(shè)空間中的模型一般有無(wú)窮多個(gè),而機(jī)器學(xué)習(xí)的目的是從這個(gè)假設(shè)空間中選擇出一個(gè)最好的預(yù)測(cè)模型,即在參數(shù)空間中選擇一個(gè)最優(yōu)的估計(jì)參數(shù)向量 θ ^ \hat{{\bm \theta}} θ^。
學(xué)習(xí)準(zhǔn)則(策略)
在明確了模型的假設(shè)空間之后,接下來(lái)需要考慮的是按照什么樣的準(zhǔn)則(策略)從假設(shè)空間中選擇最優(yōu)的模型,即學(xué)習(xí)準(zhǔn)則或策略問(wèn)題。
機(jī)器學(xué)習(xí)最后都?xì)w結(jié)為求解最優(yōu)化問(wèn)題,為了實(shí)現(xiàn)某一目標(biāo),需要構(gòu)造出一個(gè)“目標(biāo)函數(shù)”(Objective Function),然后讓目標(biāo)函數(shù)達(dá)到極大值或極小值,從而求得機(jī)器學(xué)習(xí)模型的參數(shù)。如何構(gòu)造出一個(gè)合理的目標(biāo)函數(shù),是建立機(jī)器學(xué)習(xí)模型的關(guān)鍵,一旦目標(biāo)函數(shù)確定,可以通過(guò)優(yōu)化算法來(lái)求解。
對(duì)于監(jiān)督學(xué)習(xí)中的分類問(wèn)題與回歸問(wèn)題,機(jī)器學(xué)習(xí)本質(zhì)上是給定一個(gè)訓(xùn)練樣本集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T = \{({\bm x}_1, y_1), ({\bm x}_2, y_2), \ldots, ({\bm x}_N, y_N)\} T={(x1?,y1?),(x2?,y2?),…,(xN?,yN?)},嘗試學(xué)習(xí) x i → y i {\bm x}_i \rightarrow y_i xi?→yi?的映射函數(shù) f ( x i ; θ ) f({\bm x}_i; {\bm \theta}) f(xi?;θ),其中 θ {\bm \theta} θ是模型的參數(shù)向量,使得給定一個(gè)輸入樣本數(shù)據(jù) x {\bm x} x,即便這個(gè) x {\bm x} x不在訓(xùn)練樣本中,也能夠?yàn)?span id="ieo6y2aa" class="katex--inline"> x {\bm x} x預(yù)測(cè)出一個(gè)標(biāo)簽值 y ^ \hat{y} y^?。
-
損失函數(shù)
(1)0-1 損失函數(shù)
0-1 損失函數(shù)(0-1 Loss Function)是最直接地反映模型正確與否的損失函數(shù),對(duì)于正確的預(yù)測(cè),損失函數(shù)值為 0;對(duì)于錯(cuò)誤的預(yù)測(cè),損失函數(shù)值為 1。其數(shù)學(xué)表達(dá)式為:
L ( y i , f ( x i ; θ ) ) = { 0 , f ( x i ; θ ) = y i 1 , f ( x i ; θ ) ≠ y i L(y_i, f({\bm x}_i; {\bm \theta})) = \begin{cases} 0, & f({\bm x}_i; {\bm \theta}) = y_i \\ 1, & f({\bm x}_i; {\bm \theta}) \neq y_i \end{cases} L(yi?,f(xi?;θ))={0,1,?f(xi?;θ)=yi?f(xi?;θ)=yi??可見(jiàn),0-1 損失函數(shù)不考慮預(yù)測(cè)值與實(shí)際值的誤差大小,只要預(yù)測(cè)錯(cuò)誤,損失函數(shù)值均為 1。雖然 0-1 損失函數(shù)能夠直觀地反映模型的錯(cuò)誤情況,但是它的數(shù)學(xué)性質(zhì)并不是很好——不連續(xù)也不可導(dǎo),因此在優(yōu)化時(shí)很困難。通常,會(huì)選擇其他相似的連續(xù)可導(dǎo)函數(shù)來(lái)替代它。
(2)平方損失函數(shù)
平方損失函數(shù)(Quadratic Loss Function)是模型輸出的預(yù)測(cè)值與實(shí)際觀測(cè)值之差的平方,其數(shù)學(xué)表達(dá)式為:
L ( y i , f ( x i ; θ ) ) = [ y i ? f ( x i ; θ ) ] 2 L(y_i, f({\bm x}_i; {\bm \theta})) = [y_i - f({\bm x}_i; {\bm \theta})]^2 L(yi?,f(xi?;θ))=[yi??f(xi?;θ)]2從直覺(jué)上理解,平方損失函數(shù)只考慮預(yù)測(cè)值與實(shí)際觀測(cè)值之間誤差的大小,不考慮其正負(fù)。但由于經(jīng)過(guò)平方運(yùn)算,與實(shí)際觀測(cè)值偏差較大的預(yù)測(cè)值會(huì)比偏差較小的預(yù)測(cè)值受到更嚴(yán)重的懲罰。平方損失函數(shù)具有良好的數(shù)學(xué)性質(zhì)——連續(xù)、可微分且為凸函數(shù),是機(jī)器學(xué)習(xí)回歸任務(wù)中最常用的一種損失函數(shù),也稱為 L 2 L_2 L2?損失函數(shù)。
當(dāng)模型輸出預(yù)測(cè)值與實(shí)際觀測(cè)值之間的誤差服從高斯分布的假設(shè)成立時(shí),最小化均方誤差損失函數(shù)與極大似然估計(jì)本質(zhì)上是一致的,在此情形下(如回歸任務(wù)),均方誤差損失函數(shù)是最優(yōu)的選擇。
(3)絕對(duì)損失函數(shù)
絕對(duì)損失函數(shù)(Absolute Loss Function)是模型輸出的預(yù)測(cè)值與實(shí)際觀測(cè)值之差的絕對(duì)值,其數(shù)學(xué)表達(dá)式為:
L ( y i , f ( x i ; θ ) ) = ∣ y i ? f ( x i ; θ ) ∣ L(y_i, f({\bm x}_i; {\bm \theta})) = |y_i - f({\bm x}_i; {\bm \theta})| L(yi?,f(xi?;θ))=∣yi??f(xi?;θ)∣
絕對(duì)損失函數(shù)也稱為 L 1 L_1 L1?損失函數(shù)。與平方損失函數(shù)類似,絕對(duì)損失函數(shù)也只考慮預(yù)測(cè)值與實(shí)際觀測(cè)值之間誤差的大小,不考慮其正負(fù)。所不同的是,由于絕對(duì)損失與絕對(duì)誤差之間是線性關(guān)系,平方損失與誤差之間是平方關(guān)系,當(dāng)誤差非常大的時(shí)候,平方損失會(huì)遠(yuǎn)大于絕對(duì)損失。因此,當(dāng)樣本中出現(xiàn)一個(gè)誤差非常大的離群樣本(Outlier)時(shí),平方損失會(huì)產(chǎn)生一個(gè)非常大的損失,對(duì)模型的訓(xùn)練會(huì)產(chǎn)生較大的影響。所以,與平方損失函數(shù)相比,絕對(duì)損失函數(shù)對(duì)于離群樣本更加魯棒,即不易受到離群樣本的影響。
另一方面,當(dāng)使用梯度下降算法時(shí),平方損失函數(shù)的梯度為 [ y i ? f ( x i ; θ ) ] [y_i - f({\bm x}_i; {\bm \theta})] [yi??f(xi?;θ)],而絕對(duì)損失函數(shù)的梯度為 ± 1 \pm 1 ±1,即平方損失函數(shù)的梯度的幅度會(huì)隨誤差大小變化,而絕對(duì)損失函數(shù)的梯度的幅度則一直保持為 1,即便在絕對(duì)誤差 ∣ y i ? f ( x i ; θ ) ∣ |y_i - f({\bm x}_i; {\bm \theta})| ∣yi??f(xi?;θ)∣很小時(shí),絕對(duì)損失函數(shù)的梯度的幅度也同樣為 1,這實(shí)際上是非常不利于模型的訓(xùn)練的。當(dāng)然,也可以通過(guò)在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整學(xué)習(xí)率來(lái)緩解這個(gè)問(wèn)題,但是總的來(lái)說(shuō),平方損失函數(shù)通常比絕對(duì)損失函數(shù)可以更快地收斂。
(4)對(duì)數(shù)損失函數(shù)
其定義為:
L ( y i , f ( x i ; θ ) ) = ? log ? P ( y i ∣ x i ) L(y_i, f({\bm x}_i; {\bm \theta})) = -\log P(y_i \mid {\bm x}_i) L(yi?,f(xi?;θ))=?logP(yi?∣xi?)
對(duì)數(shù)損失函數(shù)(Logarithmic Loss Function)或負(fù)對(duì)數(shù)似然損失函數(shù)(Negative Log Likelihood Loss Function)源于極大似然估計(jì)的思想——極大化對(duì)數(shù)似然函數(shù),而通常習(xí)慣于最小化損失函數(shù),因此將它轉(zhuǎn)變?yōu)樽钚』?fù)對(duì)數(shù)似然函數(shù)。取對(duì)數(shù)是為了方便計(jì)算極大似然估計(jì),因?yàn)樵跇O大似然估計(jì)中,直接求導(dǎo)比較困難,所以通常都是先取對(duì)數(shù)再求導(dǎo)尋找極值點(diǎn)。 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi?∣xi?)是指當(dāng)前模型對(duì)于輸入樣本 x i {\bm x}_i xi?的預(yù)測(cè)值為 y i y_i yi?的概率,即預(yù)測(cè)正確的概率。因?yàn)閷?duì)數(shù)函數(shù)是單調(diào)遞增的,所以在公式中加上負(fù)號(hào)之后,表示預(yù)測(cè)正確的概率越高,其損失函數(shù)值越小,即最大化 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi?∣xi?)等價(jià)于最小化損失函數(shù)。對(duì)數(shù)損失函數(shù)通常用于邏輯斯諦回歸(Logistic Regression)模型的推導(dǎo)中。
(5)交叉熵?fù)p失函數(shù)
交叉熵(Cross Entropy)是 Shannon 信息論中一個(gè)重要概念,用于衡量同一個(gè)隨機(jī)變量中的兩個(gè)不同概率分布的差異程度。假設(shè)一個(gè)樣本集中有兩個(gè)概率分布 p p p和 q q q,其中 p p p表示真實(shí)概率分布, q q q表示非真實(shí)概率分布。假如,按照真實(shí)概率分布 p p p來(lái)衡量表示一個(gè)樣本所需要的編碼長(zhǎng)度的期望為:
H ( p ) = ? ∑ i p i log ? p i H(p) = -\sum_{i} p_i \log p_i H(p)=?i∑?pi?logpi?
但是,如果按照非真實(shí)概率分布 q q q來(lái)衡量表示服從真實(shí)概率分布 p p p的一個(gè)樣本所需要的平均編碼長(zhǎng)度,則應(yīng)該是:
H ( p , q ) = ? ∑ i p i log ? q i H(p, q) = -\sum_{i} p_i \log q_i H(p,q)=?i∑?pi?logqi?
此時(shí)將 H ( p , q ) H(p, q) H(p,q)稱為交叉熵。
在機(jī)器學(xué)習(xí)中,交叉熵可作為損失函數(shù)。交叉熵?fù)p失函數(shù)(Cross-Entropy Loss Function)定義為:
L ( y i , f ( x i ; θ ) ) = ? [ y i log ? f ( x i ; θ ) + ( 1 ? y i ) log ? ( 1 ? f ( x i ; θ ) ) ] L(y_i, f({\bm x}_i; {\bm \theta})) = -[y_i \log f({\bm x}_i; {\bm \theta}) + (1 - y_i) \log (1 - f({\bm x}_i; {\bm \theta}))] L(yi?,f(xi?;θ))=?[yi?logf(xi?;θ)+(1?yi?)log(1?f(xi?;θ))]
(6)合頁(yè)損失函數(shù)
對(duì)于一個(gè)二分類的問(wèn)題,數(shù)據(jù)集的標(biāo)簽取值是 { + 1 , ? 1 } \{+1, -1\} {+1,?1},預(yù)測(cè)值是一個(gè)連續(xù)型實(shí)數(shù)值函數(shù),那么合頁(yè)損失函數(shù)(Hinge Loss Function)的定義為:
L ( y i , f ( x i ; θ ) ) = max ? ( 0 , 1 ? y i f ( x i ; θ ) ) L(y_i, f({\bm x}_i; {\bm \theta})) = \max(0, 1 - y_i f({\bm x}_i; {\bm \theta})) L(yi?,f(xi?;θ))=max(0,1?yi?f(xi?;θ))
在機(jī)器學(xué)習(xí)中,軟間隔支持向量機(jī)(SVM)模型的原始最優(yōu)化問(wèn)題等價(jià)于最小化合頁(yè)損失。只有當(dāng)樣本被正確分類且函數(shù)間隔大于 1 時(shí),合頁(yè)損失才等于 0;否則損失是 1 ? y i f ( x i ; θ ) 1 - y_i f({\bm x}_i; {\bm \theta}) 1?yi?f(xi?;θ),只能大于 0。
除了上述幾種損失函數(shù)外,還有其他針對(duì)特定任務(wù)的損失函數(shù)??偠灾?#xff0c;沒(méi)有一個(gè)適合所有機(jī)器學(xué)習(xí)問(wèn)題的損失函數(shù),損失函數(shù)的設(shè)計(jì)是以能夠更好地解決具體問(wèn)題為目的的。針對(duì)特定問(wèn)題選擇損失函數(shù)涉及許多因素,例如所選機(jī)器學(xué)習(xí)模型的類型、是否易于計(jì)算導(dǎo)數(shù)以及訓(xùn)練樣本集中離群樣本所占比例等。
2. 期望風(fēng)險(xiǎn)
模型的輸入 X {\bm X} X和輸出 Y Y Y都可以看作是輸入和輸出聯(lián)合空間的隨機(jī)變量,服從聯(lián)合概率分布 P ( x , y ) P({\bm x}, y) P(x,y),稱損失函數(shù)在該聯(lián)合概率分布上的期望為 期望風(fēng)險(xiǎn)(Expected Risk),其數(shù)學(xué)表達(dá)式為:
R exp ? ( θ ) = E ( X , Y ) ~ P ( x , y ) [ L ( y , f ( x ; θ ) ) ] = ∫ L ( y , f ( x ; θ ) ) P ( x , y ) d x d y R_{\exp}({\bm \theta}) = E_{({\bm X}, Y) \sim P({\bm x}, y)}[L(y, f({\bm x}; {\bm \theta}))] = \int L(y, f({\bm x}; {\bm \theta})) P({\bm x}, y) \, {\rm d}{\bm x} {\rm d}y Rexp?(θ)=E(X,Y)~P(x,y)?[L(y,f(x;θ))]=∫L(y,f(x;θ))P(x,y)dxdy
期望風(fēng)險(xiǎn)是損失函數(shù)的期望,用來(lái)度量平均意義下模型預(yù)測(cè)的性能好壞。
3. 經(jīng)驗(yàn)風(fēng)險(xiǎn)
一個(gè)好的模型應(yīng)當(dāng)有較小的期望風(fēng)險(xiǎn)。機(jī)器學(xué)習(xí)的目標(biāo)在于從假設(shè)空間中選取最優(yōu)模型,而選取最優(yōu)模型的準(zhǔn)則是期望風(fēng)險(xiǎn)最小化。顯然,要使期望風(fēng)險(xiǎn) R exp ? ( θ ) R_{\exp}({\bm \theta}) Rexp?(θ)最小化,需要知道聯(lián)合概率分布 P ( x , y ) P({\bm x}, y) P(x,y),在模式分類問(wèn)題中,即必須已知先驗(yàn)概率和條件概率密度。但是,在實(shí)際的機(jī)器學(xué)習(xí)問(wèn)題中,無(wú)法得知真實(shí)的聯(lián)合概率分布函數(shù),因此也沒(méi)有辦法直接計(jì)算期望風(fēng)險(xiǎn)。事實(shí)上,如果知道數(shù)據(jù)的聯(lián)合概率分布 P ( x , y ) P({\bm x}, y) P(x,y),可以直接利用貝葉斯公式求得條件概率 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi?∣xi?),也沒(méi)必要學(xué)習(xí)模型了。
然而,從另一個(gè)方面來(lái)看,可以利用訓(xùn)練樣本集中的 N N N個(gè)觀測(cè)樣本近似地求出經(jīng)驗(yàn)風(fēng)險(xiǎn)。給定一個(gè)訓(xùn)練樣本數(shù)據(jù)集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ? , ( x i , y i ) , ? , ( x N , y N ) } , T = \{({\bm x}_1, y_1), ({\bm x}_2, y_2), \cdots, ({\bm x}_i, y_i), \cdots, ({\bm x}_N, y_N)\}, T={(x1?,y1?),(x2?,y2?),?,(xi?,yi?),?,(xN?,yN?)},
很容易計(jì)算出模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)(Empirical Risk)或經(jīng)驗(yàn)損失(Empirical Loss),即根據(jù)訓(xùn)練樣本集的平均損失。
R emp ( θ ) = 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) R_{\text{emp}}({\bm \theta}) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) Remp?(θ)=N1?i=1∑N?L(yi?,f(xi?;θ))
由于 R emp ( θ ) R_{\text{emp}}({\bm \theta}) Remp?(θ)是用已知訓(xùn)練樣本(即經(jīng)驗(yàn)數(shù)據(jù))定義的,因此稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)。在假設(shè)空間、損失函數(shù)以及訓(xùn)練樣本集確定的情況下,經(jīng)驗(yàn)風(fēng)險(xiǎn)可以確定。根據(jù)大數(shù)定律,當(dāng)訓(xùn)練樣本集中的樣本數(shù)量 N N N趨向于無(wú)窮大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)收斂于期望風(fēng)險(xiǎn)。這樣,可用經(jīng)驗(yàn)風(fēng)險(xiǎn) R emp ( θ ) R_{\text{emp}}({\bm \theta}) Remp?(θ)來(lái)逼近期望風(fēng)險(xiǎn) R exp ? ( θ ) R_{\exp}({\bm \theta}) Rexp?(θ)。使得經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型,這是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization, ERM)準(zhǔn)則。按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,求解模型的最優(yōu)參數(shù)估計(jì)是求解如下的最優(yōu)化問(wèn)題:
θ ^ = arg ? min ? θ R emp ( θ ) = arg ? min ? θ 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) \hat{{\bm \theta}} = \arg \min_{{\bm \theta}} R_{\text{emp}}({\bm \theta}) = \arg \min_{{\bm \theta}} \frac{1}{N} \sum_{i=1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) θ^=argθmin?Remp?(θ)=argθmin?N1?i=1∑N?L(yi?,f(xi?;θ))
4. 結(jié)構(gòu)風(fēng)險(xiǎn)
當(dāng)訓(xùn)練集中的樣本數(shù)量足夠大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)準(zhǔn)則能保證有很好的效果,在現(xiàn)實(shí)中被廣泛采用。例如,極大似然估計(jì)(Maximum Likelihood Estimation)是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)。然而,通常情況下,由于訓(xùn)練樣本集中的樣本數(shù)量是有限的,而且訓(xùn)練集中的樣本數(shù)據(jù)包含了各種噪聲,因此實(shí)際所用的訓(xùn)練集不能很好地反映樣本數(shù)據(jù)的真實(shí)分布。在這種情況下,如果利用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,則會(huì)導(dǎo)致模型產(chǎn)生“過(guò)擬合”(Overfitting)現(xiàn)象。
導(dǎo)致“過(guò)擬合”發(fā)生的因素有很多,最主要的原因是訓(xùn)練樣本數(shù)量不足以及模型過(guò)于復(fù)雜。為了解決這一問(wèn)題,需要引入結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù),即對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)進(jìn)行矯正,即在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則(Regularization)項(xiàng)或懲罰(Penalty)項(xiàng)。在假設(shè)空間、損失函數(shù)以及訓(xùn)練樣本集確定的情況下,結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)定義為:
R str ( θ ) = 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) + λ φ ( θ ) R_{\text{str}}({\bm \theta}) = \frac{1}{N} \sum_{i=1}^N L(y_i, f({\bm x}_i; {\bm \theta})) + \lambda \varphi ({\bm \theta}) Rstr?(θ)=N1?i=1∑N?L(yi?,f(xi?;θ))+λφ(θ)
式中, λ ( λ > 0 ) \lambda (\lambda > 0) λ(λ>0)為正則化系數(shù),也稱懲罰因子,用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度; φ ( θ ) \varphi ({\bm \theta}) φ(θ)代表模型函數(shù)的復(fù)雜度,是定義在假設(shè)空間上的泛函,簡(jiǎn)單來(lái)說(shuō)是函數(shù)的函數(shù)。模型函數(shù)的復(fù)雜度越高, φ ( θ ) \varphi ({\bm \theta}) φ(θ)也越大。一般使用模型參數(shù)向量 θ {\bm \theta} θ的 ? 2 \ell_2 ?2?范數(shù)或 ? 1 \ell_1 ?1?范數(shù)來(lái)近似模型的復(fù)雜度。通過(guò)設(shè)置正則化系數(shù) λ \lambda λ,來(lái)權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和正則項(xiàng),減小參數(shù)規(guī)模,達(dá)到模型簡(jiǎn)化的目的,從而使模型具有更好的泛化能力。因此,結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)強(qiáng)制使模型的復(fù)雜度不應(yīng)過(guò)高,這種學(xué)習(xí)準(zhǔn)則(策略)稱為結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Minimization, SRM)準(zhǔn)則。正則化可以看成結(jié)構(gòu)風(fēng)險(xiǎn)最小化的實(shí)現(xiàn),是為了防止過(guò)擬合而提出來(lái)的策略。
結(jié)構(gòu)風(fēng)險(xiǎn)小意味著經(jīng)驗(yàn)風(fēng)險(xiǎn)小、模型復(fù)雜度低。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型通常對(duì)訓(xùn)練樣本以及新的測(cè)試樣本都有較好的預(yù)測(cè)性能。結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型。所以按照結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,求解模型的最優(yōu)參數(shù)估計(jì)是求解如下的最優(yōu)化問(wèn)題:
θ ^ = arg ? min ? θ R str ( θ ) = arg ? min ? θ [ 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) + λ R ( θ ) ] \hat{{\bm \theta}} = \arg \min_{{\bm \theta}} R_{\text{str}}({\bm \theta}) = \arg \min_{{\bm \theta}} \left[ \frac{1}{N} \sum_{i=1}^N L(y_i, f({\bm x}_i; {\bm \theta})) + \lambda R({\bm \theta}) \right] θ^=argθmin?Rstr?(θ)=argθmin?[N1?i=1∑N?L(yi?,f(xi?;θ))+λR(θ)]
優(yōu)化算法
在獲得了訓(xùn)練樣本集、確定了假設(shè)空間以及選定了合適的學(xué)習(xí)準(zhǔn)則之后,要根據(jù)準(zhǔn)則(策略)從假設(shè)空間中選擇最優(yōu)模型,需要考慮用什么樣的計(jì)算方法來(lái)求解模型參數(shù)估計(jì)。
機(jī)器學(xué)習(xí)模型的訓(xùn)練和學(xué)習(xí)的過(guò)程,實(shí)際上是求解最優(yōu)化問(wèn)題的過(guò)程。如果最優(yōu)化問(wèn)題存在顯式的解析解,則這個(gè)最優(yōu)化問(wèn)題比較簡(jiǎn)單,可以求出它的閉式解。但是,如果不存在解析解,則需要通過(guò)數(shù)值計(jì)算的方法來(lái)不斷逼近。在機(jī)器學(xué)習(xí)中,很多優(yōu)化函數(shù)是凸函數(shù),因此,如何高效地尋找到全局最優(yōu)解,是一個(gè)值得研究的問(wèn)題。
目前,常用的優(yōu)化算法有梯度下降法(Gradient Descent, GD)、隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)、批量梯度下降法(Mini-Batch Gradient Descent, MBGD)、牛頓法、擬牛頓法、坐標(biāo)下降法等。