博山網(wǎng)站建設(shè)網(wǎng)頁制作基礎(chǔ)教程
目錄
1.多元線性回歸
a.特征縮放
?可行的縮放方式:
1.除以最大值:
?2.mean normalization:
?3.Z-score normalization
b.learning curve:
?c.learning rate:
2.多項式回歸
3.classification
?logistics regression
1.多元線性回歸
其意義很清晰了,多維更準(zhǔn)確。很有意思也是我之前沒關(guān)注的點是,一般下標(biāo)表示分量、上標(biāo)表示不同的inputs、又為了區(qū)分次數(shù)加了括號。
點乘是np.dot
用向量化的函數(shù)而不是分量循環(huán),可以提高效率。
??講真矢量化和parallel真的好酷呀……作為數(shù)學(xué)專業(yè)我理解是從notation的角度,很清晰很明確,但是從算法編程的角度也有其優(yōu)勢、而這樣的優(yōu)勢是由底層代碼包的編寫者、底層(非judge義)工程師實現(xiàn)的。這也算是某種意義下的殊途同歸吧。
a.特征縮放
?以房價為例,相關(guān)因素考慮大小和臥室數(shù)量,可以看到大小數(shù)值非常大,那么調(diào)整w的時候可能會很困難,因為w可能只是變了一點點,wx就變了非常大,因此考慮調(diào)整范圍差不多
?
?可行的縮放方式:
1.除以最大值:
?2.mean normalization:
?3.Z-score normalization
?
霍,還需要多次縮放呢。。。。
b.learning curve:
標(biāo)注了隨著迭代次數(shù)的增加目標(biāo)函數(shù)的變化,(比設(shè)置\epsilon更直觀)?
?c.learning rate:
通常來說,在learning curve里可能出現(xiàn)隨著迭代次數(shù)的增加,loss function震蕩甚至上升,這可能由于 1.BUG 2.學(xué)習(xí)率過大,因此可調(diào)試中嘗試設(shè)置很小的學(xué)習(xí)率,如果正常會下降的。但是,實際學(xué)習(xí)的過程中學(xué)習(xí)率不能太小,這樣效率太低。?
大佬常用方法:先設(shè)置很小的學(xué)習(xí)率跑幾個epoch,,然后3倍3倍增加,保證找到過小(下降很慢)和過大(震蕩或者上升),然后在合適范圍內(nèi)找盡量大的。
?2.多項式回歸
?簡單來說,就是線性不合適啦,我們想自己選選用高次、乘積、開根等不同方法~不贅述
3.classification
?正如以下例子可以看到,擬合有時候很差:本來考慮左側(cè)的四個negative class和positive class,設(shè)置閾值threshold為0.5,效果就很好了,但是當(dāng)我們加入最右的例子,本來是一個一看就是positive sample的例子,但是卻導(dǎo)致預(yù)測結(jié)果出現(xiàn)偏差。因此我們考慮classification。
?logistics regression
可以看出,非常滿足的例子在邏輯斯蒂回歸里盡量不重視,而在中間的樣本更加強調(diào)。怎么強調(diào)呢,也就是說,當(dāng)我們多發(fā)現(xiàn)中部模糊地帶的樣本,對threshold的影響很劇烈、也就是擬合函數(shù)中斜率很大。?
重述一下,我們在線性之外擬合一個邏輯斯蒂回歸來做分類,就是為了防止【本來很明確分類的樣本加進(jìn)去反而會影響算法的輸出結(jié)果】,讓算法更關(guān)注于模糊地帶的樣本。f輸出的可以理解為【樣本特征為x的情況下,分類為1的概率】。
?
?可視化理解,略過?
logistics regression-Cost function:
在線性回歸中 平方誤差很好用(凸的,可以直接到達(dá)全局最優(yōu)),但是邏輯斯蒂回歸模型平方誤差就是非凸了,因此我們考慮換一個cost。
?因此,轉(zhuǎn)而用以下的函數(shù):
值得注意的是,此處的函數(shù)是分類函數(shù)。那么目標(biāo)函數(shù)轉(zhuǎn)化為:
?利用梯度下降法:
?GD實現(xiàn),邏輯斯蒂回歸模型與線性回歸函數(shù)不同但是trick類似