網(wǎng)站點(diǎn)擊率多少正常怎樣在百度做廣告宣傳
文章目錄
- 案例:寶可夢(mèng)、數(shù)碼寶貝分類器
- 第一步:需要定義一個(gè)含有未知數(shù)的function
- 第二步:loss of a function
- 如何Sample Training Examples => 如何抽樣可以得到一個(gè)較好的結(jié)果
- 如何權(quán)衡模型的復(fù)雜程度 Tradeoff of Model Complexity
todo
這里主要講了如果挑選訓(xùn)練數(shù)據(jù)集,后續(xù)的內(nèi)容在
,等之后看到這里再補(bǔ)充筆記
案例:寶可夢(mèng)、數(shù)碼寶貝分類器
案例:需要找一個(gè)函數(shù),輸入一個(gè)動(dòng)物,輸出類別寶可夢(mèng)還是數(shù)碼寶貝
第一步:需要定義一個(gè)含有未知數(shù)的function
先對(duì)資料做一些觀察,想象一下function應(yīng)該長(zhǎng)什么樣。
觀察發(fā)現(xiàn)①數(shù)碼寶貝的線條比較復(fù)雜②寶可夢(mèng)的線條比較簡(jiǎn)單 => 根據(jù)線條風(fēng)格區(qū)分
使用一些工具包做Edge detection
邊緣檢測(cè)后,將圖片隱射成黑白,白色的為邊緣,輸出白色像素點(diǎn)的個(gè)數(shù)。白色像素點(diǎn)的個(gè)數(shù)超過某個(gè)閾值,說(shuō)明線條復(fù)雜。
這個(gè)閾值h是一個(gè)未知參數(shù),我們先假設(shè)函數(shù)只有這一個(gè)未知參數(shù)。
第二步:loss of a function
首先需要數(shù)據(jù)集D,loss根據(jù)數(shù)據(jù)集D算出
1.有數(shù)據(jù)集 D = { ( x 1 , y ^ 1 ) , . . . . , ( x n , y ^ n ) } D=\{(x^1,\hat{y}^1),....,(x^n,\hat{y}^n)\} D={(x1,y^?1),....,(xn,y^?n)},n表示第幾個(gè)資料
x x x:輸入寶可夢(mèng)或者數(shù)碼寶貝的圖片
y ^ \hat y y^?: 該圖是寶可夢(mèng)還是數(shù)碼寶貝
2.先隨機(jī)給個(gè)閾值h,然后根據(jù)資料D計(jì)算參數(shù)h的loss
數(shù)據(jù)集的損失L(h,D):輸入閾值h和數(shù)據(jù)集D,輸出錯(cuò)誤率
每一筆資料的loss l ( h , x n , y ^ n ) ) l(h,x^n,\hat{y}^n)) l(h,xn,y^?n)):h是f的參數(shù),輸入xn,輸出yn,比較model值與真實(shí)值是否相等,不相等就輸出0,相等就輸出1
Error rate 很直觀。也可以選擇使用cross-entropy
如何Sample Training Examples => 如何抽樣可以得到一個(gè)較好的結(jié)果
理想情況:假設(shè)我們可以收集所有的寶可夢(mèng)和數(shù)碼寶貝,其集合為 D a l l D_{all} Dall?。我們找到了最好的閾值 h a l l h^{all} hall, h a l l = a r g min ? h L ( h , D a l l ) h^{all} = arg\min_hL(h,D_{all}) hall=argminh?L(h,Dall?)
這里的損失函數(shù)不可以微分,所以沒辦法用梯度下降方法。但是h的個(gè)數(shù)其實(shí)是有限的,可以通過窮舉的方法找出使損失函數(shù)值最小的閾值h。
事實(shí)情況:我們只能收集到 D a l l D_{all} Dall?中的部分案例 D t r a i n D_{train} Dtrain?(從all中隨機(jī)抽樣出來(lái)的案例,案例符合獨(dú)立同分布), D t r a i n = { ( x 1 , y ^ 1 ) , . . . . , ( x n , y ^ n ) } D_{train}=\{(x^1,\hat{y}^1),....,(x^n,\hat{y}^n)\} Dtrain?={(x1,y^?1),....,(xn,y^?n)}。可以找到 h t r a i n = a r g min ? h L ( h , D t r a i n ) h^{train} = arg\min_hL(h,D_{train}) htrain=argminh?L(h,Dtrain?)
希望現(xiàn)實(shí)情況的 h t r a i n h^{train} htrain在所有數(shù)據(jù)集中的表現(xiàn)和 h a l l h^{all} hall在所有數(shù)據(jù)集中的表現(xiàn)越接近越好。
不同的 D t r a i n D_{train} Dtrain?訓(xùn)練出來(lái)出來(lái)的 h t r a i n h^{train} htrain不同,這里 h t r a i n h^{train} htrain在所有數(shù)據(jù)集中的表現(xiàn)很依賴訓(xùn)練h時(shí)Sample到的數(shù)據(jù)集。
問題:我們希望 L ( h t r a i n , D a l l ) ? L ( h a l l , D a l l ) ≤ δ L(h^{train},D_{all}) - L(h^{all},D_{all}) \leq \delta L(htrain,Dall?)?L(hall,Dall?)≤δ,什么樣的 D t r a i n D_{train} Dtrain?訓(xùn)練出來(lái)的 h t r a i n h^{train} htrain可以滿足這個(gè)期望?
h a l l h^{all} hall是從 D a l l D_{all} Dall?中找出來(lái)讓 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall?)最小的值,所以 L ( h t r a i n , D a l l ) L(h^{train},D_{all}) L(htrain,Dall?)是大于等于 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall?)。
不過 L ( h t r a i n , D t r a i n ) L(h^{train},D_{train}) L(htrain,Dtrain?)是有可能小于 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall?)。
解:Smaple
出來(lái)的資料 D t r a i n D_{train} Dtrain?,窮舉所有可能的h(從1到10000),任意h滿足 ∣ L ( h , D t r a i n ) ? L ( h , D a l l ) ∣ ≤ δ 2 |L(h,D_{train}) - L(h,D_{all})| \leq \frac{\delta}{2} ∣L(h,Dtrain?)?L(h,Dall?)∣≤2δ?,理想和顯示就會(huì)很接近。 => D t r a i n D_{train} Dtrain?與 D a l l D_{all} Dall?分布很像。
問題:有多大的可能性Sample
出來(lái)一個(gè)bad D t r a i n D_{train} Dtrain?
- 以下的討論與模型無(wú)關(guān)
- 以下的討論對(duì)資料本來(lái)的分布無(wú)假設(shè)
- 以下的討論可以使用任何loss function
每一個(gè)壞的資料,背后都存在一個(gè)h使得 ∣ L ( h , D t r a i n ) ? L ( h , D a l l ) ∣ > ? |L(h,D_{train}) - L(h,D_{all})| \gt \epsilon ∣L(h,Dtrain?)?L(h,Dall?)∣>? => P ( D t r a i n i s b a d ) = ∪ h ∈ H P ( D t r a i n i s b a d d u e t o h ≤ ∑ h ∈ H P ( D t r a i n i s b a d d u e t o h ) P(D_{train} \ is \ bad) = \cup_{h \in \Eta} P(D_{train} \ is \ bad \ due \ to \ h\leq \sum_{h\in \Eta} P(D_{train} \ is \ bad \ due \ to \ h) P(Dtrain??is?bad)=∪h∈H?P(Dtrain??is?bad?due?to?h≤∑h∈H?P(Dtrain??is?bad?due?to?h)重疊的地方會(huì)多次被計(jì)算
由最后的式子可知, ∣ H ∣ |H| ∣H∣是候選項(xiàng)h的數(shù)量,N是所選數(shù)據(jù)集 D t r a i n D_{train} Dtrain?里資料的個(gè)數(shù)
- 增加訓(xùn)練樣本數(shù)量,N越大 D t r a i n D_{train} Dtrain?越接近 D a l l D_{all} Dall?, P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain??is?bad)的概率越小。
- 較少模型復(fù)雜性,|H|候選項(xiàng)的數(shù)目越小,較少模型的復(fù)雜程度, P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain??is?bad)的概率越小。
其實(shí)這些理論只是用來(lái)試圖解釋原理,但并沒有人用在實(shí)際數(shù)據(jù)集中真正計(jì)算,因?yàn)橛?jì)算的結(jié)果往往會(huì)大于1
最小樣本量應(yīng)該滿足以下式子
問題:本案例中h的取值是離散的,所以 ∣ H ∣ |H| ∣H∣是個(gè)確定值。當(dāng)h取值是連續(xù)的, ∣ H ∣ |H| ∣H∣是一個(gè)無(wú)窮 ,那 P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain??is?bad)永遠(yuǎn)小于無(wú)窮大,那式子還有什么意思?
回答
- 在計(jì)算機(jī)中沒有真正連續(xù)的東西,用計(jì)算機(jī)中的bit描述數(shù)值時(shí),精度終究是有限的(所以就不是無(wú)窮的)。
VC-dimension
另外一種計(jì)算參數(shù)是連續(xù)時(shí)模型的復(fù)雜程度
如何權(quán)衡模型的復(fù)雜程度 Tradeoff of Model Complexity
理論上,理想與現(xiàn)實(shí)接近的方法
- 增加訓(xùn)練樣本數(shù)量,N越大 D t r a i n D_{train} Dtrain?越接近 D a l l D_{all} Dall?, P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain??is?bad)的概率越小。
- 較少模型復(fù)雜性,|H|候選項(xiàng)的數(shù)目越小,較少模型的復(fù)雜程度, P ( D t r a i n i s b a d ) P(D_{train} \ is \ bad) P(Dtrain??is?bad)的概率越小。
問題:|H|太小會(huì)導(dǎo)致什么問題?模型復(fù)雜程度太小會(huì)導(dǎo)致什么問題?
|H|太小,能選擇的h數(shù)量太少,可能找不到使 L ( h , D a l l ) L(h,D_{all}) L(h,Dall?)最小的h。(大海撈針,針不在大海)
收集數(shù)據(jù)集中案例的個(gè)數(shù)N通常不是我們能控制的,可能想采用小的|H|來(lái)讓理想和現(xiàn)實(shí)更接近。
=> 小的|H|會(huì)導(dǎo)致可選擇的參數(shù)h數(shù)量變少,導(dǎo)致最優(yōu)的 h a l l h^{all} hall在可選范圍之外,也就是說(shuō)得到一個(gè)較大的 L ( h a l l , D a l l ) L(h^{all},D_{all}) L(hall,Dall?)