萊特幣做空 網(wǎng)站百度灰色關(guān)鍵詞代發(fā)
目錄
一、集成方法的一般思想
二、集成方法的基本原理
三、構(gòu)建集成分類器的方法
常見的有裝袋(Bagging)和提升(Boosting)兩種方法
方法1 :裝袋(Bagging)
Bagging原理如下圖:
方法2 :提升(Boosting)?
Boosting工作原理
目前已有幾個Boosting算法,其區(qū)別在于:
四、隨機(jī)森林(Bagging集成方法的一種)
(一)隨機(jī)森林bagging的思想:
(二)隨機(jī)森林中的每棵樹是怎么生成的呢?
(三)?為什么要隨機(jī)抽樣訓(xùn)練集?
(四)為什么要有放回地抽樣?
隨機(jī)森林Python實現(xiàn)
五、Adaboosting (Boosting集成方法的一種)
(一)基本思想
(二)Adaboosting舉例說明?
本文將探討集成學(xué)習(xí)方法的核心概念,包括其基本原理和兩種主流技術(shù):裝袋(Bagging)與提升(Boosting)。我們將深入了解隨機(jī)森林——一種基于Bagging的集成方法,并討論其背后的思想、樹的生成過程以及抽樣策略。同時,我們也將介紹Adaboost算法的基本思想和工作原理,并通過實例加以說明。通過這篇文章,讀者可以獲得對集成分類器構(gòu)建方法的全面了解,并掌握如何在Python中實現(xiàn)隨機(jī)森林。
一、集成方法的一般思想
聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率,這種技術(shù)稱為組合(ensemble)或分類器組合(classifier combination)方法,也就是集成方法
由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器,然后通過對每個基分類器的預(yù)測進(jìn)行投票來進(jìn)行分類。
二、集成方法的基本原理
假定有 25 基分類器:– 每個基分類器的誤差均為 e = 0.35– 假定基分類器是獨立的– 通過對這些基分類器的預(yù)測進(jìn)行多數(shù)表決方法預(yù)測類標(biāo)號– 僅當(dāng)超過一半的基分類器都預(yù)測錯誤時,組合分類器才會做出錯誤的預(yù)測,此時誤差率為:
遠(yuǎn)遠(yuǎn)低于基分類器的誤差率。
下圖顯示對于不同的基分類器誤差率 e 下的 25 個二元分類器的組合分類器誤差率?????????? 。對角虛線表示所有基分類器都是等同的情況實線表示所有基分類器獨立時的情況e > 0.5 時,組合分類器的性能不如基分類器
三、構(gòu)建集成分類器的方法
基本思想:
?在原始數(shù)據(jù)上構(gòu)建多個分類器,然后在分類未知樣本時聚集它們的預(yù)測結(jié)果。
常見的有裝袋(Bagging)和提升(Boosting)兩種方法
方法1 :裝袋(Bagging)
Bagging原理如下圖:
對于未知樣本Z,預(yù)測Z的類標(biāo)號
![]()
方法2 :提升(Boosting)?
Boosting 方法是一種用來提高 弱分類算法 準(zhǔn)確度的方法。通過構(gòu)造一個預(yù)測 函數(shù) 系列 , 然后以一定的方式將他們組合成一個預(yù)測函數(shù)。Boosting 是一種提高任意給定學(xué)習(xí)算法準(zhǔn)確度的方法。
Boosting 方法是一種針對提高弱分類算法準(zhǔn)確度的有效技術(shù)。該方法的核心思想是通過構(gòu)建一系列的預(yù)測函數(shù),并將它們以特定的方式組合起來,從而形成一個更為強(qiáng)大和精準(zhǔn)的預(yù)測模型。
具體而言,Boosting 通過以下步驟來提升任意給定學(xué)習(xí)算法的準(zhǔn)確度:
初始化:首先選擇一個弱分類器作為基礎(chǔ)模型,并確定一個權(quán)重分配方案,初始時通常所有數(shù)據(jù)點的權(quán)重相等。
迭代訓(xùn)練:在每一輪迭代中,根據(jù)上一次迭代中分類錯誤的樣本調(diào)整權(quán)重,使得錯誤分類的樣本在下一輪迭代中得到更多的關(guān)注。然后,使用調(diào)整后的權(quán)重訓(xùn)練新的弱分類器。
組合預(yù)測:將每個弱分類器的預(yù)測結(jié)果按照一定的權(quán)重進(jìn)行組合,通常是加權(quán)投票或加權(quán)平均,以形成最終的預(yù)測函數(shù)。這個組合過程能夠有效提升整體模型的準(zhǔn)確度。
Boosting 方法的特點在于:
- 逐步增強(qiáng):通過迭代的方式逐步增強(qiáng)模型的預(yù)測能力,每一步都試圖修正上一步的錯誤。
- 權(quán)重調(diào)整:動態(tài)調(diào)整樣本權(quán)重,使得模型在后續(xù)的學(xué)習(xí)過程中更加關(guān)注那些難以分類的樣本。
- 模型組合:將多個弱分類器智能組合,形成一個強(qiáng)大的分類器,通常比單個分類器具有更高的準(zhǔn)確度和魯棒性。
總之,Boosting 是一種通用且強(qiáng)大的機(jī)器學(xué)習(xí)算法增強(qiáng)技術(shù),它能夠顯著提升弱分類算法的性能,使其在許多實際問題中達(dá)到或接近最優(yōu)的分類效果。
其核心思想是“ 三個臭皮匠,頂過諸葛亮 ”。
Boosting工作原理
? 首先從訓(xùn)練集用初始權(quán)重訓(xùn)練出一個弱學(xué)習(xí)器 1 ,根據(jù)弱學(xué)習(xí)器 1 的 學(xué)習(xí)誤差率表現(xiàn) 來 更新 訓(xùn)練樣本的權(quán)重,使得之前弱學(xué)習(xí)器 1 學(xué)習(xí)誤差率高的訓(xùn)練樣本點的權(quán)重變高,使得這些誤差率高的點在后面的弱學(xué)習(xí)器 2 中得到更多的重視。? 然后基于調(diào)整權(quán)重后的訓(xùn)練集來訓(xùn)練弱學(xué)習(xí)器 2. ,如此重復(fù)進(jìn)行,直到弱學(xué)習(xí)器數(shù)達(dá)到事先指定的數(shù)目 T 。? 最終將這 T 個弱學(xué)習(xí)器通過集合策略進(jìn)行整合,得到最終的強(qiáng)學(xué)習(xí)器。
?
?
目前已有幾個Boosting算法,其區(qū)別在于:
(1)每輪Boosting結(jié)束時如何更新訓(xùn)練樣本的權(quán)值;
(2)如何組合每個分類器的預(yù)測。
四、隨機(jī)森林(Bagging集成方法的一種)
?????? 隨機(jī)森林就是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支——集成學(xué)習(xí)方法。
????? 隨機(jī)森林的名稱中有兩個關(guān)鍵詞,一個是“隨機(jī)”,一個就是“森林”。
???? “森林”很好理解,一棵叫做樹,那么成百上千棵就可以叫做森林了,其實這也是隨機(jī)森林的主要思想--集成思想的體現(xiàn)。“隨機(jī)”的包括隨機(jī)選取訓(xùn)練樣本集和隨機(jī)選取分裂屬性集?!?/span>
????? 從直觀角度來解釋,每棵決策樹都是一個分類器(假設(shè)現(xiàn)在針對的是分類問題),那么對于一個輸入樣本,N棵樹會有N個分類結(jié)果。而隨機(jī)森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出。
(一)隨機(jī)森林bagging的思想:
?將若干個弱分類器的分類結(jié)果進(jìn)行投票選擇,從而組成一個強(qiáng)分類器。
(二)隨機(jī)森林中的每棵樹是怎么生成的呢?
一開始提到的隨機(jī)森林中的“隨機(jī)”就是指的步驟a和步驟b中的兩個隨機(jī)性。兩個隨機(jī)性的引入對隨機(jī)森林的分類性能至關(guān)重要。由于它們的引入,使得隨機(jī)森林不容易陷入過擬合,并且具有很好得抗噪能力(比如:對缺省值不敏感)?。
(三)?為什么要隨機(jī)抽樣訓(xùn)練集?
如果不進(jìn)行隨機(jī)抽樣,每棵樹的訓(xùn)練集都一樣,那么最終訓(xùn)練出的樹分類結(jié)果也是完全一樣的,這樣的話完全沒有集成的必要
(四)為什么要有放回地抽樣?
如果不是有放回的抽樣,那么每棵樹的訓(xùn)練樣本都是不同的,都是沒有交集的,這樣每棵樹都是“有偏的”或"片面的",也就是說每棵樹訓(xùn)練出來都是有很大的差異的;
而隨機(jī)森林最后分類取決于多棵樹(弱分類器)的投票表決,這種表決應(yīng)該是"求同",因此使用完全不同的訓(xùn)練集來訓(xùn)練每棵樹這樣對最終分類結(jié)果是沒有幫助的。
隨機(jī)森林Python實現(xiàn)
請看下方鏈接
【機(jī)器學(xué)習(xí)系列】掌握隨機(jī)森林:從基礎(chǔ)原理到參數(shù)優(yōu)化的全面指南_隨機(jī)森林算法參數(shù)解釋及調(diào)優(yōu)-CSDN博客
五、Adaboosting (Boosting集成方法的一種)
(一)基本思想
如果錯誤率ei 接近0,則? αi 有一個很大的正值。
如果錯誤率ei 接近1,則 αi? 有一個很大的負(fù)值。
(二)Adaboosting舉例說明?
?
?