web優(yōu)秀網(wǎng)站h5案例分享今日最新國際新聞
分類目錄:《深入理解強(qiáng)化學(xué)習(xí)》總目錄
學(xué)習(xí)
學(xué)習(xí)(Learning)和規(guī)劃(Planning)是序列決策的兩個(gè)基本問題。 如下圖所示,在強(qiáng)化學(xué)習(xí)中,環(huán)境初始時(shí)是未知的,智能體不知道環(huán)境如何工作,它通過不斷地與環(huán)境交互,逐漸改進(jìn)策略。
規(guī)劃
如下圖圖所示,在規(guī)劃中,環(huán)境是已知的,智能體被告知了整個(gè)環(huán)境的運(yùn)作規(guī)則的詳細(xì)信息。智能體能夠計(jì)算出一個(gè)完美的模型,并且在不需要與環(huán)境進(jìn)行任何交互的時(shí)候進(jìn)行計(jì)算。智能體不需要實(shí)時(shí)地與環(huán)境交互就能知道未來環(huán)境,只需要知道當(dāng)前的狀態(tài),就能夠開始思考,來尋找最優(yōu)解。
在下圖所示的游戲中,規(guī)則是確定的,我們知道選擇左之后環(huán)境將會(huì)產(chǎn)生什么變化。我們完全可以通過已知的規(guī)則,來在內(nèi)部模擬整個(gè)決策過程,無需與環(huán)境交互。 一個(gè)常用的強(qiáng)化學(xué)習(xí)問題解決思路是,先學(xué)習(xí)環(huán)境如何工作,也就是了解環(huán)境工作的方式,即學(xué)習(xí)得到一個(gè)模型,然后利用這個(gè)模型進(jìn)行規(guī)劃。
探索和利用
在強(qiáng)化學(xué)習(xí)里面,探索和利用是兩個(gè)很核心的問題。 探索即我們?nèi)ヌ剿鳝h(huán)境,通過嘗試不同的動(dòng)作來得到最佳的策略(帶來最大獎(jiǎng)勵(lì)的策略)。 利用即我們不去嘗試新的動(dòng)作,而是采取已知的可以帶來很大獎(jiǎng)勵(lì)的動(dòng)作。 在剛開始的時(shí)候,強(qiáng)化學(xué)習(xí)智能體不知道它采取了某個(gè)動(dòng)作后會(huì)發(fā)生什么,所以它只能通過試錯(cuò)去探索,所以探索就是通過試錯(cuò)來理解采取的動(dòng)作到底可不可以帶來好的獎(jiǎng)勵(lì)。利用是指我們直接采取已知的可以帶來很好獎(jiǎng)勵(lì)的動(dòng)作。所以這里就面臨一個(gè)權(quán)衡問題,即怎么通過犧牲一些短期的獎(jiǎng)勵(lì)來理解動(dòng)作,從而學(xué)習(xí)到更好的策略。
下面舉一些探索和利用的例子。 以選擇餐館為例,利用是指我們直接去我們最喜歡的餐館,因?yàn)槲覀內(nèi)ミ^這個(gè)餐館很多次了,所以我們知道這里面的菜都非??煽?。 探索是指我們用手機(jī)搜索一個(gè)新的餐館,然后去嘗試它的菜到底好不好吃。我們有可能對(duì)這個(gè)新的餐館感到非常不滿意,這樣錢就浪費(fèi)了。 以做廣告為例,利用是指我們直接采取最優(yōu)的廣告策略。探索是指我們換一種廣告策略,看看這個(gè)新的廣告策略可不可以得到更好的效果。 以挖油為例,利用是指我們直接在已知的地方挖油,這樣可以確保挖到油。 探索是指我們?cè)谝粋€(gè)新的地方挖油,這樣就有很大的概率可能不能發(fā)現(xiàn)油田,但也可能有比較小的概率可以發(fā)現(xiàn)一個(gè)非常大的油田。 以玩游戲?yàn)槔?#xff0c;利用是指我們總是采取某一種策略。比如,我們玩《街頭霸王》游戲的時(shí)候,采取的策略可能是蹲在角落,然后一直出腳。這個(gè)策略很可能可以奏效,但可能遇到特定的對(duì)手就會(huì)失效。 探索是指我們可能嘗試一些新的招式,有可能我們會(huì)放出“大招”來,這樣就可能“一招斃命”。
與監(jiān)督學(xué)習(xí)任務(wù)不同,強(qiáng)化學(xué)習(xí)任務(wù)的最終獎(jiǎng)勵(lì)在多步動(dòng)作之后才能觀察到,這里我們不妨先考慮比較簡(jiǎn)單的情形:最大化單步獎(jiǎng)勵(lì),即僅考慮一步動(dòng)作。需注意的是,即便在這樣的簡(jiǎn)單情形下,強(qiáng)化學(xué)習(xí)仍與監(jiān)督學(xué)習(xí)有顯著不同,因?yàn)橹悄荏w需通過試錯(cuò)來發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果,而沒有訓(xùn)練數(shù)據(jù)告訴智能體應(yīng)當(dāng)采取哪個(gè)動(dòng)作。
想要最大化單步獎(jiǎng)勵(lì)需考慮兩個(gè)方面:一是需知道每個(gè)動(dòng)作帶來的獎(jiǎng)勵(lì),二是要執(zhí)行獎(jiǎng)勵(lì)最大的動(dòng)作。若每個(gè)動(dòng)作對(duì)應(yīng)的獎(jiǎng)勵(lì)是一個(gè)確定值,那么嘗試遍所有的動(dòng)作便能找出獎(jiǎng)勵(lì)最大的動(dòng)作。然而,更一般的情形是,一個(gè)動(dòng)作的獎(jiǎng)勵(lì)值是來自一個(gè)概率分布,僅通過一次嘗試并不能確切地獲得平均獎(jiǎng)勵(lì)值。
實(shí)際上,單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)于一個(gè)理論模型,即K-臂賭博機(jī)(K-armed Bandit)。 K-臂賭博機(jī)也被稱為多臂賭博機(jī)(Multi-armed Bandit,MAB) 。如下圖所示,K-臂賭博機(jī)有K個(gè)搖臂,賭徒在投入一個(gè)硬幣后可選擇按下其中一個(gè)搖臂,每個(gè)搖臂以一定的概率吐出硬幣,但這個(gè)概率賭徒并不知道。賭徒的目標(biāo)是通過一定的策略最大化自己的獎(jiǎng)勵(lì),即獲得最多的硬幣。 若僅為獲知每個(gè)搖臂的期望獎(jiǎng)勵(lì),則可采用僅探索(Exploration-only)法:將所有的嘗試機(jī)會(huì)平均分配給每個(gè)搖臂(即輪流按下每個(gè)搖臂),最后以每個(gè)搖臂各自的平均吐幣概率作為其獎(jiǎng)勵(lì)期望的近似估計(jì)。若僅為執(zhí)行獎(jiǎng)勵(lì)最大的動(dòng)作,則可采用僅利用(Exploitation-only)法:按下目前最優(yōu)的(即到目前為止平均獎(jiǎng)勵(lì)最大的)搖臂,若有多個(gè)搖臂同為最優(yōu),則從中隨機(jī)選取一個(gè)。
顯然,僅探索法能很好地估計(jì)每個(gè)搖臂的獎(jiǎng)勵(lì),卻會(huì)失去很多選擇最優(yōu)搖臂的機(jī)會(huì);僅利用法則相反,它沒有很好地估計(jì)搖臂期望獎(jiǎng)勵(lì),很可能經(jīng)常選不到最優(yōu)搖臂。因此,這兩種方法都難以使最終的累積獎(jiǎng)勵(lì)最大化。
事實(shí)上,探索(估計(jì)搖臂的優(yōu)劣)和利用(選擇當(dāng)前最優(yōu)搖臂)這兩者是矛盾的,因?yàn)閲L試次數(shù)(總投幣數(shù))有限,加強(qiáng)了一方則自然會(huì)削弱另一方,這就是強(qiáng)化學(xué)習(xí)所面臨的探索-利用窘境(Exploration-Exploitation Dilemma)。顯然,想要累積獎(jiǎng)勵(lì)最大,則必須在探索與利用之間達(dá)成較好的折中。
參考文獻(xiàn):
[1] 張偉楠, 沈鍵, 俞勇. 動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)[M]. 人民郵電出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 強(qiáng)化學(xué)習(xí)(第2版)[M]. 電子工業(yè)出版社, 2019
[3] Maxim Lapan. 深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)[M]. 北京華章圖文信息有限公司, 2021
[4] 王琦, 楊毅遠(yuǎn), 江季. Easy RL:強(qiáng)化學(xué)習(xí)教程 [M]. 人民郵電出版社, 2022