當(dāng)前位置：首頁 > news >正文

web優(yōu)秀網(wǎng)站h5案例分享今日最新國際新聞

news 2025/7/8 9:12:58

web優(yōu)秀網(wǎng)站h5案例分享,今日最新國際新聞,wordpress修改界面,北京南站最新消息分類目錄：《深入理解強(qiáng)化學(xué)習(xí)》總目錄學(xué)習(xí) 學(xué)習(xí)（Learning）和規(guī)劃（Planning）是序列決策的兩個(gè)基本問題。如下圖所示，在強(qiáng)化學(xué)習(xí)中，環(huán)境初始時(shí)是未知的，智能體不知道環(huán)境如何工作&a…

分類目錄：《深入理解強(qiáng)化學(xué)習(xí)》總目錄

學(xué)習(xí)

學(xué)習(xí)（Learning）和規(guī)劃（Planning）是序列決策的兩個(gè)基本問題。如下圖所示，在強(qiáng)化學(xué)習(xí)中，環(huán)境初始時(shí)是未知的，智能體不知道環(huán)境如何工作，它通過不斷地與環(huán)境交互，逐漸改進(jìn)策略。

規(guī)劃

如下圖圖所示，在規(guī)劃中，環(huán)境是已知的，智能體被告知了整個(gè)環(huán)境的運(yùn)作規(guī)則的詳細(xì)信息。智能體能夠計(jì)算出一個(gè)完美的模型，并且在不需要與環(huán)境進(jìn)行任何交互的時(shí)候進(jìn)行計(jì)算。智能體不需要實(shí)時(shí)地與環(huán)境交互就能知道未來環(huán)境，只需要知道當(dāng)前的狀態(tài)，就能夠開始思考，來尋找最優(yōu)解。

在下圖所示的游戲中，規(guī)則是確定的，我們知道選擇左之后環(huán)境將會(huì)產(chǎn)生什么變化。我們完全可以通過已知的規(guī)則，來在內(nèi)部模擬整個(gè)決策過程，無需與環(huán)境交互。一個(gè)常用的強(qiáng)化學(xué)習(xí)問題解決思路是，先學(xué)習(xí)環(huán)境如何工作，也就是了解環(huán)境工作的方式，即學(xué)習(xí)得到一個(gè)模型，然后利用這個(gè)模型進(jìn)行規(guī)劃。

探索和利用

在強(qiáng)化學(xué)習(xí)里面，探索和利用是兩個(gè)很核心的問題。探索即我們?nèi)ヌ剿鳝h(huán)境，通過嘗試不同的動(dòng)作來得到最佳的策略（帶來最大獎(jiǎng)勵(lì)的策略）。利用即我們不去嘗試新的動(dòng)作，而是采取已知的可以帶來很大獎(jiǎng)勵(lì)的動(dòng)作。在剛開始的時(shí)候，強(qiáng)化學(xué)習(xí)智能體不知道它采取了某個(gè)動(dòng)作后會(huì)發(fā)生什么，所以它只能通過試錯(cuò)去探索，所以探索就是通過試錯(cuò)來理解采取的動(dòng)作到底可不可以帶來好的獎(jiǎng)勵(lì)。利用是指我們直接采取已知的可以帶來很好獎(jiǎng)勵(lì)的動(dòng)作。所以這里就面臨一個(gè)權(quán)衡問題，即怎么通過犧牲一些短期的獎(jiǎng)勵(lì)來理解動(dòng)作，從而學(xué)習(xí)到更好的策略。

下面舉一些探索和利用的例子。以選擇餐館為例，利用是指我們直接去我們最喜歡的餐館，因?yàn)槲覀內(nèi)ミ^這個(gè)餐館很多次了，所以我們知道這里面的菜都非?？煽?。探索是指我們用手機(jī)搜索一個(gè)新的餐館，然后去嘗試它的菜到底好不好吃。我們有可能對(duì)這個(gè)新的餐館感到非常不滿意，這樣錢就浪費(fèi)了。以做廣告為例，利用是指我們直接采取最優(yōu)的廣告策略。探索是指我們換一種廣告策略，看看這個(gè)新的廣告策略可不可以得到更好的效果。以挖油為例，利用是指我們直接在已知的地方挖油，這樣可以確保挖到油。探索是指我們?cè)谝粋€(gè)新的地方挖油，這樣就有很大的概率可能不能發(fā)現(xiàn)油田，但也可能有比較小的概率可以發(fā)現(xiàn)一個(gè)非常大的油田。以玩游戲?yàn)槔?#xff0c;利用是指我們總是采取某一種策略。比如，我們玩《街頭霸王》游戲的時(shí)候，采取的策略可能是蹲在角落，然后一直出腳。這個(gè)策略很可能可以奏效，但可能遇到特定的對(duì)手就會(huì)失效。探索是指我們可能嘗試一些新的招式，有可能我們會(huì)放出“大招”來，這樣就可能“一招斃命”。

與監(jiān)督學(xué)習(xí)任務(wù)不同，強(qiáng)化學(xué)習(xí)任務(wù)的最終獎(jiǎng)勵(lì)在多步動(dòng)作之后才能觀察到，這里我們不妨先考慮比較簡(jiǎn)單的情形：最大化單步獎(jiǎng)勵(lì)，即僅考慮一步動(dòng)作。需注意的是，即便在這樣的簡(jiǎn)單情形下，強(qiáng)化學(xué)習(xí)仍與監(jiān)督學(xué)習(xí)有顯著不同，因?yàn)橹悄荏w需通過試錯(cuò)來發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果，而沒有訓(xùn)練數(shù)據(jù)告訴智能體應(yīng)當(dāng)采取哪個(gè)動(dòng)作。

想要最大化單步獎(jiǎng)勵(lì)需考慮兩個(gè)方面：一是需知道每個(gè)動(dòng)作帶來的獎(jiǎng)勵(lì)，二是要執(zhí)行獎(jiǎng)勵(lì)最大的動(dòng)作。若每個(gè)動(dòng)作對(duì)應(yīng)的獎(jiǎng)勵(lì)是一個(gè)確定值，那么嘗試遍所有的動(dòng)作便能找出獎(jiǎng)勵(lì)最大的動(dòng)作。然而，更一般的情形是，一個(gè)動(dòng)作的獎(jiǎng)勵(lì)值是來自一個(gè)概率分布，僅通過一次嘗試并不能確切地獲得平均獎(jiǎng)勵(lì)值。

實(shí)際上，單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)于一個(gè)理論模型，即K-臂賭博機(jī)（K-armed Bandit）。 K-臂賭博機(jī)也被稱為多臂賭博機(jī)（Multi-armed Bandit，MAB）。如下圖所示，K-臂賭博機(jī)有K個(gè)搖臂，賭徒在投入一個(gè)硬幣后可選擇按下其中一個(gè)搖臂，每個(gè)搖臂以一定的概率吐出硬幣，但這個(gè)概率賭徒并不知道。賭徒的目標(biāo)是通過一定的策略最大化自己的獎(jiǎng)勵(lì)，即獲得最多的硬幣。若僅為獲知每個(gè)搖臂的期望獎(jiǎng)勵(lì)，則可采用僅探索（Exploration-only）法：將所有的嘗試機(jī)會(huì)平均分配給每個(gè)搖臂（即輪流按下每個(gè)搖臂），最后以每個(gè)搖臂各自的平均吐幣概率作為其獎(jiǎng)勵(lì)期望的近似估計(jì)。若僅為執(zhí)行獎(jiǎng)勵(lì)最大的動(dòng)作，則可采用僅利用（Exploitation-only）法：按下目前最優(yōu)的（即到目前為止平均獎(jiǎng)勵(lì)最大的）搖臂，若有多個(gè)搖臂同為最優(yōu)，則從中隨機(jī)選取一個(gè)。

顯然，僅探索法能很好地估計(jì)每個(gè)搖臂的獎(jiǎng)勵(lì)，卻會(huì)失去很多選擇最優(yōu)搖臂的機(jī)會(huì)；僅利用法則相反，它沒有很好地估計(jì)搖臂期望獎(jiǎng)勵(lì)，很可能經(jīng)常選不到最優(yōu)搖臂。因此，這兩種方法都難以使最終的累積獎(jiǎng)勵(lì)最大化。

事實(shí)上，探索（估計(jì)搖臂的優(yōu)劣）和利用（選擇當(dāng)前最優(yōu)搖臂)這兩者是矛盾的，因?yàn)閲L試次數(shù)（總投幣數(shù)）有限，加強(qiáng)了一方則自然會(huì)削弱另一方，這就是強(qiáng)化學(xué)習(xí)所面臨的探索-利用窘境（Exploration-Exploitation Dilemma）。顯然，想要累積獎(jiǎng)勵(lì)最大，則必須在探索與利用之間達(dá)成較好的折中。
K-臂賭博機(jī)圖示

參考文獻(xiàn)：
[1] 張偉楠, 沈鍵, 俞勇. 動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)[M]. 人民郵電出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 強(qiáng)化學(xué)習(xí)（第2版）[M]. 電子工業(yè)出版社, 2019
[3] Maxim Lapan. 深度強(qiáng)化學(xué)習(xí)實(shí)踐（原書第2版）[M]. 北京華章圖文信息有限公司, 2021
[4] 王琦, 楊毅遠(yuǎn), 江季. Easy RL：強(qiáng)化學(xué)習(xí)教程 [M]. 人民郵電出版社, 2022

查看全文

http://aloenet.com.cn/news/47764.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

web優(yōu)秀網(wǎng)站h5案例分享今日最新國際新聞

學(xué)習(xí)

規(guī)劃

探索和利用

相關(guān)文章：