哈爾濱住房和城鄉(xiāng)建設(shè)廳官方網(wǎng)站如何軟件網(wǎng)站優(yōu)化公司
1 強(qiáng)化學(xué)習(xí)基礎(chǔ)知識
強(qiáng)化學(xué)習(xí)過程:?先環(huán)境(Env)
會給智能體(Agent)
?個狀態(tài)(State)
,智能體接收到環(huán)境給的觀測值之后會做出?個動作(Action)
,環(huán)境接收到智能體給的動作之后會做出?系列的反應(yīng),例如對這個動作給予?個獎勵(Reward)
,以及給出?個新的狀態(tài)S
。這是?個反復(fù)與環(huán)境進(jìn)?交互,不斷試錯?不斷進(jìn)步的過程。
智能體Agent
:執(zhí)行任務(wù)的角色。
環(huán)境Env
:任務(wù)的環(huán)境。
狀態(tài)State
:角色和環(huán)境所處的狀態(tài)。
動作Action
:角色在當(dāng)前狀態(tài)下做出的動作。
獎勵Reward
:環(huán)境根據(jù)角色的動作給出的反饋。
回報Return
:未來獎勵Reward的加權(quán)累計。
隨機(jī)策略函數(shù)
π(a∣s)\pi(a|s)π(a∣s):在狀態(tài)S下在動作空間隨機(jī)抽樣給出動作a。
動作價值函數(shù)
Qπ(s∣a)Q_\pi(s|a)Qπ?(s∣a):給當(dāng)前狀態(tài)S下的動作打分,使用Q?(s∣a)Q_*(s|a)Q??(s∣a)得出分?jǐn)?shù)最高的動作a。
強(qiáng)化學(xué)習(xí)分類:
1.價值學(xué)習(xí)Q*(s|a)
:給狀態(tài)S下各種動作打分,選擇價值最大的最優(yōu)動作a?!?code>Deep Q Network(DQN) 與 Q Learning 與 SARSA
2.策略學(xué)習(xí)π(a|s)
:在狀態(tài)S隨機(jī)概率抽樣給出a。——策略網(wǎng)絡(luò)Policy Network
3.價值學(xué)習(xí)+策略學(xué)習(xí)
:Actor-Critic method 與 Advantage Actor-Critic——AC算法 與 A2C算法