基于值函數(shù)估計偏差修正的強化學(xué)習(xí)方法研究

發(fā)布時間：2024-06-16 08:44

　　強化學(xué)習(xí)是求解馬爾科夫決策過程問題的重要方法。強化學(xué)習(xí)的研究已取得了豐富的成果,特別是自深度強化學(xué)習(xí)出現(xiàn)以來,強化學(xué)習(xí)在諸多領(lǐng)域都獲得了相當(dāng)成功的應(yīng)用�；谥岛瘮�(shù)的強化學(xué)習(xí)是其中的一個重要分支,出現(xiàn)了以深度Q網(wǎng)絡(luò)為代表的一大批經(jīng)典算法。在迭代求解動作值函數(shù)的過程中,都會涉及到最大期望動作值函數(shù)的估計問題,與此相伴的是存在其中的估計偏差問題。這個問題同樣也存在于機器學(xué)習(xí)的其它領(lǐng)域中。因此,對最大期望值的準(zhǔn)確估計是個非常重要的問題。本文圍繞值函數(shù)估計偏差修正問題展開研究,主要內(nèi)容如下:(1)針對Q類學(xué)習(xí)算法高估、DQ類學(xué)習(xí)算法低估的問題,研究了最大期望值估計偏差產(chǎn)生的原因,并提出了相應(yīng)的偏差修正思路。首先,提出了次序估計量,并對次序估計量的估計偏差進(jìn)行了分析,使得現(xiàn)有的最大期望值估計方法均可視為次序估計量的組合形式。其次,分析了現(xiàn)有估計方法存在高估低估的原因,重點對最大估計量和雙估計量的優(yōu)勢與不足進(jìn)行了分析。最后,得出結(jié)論:單純用某一個次序估計量參與值函數(shù)更新都會帶來不同程度的估計偏差,有控制地隨機組合多個次序估計量能有效修正估計偏差。本部分內(nèi)容為后續(xù)研究工作提供了直接的理論指導(dǎo)。(2)以...

【文章頁數(shù)】：124 頁

【學(xué)位級別】：博士

【部分圖文】：

圖4-4本文用到的Atari2600游戲界面

4基于集成雙估計的偏差修正強化學(xué)習(xí)51Space_invaders是一類競爭性游戲，獎勵稀疏，環(huán)境狀態(tài)部分可觀測，許多算法在該游戲中都不夠穩(wěn)定，用以檢測算法的穩(wěn)定性。Zaxxon游戲中DDQN的執(zhí)行性能明顯的受到低估的影響[52]，能測試算法的執(zhí)行效果。AlienAsterixB....

圖6-1DQ中QA與QB在某個狀態(tài)的估計動作值及其置信區(qū)間Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

6基于值函數(shù)探索獎勵的貝葉斯深度強化學(xué)習(xí)81函數(shù)探索問題中，值函數(shù)之間還存在組合運算等其它操作的問題。顯然，值函數(shù)探索問題的研究將會復(fù)雜的多，更具挑戰(zhàn)性。(a)QA(b)QB圖6-1DQ中QA與QB在某個狀態(tài)的估計動作值及其置信區(qū)間Figure6-1EstimatedAction....

本文編號：3995169

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/shoufeilunwen/xxkjbs/3995169.html

上一篇：基于雙饋感應(yīng)電機的風(fēng)力發(fā)電系統(tǒng)故障估計與控制技術(shù)研究
下一篇：沒有了

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于值函數(shù)估計偏差修正的強化學(xué)習(xí)方法研究