中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于值函數(shù)估計(jì)偏差修正的強(qiáng)化學(xué)習(xí)方法研究

發(fā)布時間:2024-06-16 08:44
  強(qiáng)化學(xué)習(xí)是求解馬爾科夫決策過程問題的重要方法。強(qiáng)化學(xué)習(xí)的研究已取得了豐富的成果,特別是自深度強(qiáng)化學(xué)習(xí)出現(xiàn)以來,強(qiáng)化學(xué)習(xí)在諸多領(lǐng)域都獲得了相當(dāng)成功的應(yīng)用;谥岛瘮(shù)的強(qiáng)化學(xué)習(xí)是其中的一個重要分支,出現(xiàn)了以深度Q網(wǎng)絡(luò)為代表的一大批經(jīng)典算法。在迭代求解動作值函數(shù)的過程中,都會涉及到最大期望動作值函數(shù)的估計(jì)問題,與此相伴的是存在其中的估計(jì)偏差問題。這個問題同樣也存在于機(jī)器學(xué)習(xí)的其它領(lǐng)域中。因此,對最大期望值的準(zhǔn)確估計(jì)是個非常重要的問題。本文圍繞值函數(shù)估計(jì)偏差修正問題展開研究,主要內(nèi)容如下:(1)針對Q類學(xué)習(xí)算法高估、DQ類學(xué)習(xí)算法低估的問題,研究了最大期望值估計(jì)偏差產(chǎn)生的原因,并提出了相應(yīng)的偏差修正思路。首先,提出了次序估計(jì)量,并對次序估計(jì)量的估計(jì)偏差進(jìn)行了分析,使得現(xiàn)有的最大期望值估計(jì)方法均可視為次序估計(jì)量的組合形式。其次,分析了現(xiàn)有估計(jì)方法存在高估低估的原因,重點(diǎn)對最大估計(jì)量和雙估計(jì)量的優(yōu)勢與不足進(jìn)行了分析。最后,得出結(jié)論:單純用某一個次序估計(jì)量參與值函數(shù)更新都會帶來不同程度的估計(jì)偏差,有控制地隨機(jī)組合多個次序估計(jì)量能有效修正估計(jì)偏差。本部分內(nèi)容為后續(xù)研究工作提供了直接的理論指導(dǎo)。(2)以...

【文章頁數(shù)】:124 頁

【學(xué)位級別】:博士

【部分圖文】:

圖4-4本文用到的Atari2600游戲界面

圖4-4本文用到的Atari2600游戲界面

4基于集成雙估計(jì)的偏差修正強(qiáng)化學(xué)習(xí)51Space_invaders是一類競爭性游戲,獎勵稀疏,環(huán)境狀態(tài)部分可觀測,許多算法在該游戲中都不夠穩(wěn)定,用以檢測算法的穩(wěn)定性。Zaxxon游戲中DDQN的執(zhí)行性能明顯的受到低估的影響[52],能測試算法的執(zhí)行效果。AlienAsterixB....


圖6-1DQ中QA與QB在某個狀態(tài)的估計(jì)動作值及其置信區(qū)間Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

圖6-1DQ中QA與QB在某個狀態(tài)的估計(jì)動作值及其置信區(qū)間Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

6基于值函數(shù)探索獎勵的貝葉斯深度強(qiáng)化學(xué)習(xí)81函數(shù)探索問題中,值函數(shù)之間還存在組合運(yùn)算等其它操作的問題。顯然,值函數(shù)探索問題的研究將會復(fù)雜的多,更具挑戰(zhàn)性。(a)QA(b)QB圖6-1DQ中QA與QB在某個狀態(tài)的估計(jì)動作值及其置信區(qū)間Figure6-1EstimatedAction....



本文編號:3995169

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/xxkjbs/3995169.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a425a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com