基于值函數(shù)估計偏差修正的強化學習方法研究
發(fā)布時間:2024-06-16 08:44
強化學習是求解馬爾科夫決策過程問題的重要方法。強化學習的研究已取得了豐富的成果,特別是自深度強化學習出現(xiàn)以來,強化學習在諸多領(lǐng)域都獲得了相當成功的應(yīng)用。基于值函數(shù)的強化學習是其中的一個重要分支,出現(xiàn)了以深度Q網(wǎng)絡(luò)為代表的一大批經(jīng)典算法。在迭代求解動作值函數(shù)的過程中,都會涉及到最大期望動作值函數(shù)的估計問題,與此相伴的是存在其中的估計偏差問題。這個問題同樣也存在于機器學習的其它領(lǐng)域中。因此,對最大期望值的準確估計是個非常重要的問題。本文圍繞值函數(shù)估計偏差修正問題展開研究,主要內(nèi)容如下:(1)針對Q類學習算法高估、DQ類學習算法低估的問題,研究了最大期望值估計偏差產(chǎn)生的原因,并提出了相應(yīng)的偏差修正思路。首先,提出了次序估計量,并對次序估計量的估計偏差進行了分析,使得現(xiàn)有的最大期望值估計方法均可視為次序估計量的組合形式。其次,分析了現(xiàn)有估計方法存在高估低估的原因,重點對最大估計量和雙估計量的優(yōu)勢與不足進行了分析。最后,得出結(jié)論:單純用某一個次序估計量參與值函數(shù)更新都會帶來不同程度的估計偏差,有控制地隨機組合多個次序估計量能有效修正估計偏差。本部分內(nèi)容為后續(xù)研究工作提供了直接的理論指導。(2)以...
【文章頁數(shù)】:124 頁
【學位級別】:博士
【部分圖文】:
本文編號:3995169
【文章頁數(shù)】:124 頁
【學位級別】:博士
【部分圖文】:
圖4-4本文用到的Atari2600游戲界面
4基于集成雙估計的偏差修正強化學習51Space_invaders是一類競爭性游戲,獎勵稀疏,環(huán)境狀態(tài)部分可觀測,許多算法在該游戲中都不夠穩(wěn)定,用以檢測算法的穩(wěn)定性。Zaxxon游戲中DDQN的執(zhí)行性能明顯的受到低估的影響[52],能測試算法的執(zhí)行效果。AlienAsterixB....
圖6-1DQ中QA與QB在某個狀態(tài)的估計動作值及其置信區(qū)間Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ
6基于值函數(shù)探索獎勵的貝葉斯深度強化學習81函數(shù)探索問題中,值函數(shù)之間還存在組合運算等其它操作的問題。顯然,值函數(shù)探索問題的研究將會復雜的多,更具挑戰(zhàn)性。(a)QA(b)QB圖6-1DQ中QA與QB在某個狀態(tài)的估計動作值及其置信區(qū)間Figure6-1EstimatedAction....
本文編號:3995169
本文鏈接:http://www.lk138.cn/shoufeilunwen/xxkjbs/3995169.html
上一篇:基于雙饋感應(yīng)電機的風力發(fā)電系統(tǒng)故障估計與控制技術(shù)研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著