国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于強(qiáng)化學(xué)習(xí)的游戲環(huán)境中智能體決策模型的設(shè)計(jì)研究

發(fā)布時(shí)間:2025-05-29 07:03
  目前大多數(shù)都是使用以值為基礎(chǔ)的Q函數(shù)如DQN強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,減少了對(duì)更加直觀的以策略方法為基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法的研究。且在游戲領(lǐng)域中,連續(xù)高維的狀態(tài)動(dòng)作分布是決策問(wèn)題應(yīng)用強(qiáng)化學(xué)習(xí)所面臨的一個(gè)巨大困難,為解決這一問(wèn)題,本文將通過(guò)基礎(chǔ)方法策略搜索方法——確定性策略梯度算法作出研究,并分析確定性策略梯度算法的優(yōu)缺點(diǎn),對(duì)于其缺陷進(jìn)行改進(jìn),提出雙剪切策略梯度算法改進(jìn)模型,并探討不同的改進(jìn)部分對(duì)實(shí)驗(yàn)結(jié)果的影響。最后在游戲平臺(tái)上選擇四個(gè)連續(xù)高維的任務(wù)進(jìn)行訓(xùn)練,以證明改進(jìn)算法在解決此問(wèn)題的性能提升水平。本文主要進(jìn)行了五個(gè)部分的闡述。(1)首先對(duì)強(qiáng)化學(xué)習(xí)的本質(zhì)問(wèn)題與發(fā)展應(yīng)用領(lǐng)域進(jìn)行了簡(jiǎn)明介紹,接著介紹了基礎(chǔ)的方法——深度學(xué)習(xí),闡述了其發(fā)展歷史與現(xiàn)狀,最后對(duì)深度強(qiáng)化學(xué)習(xí)DRL的發(fā)展進(jìn)行了簡(jiǎn)述;(2)分析了強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型架構(gòu)——馬爾科夫決策過(guò)程,和貝爾曼最優(yōu)解,并引出了強(qiáng)化學(xué)習(xí)的基礎(chǔ)方法,值迭代方法和策略迭代方法,然后分析了無(wú)模型環(huán)境中基于值迭代法和策略迭代法的兩種強(qiáng)化學(xué)習(xí)策略求解方法——蒙特卡洛方法與時(shí)序差分法。(3)根據(jù)前一章的策略迭代和時(shí)序差分方法,提出需要改進(jìn)的基礎(chǔ)方法確定性策略梯度算法,結(jié)合...

【文章頁(yè)數(shù)】:65 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 深度學(xué)習(xí)的起源與發(fā)展
        1.2.2 深度強(qiáng)化學(xué)習(xí)DRL的進(jìn)展
    1.3 論文的主要工作與結(jié)構(gòu)
第二章 基于DRL的決策算法框架
    2.1 強(qiáng)化學(xué)習(xí)問(wèn)題描述架構(gòu)
        2.1.1 強(qiáng)化學(xué)習(xí)問(wèn)題模型
        2.1.2 數(shù)學(xué)模型——馬爾科夫決策過(guò)程
        2.1.3 貝爾曼方程最優(yōu)解
    2.2 動(dòng)態(tài)規(guī)劃
    2.3 無(wú)模型預(yù)測(cè)學(xué)習(xí)方法
        2.3.1 Monte-Carlo強(qiáng)化學(xué)習(xí)
        2.3.2 Temporal-Difference強(qiáng)化學(xué)習(xí)
    2.4 本章小結(jié)
第三章 基于確定性策略與AC架構(gòu)的系統(tǒng)建模
    3.1 確定性深度策略方法
        3.1.1 演員-評(píng)論者(Actor-Critic)架構(gòu)
        3.1.2 確定性策略梯度算法
    3.2 雙剪切策略梯度算法改進(jìn)模型
        3.2.1 Actor動(dòng)作選擇策略
        3.2.2 AC架構(gòu)中的高估偏差
        3.2.3 Critic雙剪切Q網(wǎng)絡(luò)
        3.2.4 目標(biāo)網(wǎng)絡(luò)與延遲策略更新
        3.2.5 目標(biāo)策略平滑正則化
        3.2.6 雙剪切策略梯度算法
    3.3 本章小結(jié)
第四章 游戲平臺(tái)系統(tǒng)模型實(shí)驗(yàn)
    4.1 實(shí)驗(yàn)平臺(tái)
    4.2 實(shí)驗(yàn)環(huán)境
    4.3 實(shí)驗(yàn)參數(shù)配置
    4.4 實(shí)驗(yàn)結(jié)果及分析
        4.4.1 高估偏差分析
        4.4.2 目標(biāo)網(wǎng)絡(luò)與延遲更新分析
        4.4.3 游戲得分結(jié)果分析
    4.5 本章小結(jié)
第五章 總結(jié)與展望
    5.1 總結(jié)
    5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果



本文編號(hào):4048908

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/guanlilunwen/lindaojc/4048908.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶91260***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美 呻吟| 在线 日本制服中文欧美| 国产欧美久热中文| 日本久久综合久久久久| 日逼看日逼片| 91av天堂| 789精品一区| 九九欧美日韩| 色插插综合网站| 麻豆综合久久一区| 91影视麻豆精品久久久久久久| 蜜桃92,在线播放| 久久久久久久久久久久三级片| 国产剧情在线播放2区| 大香蕉狂 蜜桃| 97大香蕉热播| 国产精对白| 久久精品伦理片| 伊人久久国际| 91人妻性感视频| 亚洲高清四区| 黄色AV网扯在线观看| 国产三级在线91| 色婷久久久| 婷婷黄色五月| 国产精品一区二区三区毛片 | 黄色激情之懂色av| 色呦呦精品五月天| 妻少妇精品久久久久| 天天色一区二区三区| 日本中文字幕偷拍| 大鸡巴 啊 哦 嗯 视频| 曰逼高潮av| 人体一区二区三区四区| 图片小说视频区欧美| 久久久久三级国产午夜电影| 亚洲一区二区黄色影院网站| 91九色蜜臀porn| 日韩国产六区| 欧美一级二级三级一区二区三区| 第三色婷婷|