中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

強(qiáng)化學(xué)習(xí)在多智能體協(xié)同中的研究與應(yīng)用

發(fā)布時(shí)間:2025-01-20 18:31
  隨著計(jì)算機(jī)科學(xué)的發(fā)展,特別是強(qiáng)化學(xué)習(xí)理論的大量應(yīng)用,將強(qiáng)化學(xué)習(xí)方法應(yīng)用在多智能體系統(tǒng)中的研究逐漸熱門。強(qiáng)化學(xué)習(xí)模擬人類活動(dòng)中獲得獎(jiǎng)勵(lì)的過程,通過最大化獎(jiǎng)勵(lì)的方式為研究人員提供了一種求解多智能體控制系統(tǒng)的方法。多智能體系統(tǒng)利用強(qiáng)化學(xué)習(xí)可以進(jìn)行自適應(yīng)的學(xué)習(xí),可以很好面對(duì)環(huán)境中的動(dòng)態(tài)特性。隨著多智能體系統(tǒng)的應(yīng)用場景越來越多,利用強(qiáng)化學(xué)習(xí)在多智能體系統(tǒng)中設(shè)計(jì)靈活的算法也是當(dāng)今的研究熱點(diǎn)。為了達(dá)到上述目標(biāo),本文結(jié)合已有的多智能體系統(tǒng)中的強(qiáng)化學(xué)習(xí)算法,針對(duì)在多智能體協(xié)同環(huán)境中的強(qiáng)化學(xué)習(xí)方法進(jìn)行研究,主要完成了以下工作:(1)提出一種適用于全局觀測(cè)環(huán)境下多智能體強(qiáng)化學(xué)習(xí)算法。本文提出的算法利用注意力機(jī)制自適應(yīng)選擇環(huán)境中的智能體信息,以注意力的方式聚合選擇之后的智能體信息,從而替代傳統(tǒng)多智能體強(qiáng)化學(xué)習(xí)中的聯(lián)合狀態(tài)以及聯(lián)合動(dòng)作。將其應(yīng)用于多智能體協(xié)同環(huán)境中,與MADDPG算法相比較,進(jìn)行實(shí)驗(yàn)中驗(yàn)證了算法的高效性。(2)提出一種基于圖網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)方法。在部分可觀測(cè)的多智能體環(huán)境中,利用圖網(wǎng)絡(luò)進(jìn)行智能體之間的信息傳遞,從而使多智能體系統(tǒng)中的每個(gè)智能體感知全局信息進(jìn)行學(xué)習(xí)。并將該方法與強(qiáng)化學(xué)習(xí)相結(jié)合,...

【文章頁數(shù)】:74 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究工作的背景與意義
    1.2 強(qiáng)化學(xué)習(xí)國內(nèi)外研究現(xiàn)狀
    1.3 多智能體強(qiáng)化學(xué)習(xí)國內(nèi)外研究現(xiàn)狀
    1.4 本文的主要工作
    1.5 本論文的結(jié)構(gòu)安排
第二章 關(guān)鍵算法與技術(shù)
    2.1 強(qiáng)化學(xué)習(xí)基礎(chǔ)
        2.1.1 馬爾可夫決策過程
        2.1.2 貝爾曼方程
        2.1.3 表格化的解決方法
        2.1.4 深度強(qiáng)化學(xué)習(xí)方法
    2.2 多智能體強(qiáng)化學(xué)習(xí)
        2.2.1 多智能體馬爾可夫博弈
        2.2.2 多智能體強(qiáng)化學(xué)習(xí)典型算法
    2.3 注意力機(jī)制
    2.4 圖神經(jīng)網(wǎng)絡(luò)
    2.5 本章小結(jié)
第三章 全局觀測(cè)下的多智能體強(qiáng)化學(xué)習(xí)算法
    3.1 問題分析
    3.2 基于注意力機(jī)制的智能體信息融合
    3.3 基于全局觀測(cè)信息的ATMA算法
    3.4 實(shí)驗(yàn)驗(yàn)證
        3.4.1 多智能體強(qiáng)化學(xué)習(xí)環(huán)境
        3.4.2 智能體信息表示
        3.4.3 參數(shù)設(shè)置
        3.4.4 實(shí)驗(yàn)結(jié)果分析
    3.5 本章小結(jié)
第四章 部分觀測(cè)下的多智能體強(qiáng)化學(xué)習(xí)算法
    4.1 問題分析
    4.2 基于圖網(wǎng)絡(luò)的智能體信息融合
    4.3 基于靜態(tài)子圖的網(wǎng)絡(luò)更新方式
    4.4 實(shí)驗(yàn)驗(yàn)證
        4.4.1 實(shí)驗(yàn)環(huán)境設(shè)置
        4.4.2 實(shí)驗(yàn)參數(shù)設(shè)置
        4.4.3 實(shí)驗(yàn)結(jié)果分析
    4.5 本章小結(jié)
第五章 算法可擴(kuò)展性研究
    5.1 問題分析
    5.2 課程學(xué)習(xí)
    5.3 實(shí)驗(yàn)驗(yàn)證
        5.3.1 實(shí)驗(yàn)設(shè)置
        5.3.2 實(shí)驗(yàn)結(jié)果分析
    5.4 本章小結(jié)
第六章 全文總結(jié)與展望
    6.1 全文總結(jié)
    6.2 未來工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果



本文編號(hào):4029520

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/lindaojc/4029520.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶42ab2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com