国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于強化學習的冰壺比賽策略生成方法研究

發(fā)布時間:2020-05-22 09:17
【摘要】:隨著強化學習的飛速發(fā)展,越來越多的強化學習算法涌現(xiàn)出來,對于離散狀態(tài)空間環(huán)境,已經有許多成熟的強化學習方法,并逐漸應用于各行各業(yè)的人工智能體中。但是在連續(xù)狀態(tài)空間領域,強化學習的能力仍然捉襟見肘,僅存在一些理論上的研究,并未落地開展實際測試。本課題針對冰壺場地環(huán)境,對連續(xù)狀態(tài)空間下的策略生成方法進行了研究,嘗試通過強化學習算法生成冰壺的投擲策略,并結合搜索算法,對冰壺投擲策略進行相關的探索。冰壺場地環(huán)境下,狀態(tài)與動作空間均位于連續(xù)空間,且有多維自由變量,想要將經典的強化學習算法遷移到此場景中是很難實現(xiàn)的。而且冰壺場地環(huán)境存在許多不確定因素,投擲策略在執(zhí)行時會產生誤差,偏離原定軌跡,也對策略生成算法的能力產生了很大的挑戰(zhàn)。本文利用多種方法對冰壺投擲策略生成方法進行了研究,主要研究內容如下:(1)冰壺仿真對抗平臺建設。首先需要將冰壺比賽場景轉化為合理的動力學模型。將實際場景轉化為動力學模型,不僅要合理的設計系統(tǒng)的狀態(tài)與動作,還要考慮投擲誤差對場景及算法的影響。其次進行冰壺仿真對抗平臺前端的設計。冰壺仿真對抗平臺前端用于接收用戶輸入,并將設計成型的數(shù)學模型直觀的展現(xiàn)出來,對冰壺投擲進行可視化處理。最后完成對冰壺仿真對抗平臺后臺的體系架構。后臺將投擲過程中的滑行過程與碰撞過程以數(shù)據(jù)的方式進行記錄,并能夠執(zhí)行回放、撤銷等功能。冰壺仿真對抗平臺是冰壺投擲策略生成所依靠的必要基礎,為冰壺投擲策略生成提供海量的數(shù)據(jù)參考與支持。(2)設計冰壺投擲策略生成算法。首先應對PSO粒子群算法進行了合理的優(yōu)化,調整到合適的參數(shù),保證其在有限時間內生成可靠的投擲策略;其次嘗試將蒙特卡洛樹與監(jiān)督學習網絡結合起來,探尋投擲策略的生成模式;最后設計強化學習算法結構的四要素:策略、回報函數(shù)、動作值函數(shù)和環(huán)境數(shù)學模型。只有建立合適的數(shù)學模型,設計合理的回報函數(shù),計算機才能夠通過強化學習算法訓練得到最優(yōu)策略。(3)冰壺對抗策略的量化分析。各國家運動員依靠比賽經驗制定了許多冰壺投擲策略,可以將其與強化學習生成的投擲策略進行比較,互相借鑒,互相進步。既通過已有的比賽策略經驗對強化學習算法進行適當?shù)男薷?又可以將強化學習算法生成的投擲策略供給運動員作為比賽參考。
【圖文】:

圖像,倒立擺,平衡控制


SARSA 學習更新 Q 函數(shù)時需要用到( , , , ′,的名字 SARSA。與 Q-learning 相同,SARSA精確 Q 值并輸出確定性策略方案[12]。習方法應用于各種離散狀態(tài)空間的系統(tǒng)中,當強化學習的方法也已取得一些成果。最典型的題,通過控制小車的移動來維持車上擺桿的平-learning 算法[13],并對倒立擺進行了仿真控態(tài)離散化,,再使用可以處理離散空間的 Q-lea空間的倒立擺平衡控制[14]。Anderson 等人通過的函數(shù)擬合,并采用 AHC(Adaptive Heuristic散化處理的情況下完成了倒立擺的平衡控制果。之后研究者又探索了其他領域,Koutnik開發(fā)了連續(xù)狀態(tài)空間下的強化學習系統(tǒng)[16-17],神經網絡結合起來,成功實現(xiàn)了賽車游戲中的

網絡結構圖,網絡結構


哈爾濱工業(yè)大學工學碩士學位論文1.2.2 深度強化學習近年來隨著深度學習的快速發(fā)展,國內外學者將離散空間下的強化學習算法與深度學習相結合[18-20],進行了諸多的研究與創(chuàng)新,目前已取得大量成果:2013 年 Mnih 等人提出了深度強化學習的開創(chuàng)性工作深度 Q 網絡(DQN)[21],通過深度神經網絡對 Q 函數(shù)進行函數(shù)逼近,在視頻游戲 Atari 等領域取得突破。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:G862.6;TP181

【參考文獻】

相關期刊論文 前1條

1 張平,斯特凡·卡紐;在加強型學習系統(tǒng)中用偽熵進行不確定性估計(英文)[J];控制理論與應用;1998年01期



本文編號:2675769

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/kejilunwen/sousuoyinqinglunwen/2675769.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶cf811***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
久久人妻一区二区三区蜜桃拳交| 欧美人妻第2页| 清纯少妇后入内射| 国产簧片| 日韩欧美电影91网| 亚洲激情另类小说| 日韩欧美精品成人大片| 美女销魂一区二区| 亚洲美女自慰调教网站| 夜夜躁天天B| 夜夜久久一区二区| 免费欧美日韩| 久久久久久中文字幕中文字幕| 深夜福利视频久久久久| 欧美色图亚洲精品| 国产精品在线观看视频| 国产亚洲精品成人a 片麻豆| 午夜日韩欧美一区在线观看| 欧美夫妻性生活在线视频一区二区| 欧美图片区 精品一区| 外国美女操B视频| 狠狠干老熟女| 真人写真无码一区二区| AV中国黄色| 乱交激情视频| 一区二区精品久久无码| 伊人大大大香蕉| 无码国家二区| 久久草蜜桃| 舔欧美少妇骚逼| LLs888一区二区三正| 免费观看黄色福利视频| 九精品一级| 欧美青青操视频| 亚洲AU天堂在线| 日韩久久情| 欧美人妻制服在线| 啊啊啊,日骚逼逼啊啊啊啊,| 天天欲色综合网| 在线一区二区中字| 大鸡巴逼视频下载|