信息的價值在馬爾可夫決策理論下的應(yīng)用
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:C934
【圖文】:
在一個多階段決策問題中,效用函數(shù)用于評價某一策略。對于整個系統(tǒng)來說個階段的效用之和是這個系統(tǒng)所采取某一策略的效用值。決策的目的就是求以最大化效用函數(shù)的最優(yōu)策略,或近似最優(yōu)策略。在一個完整的決策過程中系統(tǒng)的初始狀態(tài)為0s ,最后所采取的策略為p,在系統(tǒng)可獲得的效用值u 用效數(shù)V ( s ,p),最大化效用值表示為:( ) ( ( )) ( )0 0max , ,i iu s V s p p P(2其中,策略ip 被稱為最優(yōu)策略。1.2 馬爾可夫過程理論馬爾可夫過程是一類隨機(jī)過程,它是研究離散隨機(jī)事件動態(tài)系統(tǒng)的重要方個隨機(jī)事件可用隨機(jī)變量來描述,一個基礎(chǔ)的離散隨機(jī)過程如圖 2-1 所示。假一個離散且隨機(jī)的動態(tài)系統(tǒng)中,圖中每個節(jié)點(diǎn)對應(yīng)一個隨機(jī)變量,即在某個時某個狀態(tài)ts ,節(jié)點(diǎn)之間的弧線對應(yīng)從上一狀態(tài)轉(zhuǎn)移到下一狀態(tài)的直接概率分時刻t系統(tǒng)轉(zhuǎn)移到狀態(tài)ts 的條件概率為( )0 1 1Pr | , ,...t ts s s s 。
圖 2-3 基本馬爾可夫決策過程夫決策過程形式上可以被定義成一個四元組 S , A空間,即環(huán)境狀態(tài)的集合;空間,即可選行動的集合; S' → 0, 1 是狀態(tài)轉(zhuǎn)移函數(shù), ( ) ( )T s ' s , a Pr s ' s ,a 行了行動 a ,系統(tǒng)從狀態(tài) 轉(zhuǎn)移到狀態(tài) s '的概率;→ 是回報函數(shù),代表在環(huán)境狀態(tài) s 下,Agen回報值(又稱獎賞值)。為了達(dá)到長期回報的最大選擇動作,這樣 Agent 在整個過程中的總收益為DP 的狀態(tài)空間和動作空間可以分為離散空間和連值函數(shù)的決策,是一個狀態(tài)到動作的映射,:td S → A。,對于所有的時刻t T,其策略用決策序列表示,
義型可被形式化地定義為一個六元組, S , A, Z , T , O ,R能環(huán)境狀態(tài)的集合,1 2S {s , s ,...},在第 t 時刻的狀態(tài)世界進(jìn)行交互的所有可選行動的集合,可表示為 A 一個行動都會影響它所處的下一個狀態(tài);察的有限集合,表示為1 2Z { z , z ,...}。態(tài)轉(zhuǎn)移函數(shù),( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行動a后,系統(tǒng)轉(zhuǎn)移到狀態(tài) s '的概率;察概率分布函數(shù),( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行動a,隨后在下一時刻t 轉(zhuǎn)移到狀態(tài) s '后,能夠得率分布函數(shù)可以用來模擬現(xiàn)實(shí)環(huán)境中的感知過程充滿報函數(shù),與 MDP 一樣,Agent 在任意狀態(tài) s 執(zhí)行一個里假設(shè)立即回報值是有界的,min maxR R R 。DP 框架可以用循環(huán)圖表示,如圖 2-4 所示。
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張其黎;劉海風(fēng);李瓊;宋紅州;張弓木;;氫狀態(tài)方程的路徑積分蒙特卡洛研究[J];計(jì)算物理;年期
2 黃介農(nóng);寧根福;;追尋雜技走向藝術(shù)的夢——記寧根福榮獲蒙特卡洛國際馬戲節(jié)40周年“特殊貢獻(xiàn)獎”[J];雜技與魔術(shù);2016年02期
3 ;第39屆蒙特卡洛國際馬戲節(jié)金獎節(jié)目一覽[J];雜技與魔術(shù);2015年02期
4 ;世界賽車賽歷[J];汽車之友;2017年04期
5 雷宏偉;尹博崴;;別瞧不起“鄉(xiāng)下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家試駕[J];汽車之友;2017年12期
6 曉天;;MINI JOHN COOPER WORKS GP CONCEPT 戰(zhàn)斗版MINI[J];汽車知識;2017年10期
7 宓魯;;彈指揮間二十年(五)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術(shù);2013年06期
8 宓魯;;彈指揮間二十年(三)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術(shù);2013年04期
9 王峰;;驕人的蒙特卡洛國際馬戲節(jié)[J];雜技與魔術(shù);1999年02期
10 ;第23屆蒙特卡洛國際馬戲節(jié)外國節(jié)目風(fēng)彩[J];雜技與魔術(shù);1999年02期
相關(guān)會議論文 前10條
1 陳向;王維嘉;魏文領(lǐng);朱雪耀;;基于蒙特卡洛搜索樹的自動飛行機(jī)動[A];2016年航空科學(xué)與技術(shù)全國博士生學(xué)術(shù)論壇摘要集[C];2016年
2 楊卓鵬;鄭恒;薛峰;任立明;;基于蒙特卡洛--貝葉斯網(wǎng)絡(luò)方法的衛(wèi)星地面站可用性分析[A];第二屆中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會電子文集[C];2011年
3 郭永輝;翦波;孫海傳;;基于蒙特卡洛的裝備系統(tǒng)可靠性仿真[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會議論文集[C];2007年
4 程磊;房永智;王剛;;蒙特卡洛計(jì)算方法與作戰(zhàn)毀傷模擬決策分析[A];中國系統(tǒng)工程學(xué)會決策科學(xué)專業(yè)委員會第六屆學(xué)術(shù)年會論文集[C];2005年
5 康曉巖;陳永義;;一種改進(jìn)的蒙特卡洛選擇算子[A];中國系統(tǒng)工程學(xué)會模糊數(shù)學(xué)與模糊系統(tǒng)委員會第十一屆年會論文選集[C];2002年
6 營笑;王少永;蔣文亮;金招省;;儀表放大器的容差分析與仿真研究[A];2015航空試驗(yàn)測試技術(shù)學(xué)術(shù)交流會論文集[C];2015年
7 薛奕達(dá);霍佳震;;供應(yīng)鏈延遲戰(zhàn)略價值定量分析——蒙特卡洛下的奇異期權(quán)估價[A];第三屆(2008)中國管理學(xué)年會——會計(jì)分會場論文集[C];2008年
8 張s乓
本文編號:2763833
本文鏈接:http://www.lk138.cn/guanlilunwen/lindaojc/2763833.html