中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

信息的價值在馬爾可夫決策理論下的應(yīng)用

發(fā)布時間:2020-07-20 19:10
【摘要】:在過去的幾十年中,隨著經(jīng)濟(jì)理論、通信工程、企業(yè)管理及眾多學(xué)科中涉及不確定因素和序列性決策問題的大量新模型的涌現(xiàn),不確定性環(huán)境下的馬爾可夫決策過程建模理論得到迅速發(fā)展。在人工智能領(lǐng)域,馬爾可夫決策過程是用來建模規(guī)劃決策問題的基本理論模型,也是序貫決策的主要研究領(lǐng)域。自古以來,信息和消除不確定性是相聯(lián)系的。在決策過程中,計(jì)算信息的價值的目的是引導(dǎo)不確定性環(huán)境下的信息收集過程,提高決策質(zhì)量,最終實(shí)現(xiàn)最優(yōu)決策。本文的研究工作如下:(1)針對一類需要權(quán)衡決策質(zhì)量和成本的最優(yōu)不確定性序貫決策問題,建立了一個全新的決策模型——基于信念的價值決策模型(Belief-Based Value of Information,Belief-VOI),通過信息的價值判斷決策控制中的最優(yōu)停止時間,為收集信息的直接成本和這些信息所能提供給未來決策行為的期望收益之間的平衡提供了分析和解決方案工具。(2)本文把Belief-VOI建模理論應(yīng)用于眾包任務(wù)質(zhì)量的決策控制中,詳細(xì)的推理了建模過程和應(yīng)用過程,驗(yàn)證了理論的正確性,說明了在決策問題中判定信息的價值的科學(xué)性和現(xiàn)實(shí)意義。(3)對于在求解一般馬氏決策模型的最優(yōu)策略時面臨狀態(tài)空間過大的不足,本文針對所提出的Belief-VOI模型的特性,研究了效率更高的近似方法,提出了一種基于信念狀態(tài)的蒙特卡洛采樣方法(BMCT),并說明了這種簡化方式的可行性和實(shí)用性。本文對最優(yōu)不確定性序貫決策問題和信息的價值在馬爾可夫決策過程理論下的應(yīng)用進(jìn)行了更深入的探索,實(shí)現(xiàn)了人工智能技術(shù)在決策分析領(lǐng)域的突破。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:C934
【圖文】:

效用值,馬爾可夫過程,最優(yōu)策略,效用函數(shù)


在一個多階段決策問題中,效用函數(shù)用于評價某一策略。對于整個系統(tǒng)來說個階段的效用之和是這個系統(tǒng)所采取某一策略的效用值。決策的目的就是求以最大化效用函數(shù)的最優(yōu)策略,或近似最優(yōu)策略。在一個完整的決策過程中系統(tǒng)的初始狀態(tài)為0s ,最后所采取的策略為p,在系統(tǒng)可獲得的效用值u 用效數(shù)V ( s ,p),最大化效用值表示為:( ) ( ( )) ( )0 0max , ,i iu s V s p p P(2其中,策略ip 被稱為最優(yōu)策略。1.2 馬爾可夫過程理論馬爾可夫過程是一類隨機(jī)過程,它是研究離散隨機(jī)事件動態(tài)系統(tǒng)的重要方個隨機(jī)事件可用隨機(jī)變量來描述,一個基礎(chǔ)的離散隨機(jī)過程如圖 2-1 所示。假一個離散且隨機(jī)的動態(tài)系統(tǒng)中,圖中每個節(jié)點(diǎn)對應(yīng)一個隨機(jī)變量,即在某個時某個狀態(tài)ts ,節(jié)點(diǎn)之間的弧線對應(yīng)從上一狀態(tài)轉(zhuǎn)移到下一狀態(tài)的直接概率分時刻t系統(tǒng)轉(zhuǎn)移到狀態(tài)ts 的條件概率為( )0 1 1Pr | , ,...t ts s s s 。

馬爾可夫決策過程


圖 2-3 基本馬爾可夫決策過程夫決策過程形式上可以被定義成一個四元組 S , A空間,即環(huán)境狀態(tài)的集合;空間,即可選行動的集合; S' → 0, 1 是狀態(tài)轉(zhuǎn)移函數(shù), ( ) ( )T s ' s , a Pr s ' s ,a 行了行動 a ,系統(tǒng)從狀態(tài) 轉(zhuǎn)移到狀態(tài) s '的概率;→ 是回報函數(shù),代表在環(huán)境狀態(tài) s 下,Agen回報值(又稱獎賞值)。為了達(dá)到長期回報的最大選擇動作,這樣 Agent 在整個過程中的總收益為DP 的狀態(tài)空間和動作空間可以分為離散空間和連值函數(shù)的決策,是一個狀態(tài)到動作的映射,:td S → A。,對于所有的時刻t T,其策略用決策序列表示,

馬爾可夫決策過程,部分可觀察


義型可被形式化地定義為一個六元組, S , A, Z , T , O ,R能環(huán)境狀態(tài)的集合,1 2S {s , s ,...},在第 t 時刻的狀態(tài)世界進(jìn)行交互的所有可選行動的集合,可表示為 A 一個行動都會影響它所處的下一個狀態(tài);察的有限集合,表示為1 2Z { z , z ,...}。態(tài)轉(zhuǎn)移函數(shù),( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行動a后,系統(tǒng)轉(zhuǎn)移到狀態(tài) s '的概率;察概率分布函數(shù),( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行動a,隨后在下一時刻t 轉(zhuǎn)移到狀態(tài) s '后,能夠得率分布函數(shù)可以用來模擬現(xiàn)實(shí)環(huán)境中的感知過程充滿報函數(shù),與 MDP 一樣,Agent 在任意狀態(tài) s 執(zhí)行一個里假設(shè)立即回報值是有界的,min maxR R R 。DP 框架可以用循環(huán)圖表示,如圖 2-4 所示。

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張其黎;劉海風(fēng);李瓊;宋紅州;張弓木;;氫狀態(tài)方程的路徑積分蒙特卡洛研究[J];計(jì)算物理;年期

2 黃介農(nóng);寧根福;;追尋雜技走向藝術(shù)的夢——記寧根福榮獲蒙特卡洛國際馬戲節(jié)40周年“特殊貢獻(xiàn)獎”[J];雜技與魔術(shù);2016年02期

3 ;第39屆蒙特卡洛國際馬戲節(jié)金獎節(jié)目一覽[J];雜技與魔術(shù);2015年02期

4 ;世界賽車賽歷[J];汽車之友;2017年04期

5 雷宏偉;尹博崴;;別瞧不起“鄉(xiāng)下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家試駕[J];汽車之友;2017年12期

6 曉天;;MINI JOHN COOPER WORKS GP CONCEPT 戰(zhàn)斗版MINI[J];汽車知識;2017年10期

7 宓魯;;彈指揮間二十年(五)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術(shù);2013年06期

8 宓魯;;彈指揮間二十年(三)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術(shù);2013年04期

9 王峰;;驕人的蒙特卡洛國際馬戲節(jié)[J];雜技與魔術(shù);1999年02期

10 ;第23屆蒙特卡洛國際馬戲節(jié)外國節(jié)目風(fēng)彩[J];雜技與魔術(shù);1999年02期

相關(guān)會議論文 前10條

1 陳向;王維嘉;魏文領(lǐng);朱雪耀;;基于蒙特卡洛搜索樹的自動飛行機(jī)動[A];2016年航空科學(xué)與技術(shù)全國博士生學(xué)術(shù)論壇摘要集[C];2016年

2 楊卓鵬;鄭恒;薛峰;任立明;;基于蒙特卡洛--貝葉斯網(wǎng)絡(luò)方法的衛(wèi)星地面站可用性分析[A];第二屆中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會電子文集[C];2011年

3 郭永輝;翦波;孫海傳;;基于蒙特卡洛的裝備系統(tǒng)可靠性仿真[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會議論文集[C];2007年

4 程磊;房永智;王剛;;蒙特卡洛計(jì)算方法與作戰(zhàn)毀傷模擬決策分析[A];中國系統(tǒng)工程學(xué)會決策科學(xué)專業(yè)委員會第六屆學(xué)術(shù)年會論文集[C];2005年

5 康曉巖;陳永義;;一種改進(jìn)的蒙特卡洛選擇算子[A];中國系統(tǒng)工程學(xué)會模糊數(shù)學(xué)與模糊系統(tǒng)委員會第十一屆年會論文選集[C];2002年

6 營笑;王少永;蔣文亮;金招省;;儀表放大器的容差分析與仿真研究[A];2015航空試驗(yàn)測試技術(shù)學(xué)術(shù)交流會論文集[C];2015年

7 薛奕達(dá);霍佳震;;供應(yīng)鏈延遲戰(zhàn)略價值定量分析——蒙特卡洛下的奇異期權(quán)估價[A];第三屆(2008)中國管理學(xué)年會——會計(jì)分會場論文集[C];2008年

8 張s乓

本文編號:2763833


資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/lindaojc/2763833.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e7e02***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com