當(dāng)前位置：主頁 > 理工論文 > 系統(tǒng)學(xué)論文 >

基于梯度逼近方法的Markov系統(tǒng)及其在通信中的應(yīng)用

發(fā)布時(shí)間：2020-11-02 01:30

　　隨著信息科學(xué)技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,出現(xiàn)了大量的復(fù)雜隨機(jī)動(dòng)態(tài)系統(tǒng),比如在通訊網(wǎng)絡(luò)(Internet及無線網(wǎng)絡(luò)),柔性制造,智能機(jī)器人,交通管理等領(lǐng)域。目前,該類系統(tǒng)的性能優(yōu)化問題逐漸成為很多領(lǐng)域的研究熱點(diǎn)。這些領(lǐng)域包括控制系統(tǒng)領(lǐng)域,運(yùn)籌學(xué)領(lǐng)域,計(jì)算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域等等。不同領(lǐng)域采用不同的方法來解決該問題,如控制系統(tǒng)領(lǐng)域的離散事件動(dòng)態(tài)系統(tǒng)的攝動(dòng)分析方法,運(yùn)籌學(xué)領(lǐng)域的Markov決策過程理論,計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的強(qiáng)化學(xué)習(xí)(或神經(jīng)元?jiǎng)討B(tài)規(guī)劃)方法。雖然這些方法對系統(tǒng)結(jié)構(gòu)有著不同的描述,但這些方法都是圍繞著同一個(gè)目的展開,即尋找一個(gè)“最好的策略”來優(yōu)化系統(tǒng)的性能。近幾年來,一種基于靈敏度觀點(diǎn)的優(yōu)化方法將以上不同領(lǐng)域的不同方法有機(jī)的統(tǒng)一起來。該方法以性能勢理論為基礎(chǔ),通過兩種性能靈敏度公式:性能差公式和性能導(dǎo)數(shù)公式,將攝動(dòng)分析方法,Markov決策過程理論以及強(qiáng)化學(xué)習(xí)方法統(tǒng)一在同一框架下。該方法不僅可以基于模型采用理論計(jì)算的方法來尋找系統(tǒng)的最優(yōu)策略,而且可以在系統(tǒng)模型參數(shù)未知的情況下基于一條樣本軌道在線地改進(jìn)系統(tǒng)性能。因而在某種程度上它解決了該類系統(tǒng)的“維數(shù)災(zāi)”和“模型災(zāi)”問題。到目前為止,該方法在自適應(yīng)Markov報(bào)酬過程上的應(yīng)用還沒有被研究,本文在該方法的基礎(chǔ)上,研究了自適應(yīng)Markov報(bào)酬過程的靈敏度分析,得到了性能差和性能導(dǎo)數(shù)公式,以及在單樣本軌道上性能導(dǎo)數(shù)的估計(jì)式。基于仿真的梯度逼近方法是基于一種可以基于單樣本軌道在線的改進(jìn)系統(tǒng)性能的梯度逼近方法。這個(gè)方法首先參數(shù)化策略。然后根據(jù)仿真出來的樣本軌道估計(jì)出性能測度關(guān)于參數(shù)向量的梯度;最后再沿梯度的方向改進(jìn)參數(shù)。利用參數(shù)化策略,減少了未知參數(shù)的個(gè)數(shù),避開了“維數(shù)災(zāi)”的問題;通過仿真避開了“模型災(zāi)”的問題。參數(shù)的更新時(shí)刻的不同,這個(gè)方法分為兩個(gè)傳統(tǒng)的算法。再生環(huán)梯度逼近算法是每到更新點(diǎn)時(shí),即更新一次參數(shù),每步梯度逼近算法是每次狀態(tài)轉(zhuǎn)移都更新一次參數(shù)。這兩個(gè)算法雖然很好的避開了“維數(shù)災(zāi)”和“模型災(zāi)”的問題,但它們也有其局限的地方:在再生環(huán)梯度逼近算法中,狀態(tài)空間比較大時(shí),再生環(huán)相應(yīng)增大,更新緩慢,導(dǎo)致較低的計(jì)算效率,同時(shí)帶來比較大的方差;在每步梯度逼近算法中,由于每做一次轉(zhuǎn)移,算法進(jìn)行一次更新,這洋計(jì)算量就會(huì)比較大,甚至有些實(shí)際系統(tǒng)是無法實(shí)現(xiàn)的。本文為了解決現(xiàn)有方法的這些不足,提出了Markov報(bào)酬過程、自適應(yīng)Markov報(bào)酬過程以及隨機(jī)策略的Markov決策過程的雙時(shí)間尺度梯度逼近算法。算法主要思想是,在給定的更新周期上更新參數(shù),而這個(gè)給定的更新周期序列是由兩個(gè)時(shí)間尺度通過計(jì)算獲得的,并且是個(gè)遞增序列。算法的特點(diǎn)是開始更新較快,隨后更新頻率慢慢降低。這個(gè)特點(diǎn)帶來的好處就是,在最初的更新中,算法結(jié)合了每步逼近算法的優(yōu)點(diǎn),更新較快,并且方差很小,有助于參數(shù)較快地收斂到最優(yōu)值附近,同時(shí)將方差降低到一個(gè)很小的范圍內(nèi);在隨后的更新中,算法更新頻率降低,經(jīng)過很多次的狀態(tài)轉(zhuǎn)移參數(shù)才會(huì)更新一次,一次更新中獲得的信息量比較多,有助于估值準(zhǔn)確性的提高,提高了收斂精度,同時(shí)降低了計(jì)算量。并且在較弱的假設(shè)下,從理論上證明了算法的收斂性。無線多媒體通信網(wǎng)絡(luò)問題是近期的研究熱點(diǎn),目前仍存在大量瓶頸問題。本文在上述理論研究的基礎(chǔ)上,研究OVSF-CDMA系統(tǒng)中動(dòng)態(tài)編碼分配的呼叫容許接入控制問題和有QoS指標(biāo)約束下的CDMA系統(tǒng)的呼叫容許接入控制問題的建模和優(yōu)化。通過將問題建模為Markov決策過程,提出一種在線學(xué)習(xí)估計(jì)策略梯度,隨機(jī)逼近優(yōu)化容許接入策略的在線算法,利用雙時(shí)間尺度的技術(shù)降低計(jì)算復(fù)雜度,提高收斂速度。并且這個(gè)算法不依賴于系統(tǒng)的具體參數(shù),具有較強(qiáng)的適應(yīng)性,可以適用于復(fù)雜應(yīng)用環(huán)境中的無線多媒體通信網(wǎng)的呼叫容許接入控制的在線優(yōu)化,具有較高的應(yīng)用價(jià)值。
【學(xué)位單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：博士
【學(xué)位年份】：2009
【中圖分類】：N941.4
【部分圖文】：

思路,靈敏度

{13!基于性能勢和實(shí)現(xiàn)因子可以在線估計(jì)的特性，給出了性能勢，實(shí)現(xiàn)因子，性能梯度的幾種估計(jì)方法。對于基于靈敏度觀點(diǎn)的優(yōu)化，我們可以引用文獻(xiàn){ls]中的圖1一1來概括。由圖1一1可見，強(qiáng)化學(xué)習(xí)為性能勢的在線估計(jì)提供了方法，性能勢為兩個(gè)靈敏度公式莫定了基礎(chǔ)，基于性能差公式可以得到Markov決策過程的策略迭代算法以及在線的策略迭代算法，還可以得到隨機(jī)控制中的最優(yōu)性方程與在線優(yōu)化算法�；谛阅軐�(dǎo)數(shù)公式，可以得到策略梯度估計(jì)方法以及攝動(dòng)分析的一些結(jié)果，進(jìn)而設(shè)計(jì)在線的梯度優(yōu)化算法。圖1一1基于靈敏度觀點(diǎn)的優(yōu)化思路1.3神經(jīng)元?jiǎng)討B(tài)規(guī)劃目前比較成熟的Markov系統(tǒng)的優(yōu)化控制方法是傳統(tǒng)的動(dòng)態(tài)規(guī)劃方法。這個(gè)方法首先利用Bellman方程建立最優(yōu)性方程，再通過迭代計(jì)算求出最優(yōu)性能{7}。尋優(yōu)的過程依賴狀態(tài)空間中每個(gè)狀態(tài)的報(bào)酬函數(shù)和行動(dòng)值函數(shù)，以及Markov系統(tǒng)的精確模型。而在某些實(shí)際問題中，系統(tǒng)的狀態(tài)空間往往非常大，并且系統(tǒng)運(yùn)行機(jī)制也往往很難精確描述

CAC算法,梯度,逼近算法,策略

SuboPtimal tWOtime一sCals圖5一1雙時(shí)間尺度策略梯度CAC算法與傳統(tǒng)的四個(gè)算法的出較可以看出這個(gè)算法得到的值最接近最優(yōu)算法得到的值。圖5一2演示了再生環(huán)梯度逼近算法、每步梯度逼近算法和雙時(shí)間尺度梯度逼近算法的區(qū)別，可以看出我們的算法能夠達(dá)到更快的收斂速度，更小的樣本方差。為了比較三種梯度逼近算法的計(jì)算復(fù)雜度，我們計(jì)算每個(gè)算法的迭代次數(shù)，考慮到對于再生環(huán)梯度逼近算法，每條樣本軌道上的再生環(huán)個(gè)數(shù)并不相同，所以我們仿真30個(gè)樣本軌道，選擇迭代次數(shù)的平均值，作為比較的依據(jù)。每步梯度逼近算法、再生環(huán)梯度逼近算法和雙時(shí)間尺度梯度逼近算法的迭代次數(shù)分別是20，000，000、375
【參考文獻(xiàn)】

相關(guān)期刊論文前1條

1 ;Performance Potential-based Neuro-dynamic Programming for SMDPs[J];自動(dòng)化學(xué)報(bào);2005年04期

相關(guān)博士學(xué)位論文前1條

1 李衍杰;擴(kuò)展Markov決策過程的性能靈敏度分析與優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2006年

本文編號：2866380

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.lk138.cn/projectlw/xtxlw/2866380.html

上一篇：復(fù)雜網(wǎng)絡(luò)上的博弈演化
下一篇：基于系統(tǒng)動(dòng)力學(xué)的北京市物流系統(tǒng)分析及優(yōu)化建議

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于梯度逼近方法的Markov系統(tǒng)及其在通信中的應(yīng)用