基于DDQN的運(yùn)載火箭姿態(tài)控制器參數(shù)設(shè)計(jì)
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
圖1俯仰通道姿控系統(tǒng)閉環(huán)回路結(jié)構(gòu)圖
要進(jìn)行火箭姿態(tài)控制器設(shè)計(jì)首先要建立姿控系統(tǒng)的頻域分析模型?刂撇呗赃x擇工程上常用的基于“小擾動(dòng)線性化”的增益預(yù)置法。本文僅考慮俯仰通道,整個(gè)姿控系統(tǒng)閉環(huán)回路的結(jié)構(gòu)如圖1所示[9]。
圖2智能體訓(xùn)練算法流程圖
首先初始化記憶回放單元D和兩個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θ和θ-,開(kāi)始進(jìn)行實(shí)驗(yàn)。每次實(shí)驗(yàn)智能體最多可進(jìn)行1500次調(diào)參。每次調(diào)參后,頻域分析得到的裕度值作為狀態(tài)st經(jīng)過(guò)式(16)預(yù)處理,得到,將其作為當(dāng)前值網(wǎng)絡(luò)的輸入,輸出各動(dòng)作的狀態(tài)行為值,使用ε-greedy算法選擇動(dòng)作at并執(zhí)行,得到下....
圖3累計(jì)誤差變化隨訓(xùn)練次數(shù)變化曲線
當(dāng)網(wǎng)絡(luò)在一定程度上收斂時(shí)結(jié)束智能體訓(xùn)練。訓(xùn)練累計(jì)誤差結(jié)果如圖3所示。訓(xùn)練開(kāi)始時(shí)誤差較大,累計(jì)變化的斜率很大,隨著訓(xùn)練次數(shù)的增多,誤差減小,斜率放緩。每次實(shí)驗(yàn)的累計(jì)回報(bào)隨訓(xùn)練次數(shù)的變化曲線如圖4所示,經(jīng)過(guò)一定量的實(shí)驗(yàn)后單次實(shí)驗(yàn)的累計(jì)回報(bào)能相對(duì)穩(wěn)定在20左右。由于智能體的探索以及其他....
圖4單次實(shí)驗(yàn)累計(jì)回報(bào)隨實(shí)驗(yàn)次數(shù)變化曲線
由于火箭姿態(tài)控制器參數(shù)設(shè)計(jì)沒(méi)有嚴(yán)格意義上的最優(yōu)參數(shù)集合,所以理論上控制器的可行參數(shù)集合有無(wú)窮個(gè)。訓(xùn)練的目的就是讓智能體模擬人類設(shè)計(jì)師的設(shè)計(jì)過(guò)程,在不斷調(diào)整參數(shù)分析系統(tǒng)性能的過(guò)程中,逐漸變得“老道”,從而成為一位優(yōu)秀的控制器“設(shè)計(jì)師”。3.2智能體前向測(cè)試
本文編號(hào):3999568
本文鏈接:http://www.lk138.cn/kejilunwen/hangkongsky/3999568.html