基于DDQN的運載火箭姿態(tài)控制器參數(shù)設(shè)計

發(fā)布時間：2024-07-02 02:42

　　探索了利用深度強化學(xué)習(xí)算法訓(xùn)練智能體,以代替人類工程師進行火箭姿態(tài)控制器參數(shù)的離線設(shè)計方案。建立了多特征秒的火箭頻域分析模型,選定了設(shè)計參數(shù)。選擇深度強化學(xué)習(xí)算法中的雙深度Q學(xué)習(xí)(Double Deep Q Network,DDQN)算法,通過記憶回放和時間差分迭代的方式讓智能體在與環(huán)境交互過程中不斷學(xué)習(xí)。設(shè)計了對應(yīng)的馬爾科夫決策過程模型,進行了智能體的訓(xùn)練和前向測試。結(jié)果說明該方法對于運載火箭姿控設(shè)計具有一定參考價值。

【文章頁數(shù)】：6 頁

【部分圖文】：

圖1俯仰通道姿控系統(tǒng)閉環(huán)回路結(jié)構(gòu)圖

要進行火箭姿態(tài)控制器設(shè)計首先要建立姿控系統(tǒng)的頻域分析模型�？刂撇呗赃x擇工程上常用的基于“小擾動線性化”的增益預(yù)置法。本文僅考慮俯仰通道，整個姿控系統(tǒng)閉環(huán)回路的結(jié)構(gòu)如圖1所示[9]。

圖2智能體訓(xùn)練算法流程圖

首先初始化記憶回放單元D和兩個網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θ和θ-，開始進行實驗。每次實驗智能體最多可進行1500次調(diào)參。每次調(diào)參后，頻域分析得到的裕度值作為狀態(tài)st經(jīng)過式(16)預(yù)處理，得到，將其作為當(dāng)前值網(wǎng)絡(luò)的輸入，輸出各動作的狀態(tài)行為值，使用ε-greedy算法選擇動作at并執(zhí)行，得到下....

圖3累計誤差變化隨訓(xùn)練次數(shù)變化曲線

當(dāng)網(wǎng)絡(luò)在一定程度上收斂時結(jié)束智能體訓(xùn)練。訓(xùn)練累計誤差結(jié)果如圖3所示。訓(xùn)練開始時誤差較大，累計變化的斜率很大，隨著訓(xùn)練次數(shù)的增多，誤差減小，斜率放緩。每次實驗的累計回報隨訓(xùn)練次數(shù)的變化曲線如圖4所示，經(jīng)過一定量的實驗后單次實驗的累計回報能相對穩(wěn)定在20左右。由于智能體的探索以及其他....

圖4單次實驗累計回報隨實驗次數(shù)變化曲線

由于火箭姿態(tài)控制器參數(shù)設(shè)計沒有嚴格意義上的最優(yōu)參數(shù)集合，所以理論上控制器的可行參數(shù)集合有無窮個。訓(xùn)練的目的就是讓智能體模擬人類設(shè)計師的設(shè)計過程，在不斷調(diào)整參數(shù)分析系統(tǒng)性能的過程中，逐漸變得“老道”，從而成為一位優(yōu)秀的控制器“設(shè)計師”。3.2智能體前向測試

本文編號：3999568

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/hangkongsky/3999568.html

上一篇：基于極點配置的推力矢量伺服系統(tǒng)控制策略研究
下一篇：航天飛行器電子產(chǎn)品設(shè)計工藝性提升與改進管理實踐

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于DDQN的運載火箭姿態(tài)控制器參數(shù)設(shè)計