基于強化學習的汽車協(xié)同式自適應巡航控制技術研究
發(fā)布時間:2020-11-21 04:28
本文對協(xié)同式自適應巡航控制中的跟馳控制算法進行了研究和建模。區(qū)別于傳統(tǒng)的PID控制方法,在本文中采用了強化學習的方法對這一問題進行了研究和實驗。本文對五車系統(tǒng)進行研究和實驗,但是在進行系統(tǒng)設計時,考慮到了系統(tǒng)設計的難度和健壯性以及可擴展性等方面,將系統(tǒng)設計為對每一輛車進行抽象概括的獨立的智能體,以使系統(tǒng)具有可作為一個車隊系統(tǒng)的子系統(tǒng)的功能,可將通信范圍內任意多個車輛智能體組成車隊,而不僅限于五車的車隊系統(tǒng)。首先使用Q-Learning學習方法對CACC跟馳算法進行了建模和研究。針對算法中使用表格對狀態(tài)動作Q值進行存儲的限制,對其中的狀態(tài)和動作進行了離散,離散精度為1。在對回報進行設計時,考慮了本時刻狀態(tài)中自車與前車的車距和期望安全車距的關系,對比于下一時刻狀態(tài)中自車與前車的車距和期望安全車距的關系,以此作為學習算法回報的設計思想。在期望安全車距的計算中,使用前車與自車的相對速度進行計算,并采用了飽和函數(shù)。學習過程中對動作的選擇使用了ε-貪婪策略,同時基于自車車輛與前車安全距離和期望安全車距的關系來對動作選擇進行指導,形成啟發(fā)式ε-貪婪動作選擇策略的規(guī)則,對選擇過程進行剪枝,加速學習過程,避免選擇無用動作。在對基于Q-Learning的CACC跟馳控制的訓練過程中,發(fā)現(xiàn)其學習得到的回報與學習輪次圖中,回報曲線的方差特別大。經(jīng)過分析認為是離散精度不夠導致在取整時,狀態(tài)和動作存在誤差,誤差經(jīng)過積累便導致了曲線波動大的現(xiàn)象;诖,又將CACC跟馳控制問題引入Deep Q-Learning的領域。在Q-Learning方法中對Q值的表示是通過表格存儲實現(xiàn)的,在權衡運行效率和表格存儲等限制下,Q表格無法過于龐大,因此狀態(tài)和動作的離散進度無法進一步細致。因此針對于神經(jīng)網(wǎng)絡的萬能逼近的性質,采用神經(jīng)網(wǎng)絡對學習算法的Q值函數(shù)進行逼近。通過值函數(shù)逼近法將神經(jīng)網(wǎng)絡引入QLearning算法中,形成Deep Q-Learning算法。Deep Q-Learning算法避免了QLearning算法的Q表格形式,可以容納更大的狀態(tài)空間和動作空間。在這種情況下,對狀態(tài)和動作的離散精度設置為0.1,同時也增加了狀態(tài)的維度,將前車加速度信息納入到狀態(tài)變量中;贒eep Q-Learning的CACC跟馳控制算法中的回報函數(shù)設計思想與使用QLearning的CACC跟馳控制算法中的回報函數(shù)一致,使用了考慮到前車加速度對于運動趨勢的車頭時距策略。通過訓練,得到了較為合理的回報與學習輪次的曲線。在對比試驗中,兩種CACC方法皆展現(xiàn)出了協(xié)同式的優(yōu)點,即車隊系統(tǒng)中車輛對于運動趨勢變化的反應較為一致。但是基于Q-Learning的方法較基于Deep Q-Learning的方法明顯動作“生硬”,也能夠表示基于Deep Q-Learning的CACC跟馳控制方法更加貼近在實際中應用。然而本文中基于Deep Q-Learning的CACC跟馳控制方法也存在缺點,車輛控制畢竟是一種連續(xù)控制問題,對狀態(tài)和動作進行離散多少會產(chǎn)生誤差,因此在接下來的工作中也會對基于連續(xù)控制的強化學習方法進行研究和學習。
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:U463.6
【部分圖文】:
基于 Q-Learning 的 CACC 技景到行為的映射,以最大化一個數(shù)字獎采取什么樣的行動,而是通過與環(huán)境的體)自身利益的行為,以產(chǎn)生最大的回不僅可以直接對獎勵的程度產(chǎn)生影響,后續(xù)的獎勵產(chǎn)生影響。上述兩個特點被最重要的兩個特征。與機器學習中的監(jiān)要從數(shù)據(jù)中找到隱藏的結構,而是試圖拜托人類的先驗知識,使智能體在設定略以解決問題。這種目標導向的學習被
Q-Learning結構
.3 基于 Q-learning 的 CACC 跟馳算法一輪學習過種不斷試錯的方式進行模型訓練的過程不可能使模型的訓練數(shù)據(jù)使用模擬器生成。車輛模型器軟件車交互進行,其中頭車行駛態(tài)勢的數(shù)據(jù)由 Carsim的狀態(tài)數(shù)據(jù)(包括該時間片處頭車速度 ,和該位置與后車位置計算兩車距離來代替后車的傳感
【參考文獻】
本文編號:2892524
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:U463.6
【部分圖文】:
基于 Q-Learning 的 CACC 技景到行為的映射,以最大化一個數(shù)字獎采取什么樣的行動,而是通過與環(huán)境的體)自身利益的行為,以產(chǎn)生最大的回不僅可以直接對獎勵的程度產(chǎn)生影響,后續(xù)的獎勵產(chǎn)生影響。上述兩個特點被最重要的兩個特征。與機器學習中的監(jiān)要從數(shù)據(jù)中找到隱藏的結構,而是試圖拜托人類的先驗知識,使智能體在設定略以解決問題。這種目標導向的學習被
Q-Learning結構
.3 基于 Q-learning 的 CACC 跟馳算法一輪學習過種不斷試錯的方式進行模型訓練的過程不可能使模型的訓練數(shù)據(jù)使用模擬器生成。車輛模型器軟件車交互進行,其中頭車行駛態(tài)勢的數(shù)據(jù)由 Carsim的狀態(tài)數(shù)據(jù)(包括該時間片處頭車速度 ,和該位置與后車位置計算兩車距離來代替后車的傳感
【參考文獻】
相關期刊論文 前1條
1 王燦;馬鈞;;汽車CACC系統(tǒng)的車頭時距策略研究[J];農業(yè)裝備與車輛工程;2015年02期
本文編號:2892524
本文鏈接:http://lk138.cn/kejilunwen/qiche/2892524.html
最近更新
教材專著