基于強化學習的汽車協(xié)同式自適應(yīng)巡航控制技術(shù)研究
發(fā)布時間:2020-11-21 04:28
本文對協(xié)同式自適應(yīng)巡航控制中的跟馳控制算法進行了研究和建模。區(qū)別于傳統(tǒng)的PID控制方法,在本文中采用了強化學習的方法對這一問題進行了研究和實驗。本文對五車系統(tǒng)進行研究和實驗,但是在進行系統(tǒng)設(shè)計時,考慮到了系統(tǒng)設(shè)計的難度和健壯性以及可擴展性等方面,將系統(tǒng)設(shè)計為對每一輛車進行抽象概括的獨立的智能體,以使系統(tǒng)具有可作為一個車隊系統(tǒng)的子系統(tǒng)的功能,可將通信范圍內(nèi)任意多個車輛智能體組成車隊,而不僅限于五車的車隊系統(tǒng)。首先使用Q-Learning學習方法對CACC跟馳算法進行了建模和研究。針對算法中使用表格對狀態(tài)動作Q值進行存儲的限制,對其中的狀態(tài)和動作進行了離散,離散精度為1。在對回報進行設(shè)計時,考慮了本時刻狀態(tài)中自車與前車的車距和期望安全車距的關(guān)系,對比于下一時刻狀態(tài)中自車與前車的車距和期望安全車距的關(guān)系,以此作為學習算法回報的設(shè)計思想。在期望安全車距的計算中,使用前車與自車的相對速度進行計算,并采用了飽和函數(shù)。學習過程中對動作的選擇使用了ε-貪婪策略,同時基于自車車輛與前車安全距離和期望安全車距的關(guān)系來對動作選擇進行指導(dǎo),形成啟發(fā)式ε-貪婪動作選擇策略的規(guī)則,對選擇過程進行剪枝,加速學習過程,避免選擇無用動作。在對基于Q-Learning的CACC跟馳控制的訓(xùn)練過程中,發(fā)現(xiàn)其學習得到的回報與學習輪次圖中,回報曲線的方差特別大。經(jīng)過分析認為是離散精度不夠?qū)е略谌≌麜r,狀態(tài)和動作存在誤差,誤差經(jīng)過積累便導(dǎo)致了曲線波動大的現(xiàn)象;诖,又將CACC跟馳控制問題引入Deep Q-Learning的領(lǐng)域。在Q-Learning方法中對Q值的表示是通過表格存儲實現(xiàn)的,在權(quán)衡運行效率和表格存儲等限制下,Q表格無法過于龐大,因此狀態(tài)和動作的離散進度無法進一步細致。因此針對于神經(jīng)網(wǎng)絡(luò)的萬能逼近的性質(zhì),采用神經(jīng)網(wǎng)絡(luò)對學習算法的Q值函數(shù)進行逼近。通過值函數(shù)逼近法將神經(jīng)網(wǎng)絡(luò)引入QLearning算法中,形成Deep Q-Learning算法。Deep Q-Learning算法避免了QLearning算法的Q表格形式,可以容納更大的狀態(tài)空間和動作空間。在這種情況下,對狀態(tài)和動作的離散精度設(shè)置為0.1,同時也增加了狀態(tài)的維度,將前車加速度信息納入到狀態(tài)變量中。基于Deep Q-Learning的CACC跟馳控制算法中的回報函數(shù)設(shè)計思想與使用QLearning的CACC跟馳控制算法中的回報函數(shù)一致,使用了考慮到前車加速度對于運動趨勢的車頭時距策略。通過訓(xùn)練,得到了較為合理的回報與學習輪次的曲線。在對比試驗中,兩種CACC方法皆展現(xiàn)出了協(xié)同式的優(yōu)點,即車隊系統(tǒng)中車輛對于運動趨勢變化的反應(yīng)較為一致。但是基于Q-Learning的方法較基于Deep Q-Learning的方法明顯動作“生硬”,也能夠表示基于Deep Q-Learning的CACC跟馳控制方法更加貼近在實際中應(yīng)用。然而本文中基于Deep Q-Learning的CACC跟馳控制方法也存在缺點,車輛控制畢竟是一種連續(xù)控制問題,對狀態(tài)和動作進行離散多少會產(chǎn)生誤差,因此在接下來的工作中也會對基于連續(xù)控制的強化學習方法進行研究和學習。
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:U463.6
【部分圖文】:
基于 Q-Learning 的 CACC 技景到行為的映射,以最大化一個數(shù)字獎采取什么樣的行動,而是通過與環(huán)境的體)自身利益的行為,以產(chǎn)生最大的回不僅可以直接對獎勵的程度產(chǎn)生影響,后續(xù)的獎勵產(chǎn)生影響。上述兩個特點被最重要的兩個特征。與機器學習中的監(jiān)要從數(shù)據(jù)中找到隱藏的結(jié)構(gòu),而是試圖拜托人類的先驗知識,使智能體在設(shè)定略以解決問題。這種目標導(dǎo)向的學習被
Q-Learning結(jié)構(gòu)
.3 基于 Q-learning 的 CACC 跟馳算法一輪學習過種不斷試錯的方式進行模型訓(xùn)練的過程不可能使模型的訓(xùn)練數(shù)據(jù)使用模擬器生成。車輛模型器軟件車交互進行,其中頭車行駛態(tài)勢的數(shù)據(jù)由 Carsim的狀態(tài)數(shù)據(jù)(包括該時間片處頭車速度 ,和該位置與后車位置計算兩車距離來代替后車的傳感
【參考文獻】
本文編號:2892524
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:U463.6
【部分圖文】:
基于 Q-Learning 的 CACC 技景到行為的映射,以最大化一個數(shù)字獎采取什么樣的行動,而是通過與環(huán)境的體)自身利益的行為,以產(chǎn)生最大的回不僅可以直接對獎勵的程度產(chǎn)生影響,后續(xù)的獎勵產(chǎn)生影響。上述兩個特點被最重要的兩個特征。與機器學習中的監(jiān)要從數(shù)據(jù)中找到隱藏的結(jié)構(gòu),而是試圖拜托人類的先驗知識,使智能體在設(shè)定略以解決問題。這種目標導(dǎo)向的學習被
Q-Learning結(jié)構(gòu)
.3 基于 Q-learning 的 CACC 跟馳算法一輪學習過種不斷試錯的方式進行模型訓(xùn)練的過程不可能使模型的訓(xùn)練數(shù)據(jù)使用模擬器生成。車輛模型器軟件車交互進行,其中頭車行駛態(tài)勢的數(shù)據(jù)由 Carsim的狀態(tài)數(shù)據(jù)(包括該時間片處頭車速度 ,和該位置與后車位置計算兩車距離來代替后車的傳感
【參考文獻】
相關(guān)期刊論文 前1條
1 王燦;馬鈞;;汽車CACC系統(tǒng)的車頭時距策略研究[J];農(nóng)業(yè)裝備與車輛工程;2015年02期
本文編號:2892524
本文鏈接:http://www.lk138.cn/kejilunwen/qiche/2892524.html
最近更新
教材專著