基于強(qiáng)化學(xué)習(xí)的汽車協(xié)同式自適應(yīng)巡航控制技術(shù)研究
發(fā)布時(shí)間:2020-11-21 04:28
本文對(duì)協(xié)同式自適應(yīng)巡航控制中的跟馳控制算法進(jìn)行了研究和建模。區(qū)別于傳統(tǒng)的PID控制方法,在本文中采用了強(qiáng)化學(xué)習(xí)的方法對(duì)這一問題進(jìn)行了研究和實(shí)驗(yàn)。本文對(duì)五車系統(tǒng)進(jìn)行研究和實(shí)驗(yàn),但是在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí),考慮到了系統(tǒng)設(shè)計(jì)的難度和健壯性以及可擴(kuò)展性等方面,將系統(tǒng)設(shè)計(jì)為對(duì)每一輛車進(jìn)行抽象概括的獨(dú)立的智能體,以使系統(tǒng)具有可作為一個(gè)車隊(duì)系統(tǒng)的子系統(tǒng)的功能,可將通信范圍內(nèi)任意多個(gè)車輛智能體組成車隊(duì),而不僅限于五車的車隊(duì)系統(tǒng)。首先使用Q-Learning學(xué)習(xí)方法對(duì)CACC跟馳算法進(jìn)行了建模和研究。針對(duì)算法中使用表格對(duì)狀態(tài)動(dòng)作Q值進(jìn)行存儲(chǔ)的限制,對(duì)其中的狀態(tài)和動(dòng)作進(jìn)行了離散,離散精度為1。在對(duì)回報(bào)進(jìn)行設(shè)計(jì)時(shí),考慮了本時(shí)刻狀態(tài)中自車與前車的車距和期望安全車距的關(guān)系,對(duì)比于下一時(shí)刻狀態(tài)中自車與前車的車距和期望安全車距的關(guān)系,以此作為學(xué)習(xí)算法回報(bào)的設(shè)計(jì)思想。在期望安全車距的計(jì)算中,使用前車與自車的相對(duì)速度進(jìn)行計(jì)算,并采用了飽和函數(shù)。學(xué)習(xí)過程中對(duì)動(dòng)作的選擇使用了ε-貪婪策略,同時(shí)基于自車車輛與前車安全距離和期望安全車距的關(guān)系來對(duì)動(dòng)作選擇進(jìn)行指導(dǎo),形成啟發(fā)式ε-貪婪動(dòng)作選擇策略的規(guī)則,對(duì)選擇過程進(jìn)行剪枝,加速學(xué)習(xí)過程,避免選擇無用動(dòng)作。在對(duì)基于Q-Learning的CACC跟馳控制的訓(xùn)練過程中,發(fā)現(xiàn)其學(xué)習(xí)得到的回報(bào)與學(xué)習(xí)輪次圖中,回報(bào)曲線的方差特別大。經(jīng)過分析認(rèn)為是離散精度不夠?qū)е略谌≌麜r(shí),狀態(tài)和動(dòng)作存在誤差,誤差經(jīng)過積累便導(dǎo)致了曲線波動(dòng)大的現(xiàn)象;诖,又將CACC跟馳控制問題引入Deep Q-Learning的領(lǐng)域。在Q-Learning方法中對(duì)Q值的表示是通過表格存儲(chǔ)實(shí)現(xiàn)的,在權(quán)衡運(yùn)行效率和表格存儲(chǔ)等限制下,Q表格無法過于龐大,因此狀態(tài)和動(dòng)作的離散進(jìn)度無法進(jìn)一步細(xì)致。因此針對(duì)于神經(jīng)網(wǎng)絡(luò)的萬能逼近的性質(zhì),采用神經(jīng)網(wǎng)絡(luò)對(duì)學(xué)習(xí)算法的Q值函數(shù)進(jìn)行逼近。通過值函數(shù)逼近法將神經(jīng)網(wǎng)絡(luò)引入QLearning算法中,形成Deep Q-Learning算法。Deep Q-Learning算法避免了QLearning算法的Q表格形式,可以容納更大的狀態(tài)空間和動(dòng)作空間。在這種情況下,對(duì)狀態(tài)和動(dòng)作的離散精度設(shè)置為0.1,同時(shí)也增加了狀態(tài)的維度,將前車加速度信息納入到狀態(tài)變量中;贒eep Q-Learning的CACC跟馳控制算法中的回報(bào)函數(shù)設(shè)計(jì)思想與使用QLearning的CACC跟馳控制算法中的回報(bào)函數(shù)一致,使用了考慮到前車加速度對(duì)于運(yùn)動(dòng)趨勢(shì)的車頭時(shí)距策略。通過訓(xùn)練,得到了較為合理的回報(bào)與學(xué)習(xí)輪次的曲線。在對(duì)比試驗(yàn)中,兩種CACC方法皆展現(xiàn)出了協(xié)同式的優(yōu)點(diǎn),即車隊(duì)系統(tǒng)中車輛對(duì)于運(yùn)動(dòng)趨勢(shì)變化的反應(yīng)較為一致。但是基于Q-Learning的方法較基于Deep Q-Learning的方法明顯動(dòng)作“生硬”,也能夠表示基于Deep Q-Learning的CACC跟馳控制方法更加貼近在實(shí)際中應(yīng)用。然而本文中基于Deep Q-Learning的CACC跟馳控制方法也存在缺點(diǎn),車輛控制畢竟是一種連續(xù)控制問題,對(duì)狀態(tài)和動(dòng)作進(jìn)行離散多少會(huì)產(chǎn)生誤差,因此在接下來的工作中也會(huì)對(duì)基于連續(xù)控制的強(qiáng)化學(xué)習(xí)方法進(jìn)行研究和學(xué)習(xí)。
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:U463.6
【部分圖文】:
基于 Q-Learning 的 CACC 技景到行為的映射,以最大化一個(gè)數(shù)字獎(jiǎng)采取什么樣的行動(dòng),而是通過與環(huán)境的體)自身利益的行為,以產(chǎn)生最大的回不僅可以直接對(duì)獎(jiǎng)勵(lì)的程度產(chǎn)生影響,后續(xù)的獎(jiǎng)勵(lì)產(chǎn)生影響。上述兩個(gè)特點(diǎn)被最重要的兩個(gè)特征。與機(jī)器學(xué)習(xí)中的監(jiān)要從數(shù)據(jù)中找到隱藏的結(jié)構(gòu),而是試圖拜托人類的先驗(yàn)知識(shí),使智能體在設(shè)定略以解決問題。這種目標(biāo)導(dǎo)向的學(xué)習(xí)被
Q-Learning結(jié)構(gòu)
.3 基于 Q-learning 的 CACC 跟馳算法一輪學(xué)習(xí)過種不斷試錯(cuò)的方式進(jìn)行模型訓(xùn)練的過程不可能使模型的訓(xùn)練數(shù)據(jù)使用模擬器生成。車輛模型器軟件車交互進(jìn)行,其中頭車行駛態(tài)勢(shì)的數(shù)據(jù)由 Carsim的狀態(tài)數(shù)據(jù)(包括該時(shí)間片處頭車速度 ,和該位置與后車位置計(jì)算兩車距離來代替后車的傳感
【參考文獻(xiàn)】
本文編號(hào):2892524
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:U463.6
【部分圖文】:
基于 Q-Learning 的 CACC 技景到行為的映射,以最大化一個(gè)數(shù)字獎(jiǎng)采取什么樣的行動(dòng),而是通過與環(huán)境的體)自身利益的行為,以產(chǎn)生最大的回不僅可以直接對(duì)獎(jiǎng)勵(lì)的程度產(chǎn)生影響,后續(xù)的獎(jiǎng)勵(lì)產(chǎn)生影響。上述兩個(gè)特點(diǎn)被最重要的兩個(gè)特征。與機(jī)器學(xué)習(xí)中的監(jiān)要從數(shù)據(jù)中找到隱藏的結(jié)構(gòu),而是試圖拜托人類的先驗(yàn)知識(shí),使智能體在設(shè)定略以解決問題。這種目標(biāo)導(dǎo)向的學(xué)習(xí)被
Q-Learning結(jié)構(gòu)
.3 基于 Q-learning 的 CACC 跟馳算法一輪學(xué)習(xí)過種不斷試錯(cuò)的方式進(jìn)行模型訓(xùn)練的過程不可能使模型的訓(xùn)練數(shù)據(jù)使用模擬器生成。車輛模型器軟件車交互進(jìn)行,其中頭車行駛態(tài)勢(shì)的數(shù)據(jù)由 Carsim的狀態(tài)數(shù)據(jù)(包括該時(shí)間片處頭車速度 ,和該位置與后車位置計(jì)算兩車距離來代替后車的傳感
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 王燦;馬鈞;;汽車CACC系統(tǒng)的車頭時(shí)距策略研究[J];農(nóng)業(yè)裝備與車輛工程;2015年02期
本文編號(hào):2892524
本文鏈接:http://www.lk138.cn/kejilunwen/qiche/2892524.html
最近更新
教材專著