中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

強(qiáng)化學(xué)習(xí)遷移中的源任務(wù)選擇研究

發(fā)布時間:2020-03-28 09:36
【摘要】:強(qiáng)化學(xué)習(xí)是解決順序決策問題的一類重要的機(jī)器學(xué)習(xí)技術(shù),經(jīng)過幾十年的發(fā)展已經(jīng)成功應(yīng)用于自動控制、機(jī)器人、推薦和檢索等諸多領(lǐng)域。近年來,使用遷移學(xué)習(xí)方法來解決強(qiáng)化學(xué)習(xí)任務(wù)的研究表明,從源任務(wù)中學(xué)到的知識可以用來更好地解決類似的目標(biāo)任務(wù)。然而,當(dāng)進(jìn)行遷移學(xué)習(xí)的源任務(wù)與目標(biāo)任務(wù)不相似時,會導(dǎo)致負(fù)遷移的發(fā)生,但是很少有研究關(guān)注如何防止負(fù)遷移,因此該問題仍然是一個開放性的問題。目前大部分遷移學(xué)習(xí)方法假設(shè)相似的源任務(wù)是由人來選擇的;只有少量方法基于任務(wù)相似性度量選擇最相似的源任務(wù),但是這些方法往往都有比較嚴(yán)格的前提條件;此外,目前還沒有一種明確的方法可以根據(jù)一個或多個指標(biāo)確定負(fù)遷移何時發(fā)生。本文針對強(qiáng)化學(xué)習(xí)遷移中的負(fù)遷移問題,研究如何選擇合適的源任務(wù),從不同角度提出了相應(yīng)的解決方法。其主要貢獻(xiàn)可以概括如下:1.針對強(qiáng)化學(xué)習(xí)遷移中如何選擇合適的源任務(wù)這一問題,提出了兩種新穎的基于整體模型的馬爾可夫決策過程(Markov Decision Process,MDP)間的距離度量方法。具體的,(1)這兩種度量都是基于狀態(tài)間距離的。為此,本文提出了同構(gòu)的MDP(Homogeneous MDP)的概念以及計算同構(gòu)MDP的狀態(tài)間距離的方法;(2)這兩種度量方法分別使用康托洛維奇度量(Kantorovich Metric)和豪斯多夫度量(Hausdorff Metric)來組合兩個MDP的狀態(tài)間的距離,以此作為兩個MDP間的距離。這兩種度量能夠用于強(qiáng)化學(xué)習(xí)遷移中,根據(jù)任務(wù)間的距離選擇合適的源任務(wù)。此外,本文還提出了兩種相應(yīng)的值函數(shù)遷移方法。在通用的實驗場景上的實驗結(jié)果表明,本文提出的度量能夠有效地找到相似任務(wù),避免負(fù)遷移;同時,所提出的度量和遷移方法能夠顯著提升算法的學(xué)習(xí)性能。2.針對強(qiáng)化學(xué)習(xí)遷移中如何判斷遷移學(xué)習(xí)是否有效這一問題,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)模型的識別一對遷移任務(wù)的正負(fù)遷移性能的方法。本文研究一類視頻強(qiáng)化學(xué)習(xí)任務(wù)(Video Reinforcement Learning Tasks),該類任務(wù)的特征可由其任務(wù)描述圖像表示,不同任務(wù)間的相關(guān)性(或差異)能夠體現(xiàn)在圖像中。在這類任務(wù)上,將預(yù)測遷移性能(正遷移或負(fù)遷移)的問題形式化為二分類問題;然后采用一個深度卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)兩個任務(wù)的高層特征表示,并用一個全連接網(wǎng)絡(luò)預(yù)測其遷移性能。在通用的實驗場景上構(gòu)造數(shù)據(jù)集并進(jìn)行實驗,結(jié)果表明,本文所提出的方法可以準(zhǔn)確地預(yù)測遷移性能,并且顯著優(yōu)于對比方法。3.針對課程學(xué)習(xí)中如何構(gòu)造合適.的課程這一問題,提出了一類基于源任務(wù)自動創(chuàng)建和任務(wù)相似度的構(gòu)建遷移學(xué)習(xí)任務(wù)序列的方法。其主要創(chuàng)新點有:(1)基于面向?qū)ο蟮膹?qiáng)化學(xué)習(xí)任務(wù)表示(Object-Oriented Representation),提出了三種簡化任務(wù)的算子,用于修改目標(biāo)任務(wù)生成源任務(wù)集合。(2)針對使用不同算子修改的任務(wù),提出了相應(yīng)的任務(wù)相似性度量方法,這些度量都是基于面向?qū)ο蟮谋硎?根據(jù)對象、狀態(tài)等的相似性和差異性進(jìn)行定義;同時,結(jié)合任務(wù)的難易程度定義了任務(wù)遷移潛能。(3)提出了兩種基于遷移潛能的任務(wù)序列自動構(gòu)造方法。在通用的實驗場景上的實驗結(jié)果表明,本文所提出的方法能夠構(gòu)造較好的任務(wù)序列,顯著提升目標(biāo)任務(wù)的學(xué)習(xí)速度,并且優(yōu)于現(xiàn)有的最新算法。
【圖文】:

源任務(wù),目標(biāo)任務(wù),目標(biāo)


識遷移到目標(biāo)任務(wù),來改變目標(biāo)任務(wù)的學(xué)習(xí)過程;這相當(dāng)于智能體在學(xué)習(xí)之前逡逑獲得了一些先驗知識,以指導(dǎo)其更好的進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)遷移的基本框架如逡逑圖1.2所示。通常,強(qiáng)化學(xué)習(xí)遷移的過程可以分為三個步驟:(1)根據(jù)目標(biāo)任逡逑務(wù),選擇合適的一個或多個源任務(wù)(和源任務(wù)中學(xué)到的知識);(2)獲得源任務(wù)逡逑和目標(biāo)任務(wù)之間的相關(guān)性,根據(jù)該相關(guān)性生成遷移知識;(3)將遷移知識遷移逡逑到目標(biāo)任務(wù),學(xué)習(xí)目標(biāo)任務(wù)。在連續(xù)的遷移場景中(如終身強(qiáng)化學(xué)習(xí)Lifelong逡逑Leaming[l,,24,邋151]),智能體學(xué)好目標(biāo)任務(wù)后,可以將該任務(wù)及學(xué)到的知識也逡逑存入源任務(wù)庫中,在未來遇到相似的新任務(wù)時復(fù)用該任務(wù)的知識(如圖中虛線逡逑所示)。逡逑CT邋>邋知識邋A邋^邐邋/邐A邋邐逡逑源任務(wù)庫知識K-2^遷移算法-移-知%目標(biāo)任務(wù)一*學(xué)習(xí)算法I ̄^逡逑:邐‘邐/邐邐邋I逡逑■邐Kn邋M邐I逡逑L:.邐J逡逑圖1.2:強(qiáng)化學(xué)習(xí)遷移的基本框架逡逑我們知道,如果源任務(wù)與目標(biāo)任務(wù)相似,那么從源任務(wù)遷移知識到目標(biāo)任逡逑務(wù),很可能會提高智能體在目標(biāo)任務(wù)的學(xué)習(xí)性能;反之,如果源任務(wù)和目標(biāo)任逡逑務(wù)不相似

組織結(jié)構(gòu)圖,組織結(jié)構(gòu),源任務(wù),負(fù)遷移


本文主要針對強(qiáng)化學(xué)習(xí)遷移中的負(fù)遷移問題,研究如何選擇合適的源任務(wù),逡逑從不同角度提出了相應(yīng)的解決方法。全文共六章,各章的組織結(jié)構(gòu)和主要研究逡逑內(nèi)容如圖1.3所示。其具體研宄內(nèi)容可以概括如下:逡逑1.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 謝超蘭;;高中英語任務(wù)型閱讀教學(xué)初探[J];青少年日記(教育教學(xué)研究);2016年08期

2 楊玲麗;;優(yōu)化方式,自主探究——“任務(wù)學(xué)習(xí)單”在綜合實踐活動中的運(yùn)用[J];華夏教師;2014年S1期

3 華芳;;例談用好“任務(wù)學(xué)習(xí)單”[J];七彩語文(教師論壇);2015年08期

4 ;介紹Jane Willis著《任務(wù)學(xué)習(xí)法概覽》[J];外語教學(xué)與研究;1998年04期

5 許棣華;王志堅;;基于多任務(wù)學(xué)習(xí)的郵件過濾系統(tǒng)的研究[J];計算機(jī)技術(shù)與發(fā)展;2010年10期

6 李松林,甘健侯;基于任務(wù)學(xué)習(xí)法的素質(zhì)教育研究[J];學(xué)術(shù)探索;2002年02期

7 余傳明;李浩男;安璐;;基于多任務(wù)深度學(xué)習(xí)的文本情感原因分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2019年01期

8 韓鳳娟;肖春靜;王歡;;基于多任務(wù)學(xué)習(xí)的微博流行度預(yù)測[J];河南大學(xué)學(xué)報(自然科學(xué)版);2017年05期

9 馬愷;;基于樹結(jié)構(gòu)的多任務(wù)學(xué)習(xí)算法[J];福建電腦;2017年09期

10 嚴(yán)育洪;;設(shè)計好“大任務(wù)”,讓學(xué)生看見“知識就是力量”[J];小學(xué)教學(xué)(數(shù)學(xué)版);2018年03期

相關(guān)會議論文 前4條

1 ;任務(wù)驅(qū)動式教學(xué)法[A];中學(xué)教育科研2017年5-6期(總第216-217期)[C];2017年

2 張宇;張鵬遠(yuǎn);顏永紅;;基于注意力LSTM和多任務(wù)學(xué)習(xí)的遠(yuǎn)場語音識別[A];第十四屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC’2017)論文集[C];2017年

3 雷加美;;英語教學(xué)中的任務(wù)型閱讀模式研究[A];十三五規(guī)劃科研成果匯編(第二卷)[C];2017年

4 田滿紅;;中級工數(shù)學(xué)課程與專業(yè)結(jié)合的教學(xué)實踐[A];中國職協(xié)2016年度優(yōu)秀科研成果獲獎?wù)撐募▽W(xué)校二等獎)[C];2016年

相關(guān)重要報紙文章 前6條

1 江蘇省無錫市錫山教師進(jìn)修學(xué)校 嚴(yán)育洪;尋找撬起課堂的支點[N];中國教師報;2017年

2 記者 徐愛龍;緊抓首要政治任務(wù)學(xué)習(xí)宣傳貫徹好十八大精神 緊密聯(lián)系自身實際主動服務(wù)全面小康社會建設(shè)[N];甘肅日報;2012年

3 記者 徐愛龍;緊抓首要政治任務(wù)學(xué)習(xí)宣傳貫徹好十八大精神 緊密聯(lián)系自身實際主動服務(wù)全面小康社會建設(shè)[N];甘肅法制報;2012年

4 浙江省特級教師、金華市教育局教研室副主任 朱孝平;“完美”學(xué)習(xí)任務(wù)源自生動實踐[N];中國教育報;2019年

5 本報記者 朱穎婕;課堂如何跟上“超越課本”的學(xué)生[N];文匯報;2018年

6 撰稿 段麗 策劃 吉奉剛;MVP注入發(fā)展新動力[N];中國郵政報;2012年

相關(guān)博士學(xué)位論文 前5條

1 宋錦華;強(qiáng)化學(xué)習(xí)遷移中的源任務(wù)選擇研究[D];南京大學(xué);2018年

2 張曉彤;多任務(wù)聚類研究[D];大連理工大學(xué);2018年

3 李亞;多任務(wù)學(xué)習(xí)的研究[D];中國科學(xué)技術(shù)大學(xué);2018年

4 浦劍;多任務(wù)學(xué)習(xí)算法研究[D];復(fù)旦大學(xué);2013年

5 楊名;矩陣廣義逆高斯分布在多任務(wù)學(xué)習(xí)中的應(yīng)用[D];浙江大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 馬建陽;基于多任務(wù)學(xué)習(xí)的數(shù)據(jù)分類方法研究[D];北京交通大學(xué);2018年

2 金鳳;多視角的構(gòu)建及其在單任務(wù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)中的應(yīng)用[D];華東師范大學(xué);2010年

3 黃艾青;基于疊加模型的多任務(wù)學(xué)習(xí)及應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2015年

4 劉凌波;基于多任務(wù)學(xué)習(xí)的年齡估計研究[D];中南大學(xué);2012年

5 戴美銀;基于動態(tài)模糊集的半監(jiān)督多任務(wù)學(xué)習(xí)[D];蘇州大學(xué);2012年

6 周茜;基于多任務(wù)學(xué)習(xí)的人臉識別方法[D];西北大學(xué);2013年

7 鄒亮;基于多任務(wù)學(xué)習(xí)的微博信息流重排序研究[D];西安電子科技大學(xué);2017年

8 曹佳炯;基于多任務(wù)學(xué)習(xí)和度量學(xué)習(xí)的人臉屬性分類研究[D];浙江大學(xué);2018年

9 田貝貝;基于流形學(xué)習(xí)和多任務(wù)學(xué)習(xí)的腫瘤基因表達(dá)數(shù)據(jù)分類方法研究[D];武漢科技大學(xué);2015年

10 羅忠莉;網(wǎng)絡(luò)環(huán)境下任務(wù)牽引式教學(xué)在初中信息技術(shù)課程中的應(yīng)用探究[D];云南師范大學(xué);2017年



本文編號:2604268

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2604268.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b902b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com