国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

強(qiáng)化學(xué)習(xí)遷移中的源任務(wù)選擇研究

發(fā)布時(shí)間:2020-03-28 09:36
【摘要】:強(qiáng)化學(xué)習(xí)是解決順序決策問題的一類重要的機(jī)器學(xué)習(xí)技術(shù),經(jīng)過幾十年的發(fā)展已經(jīng)成功應(yīng)用于自動(dòng)控制、機(jī)器人、推薦和檢索等諸多領(lǐng)域。近年來,使用遷移學(xué)習(xí)方法來解決強(qiáng)化學(xué)習(xí)任務(wù)的研究表明,從源任務(wù)中學(xué)到的知識可以用來更好地解決類似的目標(biāo)任務(wù)。然而,當(dāng)進(jìn)行遷移學(xué)習(xí)的源任務(wù)與目標(biāo)任務(wù)不相似時(shí),會(huì)導(dǎo)致負(fù)遷移的發(fā)生,但是很少有研究關(guān)注如何防止負(fù)遷移,因此該問題仍然是一個(gè)開放性的問題。目前大部分遷移學(xué)習(xí)方法假設(shè)相似的源任務(wù)是由人來選擇的;只有少量方法基于任務(wù)相似性度量選擇最相似的源任務(wù),但是這些方法往往都有比較嚴(yán)格的前提條件;此外,目前還沒有一種明確的方法可以根據(jù)一個(gè)或多個(gè)指標(biāo)確定負(fù)遷移何時(shí)發(fā)生。本文針對強(qiáng)化學(xué)習(xí)遷移中的負(fù)遷移問題,研究如何選擇合適的源任務(wù),從不同角度提出了相應(yīng)的解決方法。其主要貢獻(xiàn)可以概括如下:1.針對強(qiáng)化學(xué)習(xí)遷移中如何選擇合適的源任務(wù)這一問題,提出了兩種新穎的基于整體模型的馬爾可夫決策過程(Markov Decision Process,MDP)間的距離度量方法。具體的,(1)這兩種度量都是基于狀態(tài)間距離的。為此,本文提出了同構(gòu)的MDP(Homogeneous MDP)的概念以及計(jì)算同構(gòu)MDP的狀態(tài)間距離的方法;(2)這兩種度量方法分別使用康托洛維奇度量(Kantorovich Metric)和豪斯多夫度量(Hausdorff Metric)來組合兩個(gè)MDP的狀態(tài)間的距離,以此作為兩個(gè)MDP間的距離。這兩種度量能夠用于強(qiáng)化學(xué)習(xí)遷移中,根據(jù)任務(wù)間的距離選擇合適的源任務(wù)。此外,本文還提出了兩種相應(yīng)的值函數(shù)遷移方法。在通用的實(shí)驗(yàn)場景上的實(shí)驗(yàn)結(jié)果表明,本文提出的度量能夠有效地找到相似任務(wù),避免負(fù)遷移;同時(shí),所提出的度量和遷移方法能夠顯著提升算法的學(xué)習(xí)性能。2.針對強(qiáng)化學(xué)習(xí)遷移中如何判斷遷移學(xué)習(xí)是否有效這一問題,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)模型的識別一對遷移任務(wù)的正負(fù)遷移性能的方法。本文研究一類視頻強(qiáng)化學(xué)習(xí)任務(wù)(Video Reinforcement Learning Tasks),該類任務(wù)的特征可由其任務(wù)描述圖像表示,不同任務(wù)間的相關(guān)性(或差異)能夠體現(xiàn)在圖像中。在這類任務(wù)上,將預(yù)測遷移性能(正遷移或負(fù)遷移)的問題形式化為二分類問題;然后采用一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)兩個(gè)任務(wù)的高層特征表示,并用一個(gè)全連接網(wǎng)絡(luò)預(yù)測其遷移性能。在通用的實(shí)驗(yàn)場景上構(gòu)造數(shù)據(jù)集并進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文所提出的方法可以準(zhǔn)確地預(yù)測遷移性能,并且顯著優(yōu)于對比方法。3.針對課程學(xué)習(xí)中如何構(gòu)造合適.的課程這一問題,提出了一類基于源任務(wù)自動(dòng)創(chuàng)建和任務(wù)相似度的構(gòu)建遷移學(xué)習(xí)任務(wù)序列的方法。其主要?jiǎng)?chuàng)新點(diǎn)有:(1)基于面向?qū)ο蟮膹?qiáng)化學(xué)習(xí)任務(wù)表示(Object-Oriented Representation),提出了三種簡化任務(wù)的算子,用于修改目標(biāo)任務(wù)生成源任務(wù)集合。(2)針對使用不同算子修改的任務(wù),提出了相應(yīng)的任務(wù)相似性度量方法,這些度量都是基于面向?qū)ο蟮谋硎?根據(jù)對象、狀態(tài)等的相似性和差異性進(jìn)行定義;同時(shí),結(jié)合任務(wù)的難易程度定義了任務(wù)遷移潛能。(3)提出了兩種基于遷移潛能的任務(wù)序列自動(dòng)構(gòu)造方法。在通用的實(shí)驗(yàn)場景上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法能夠構(gòu)造較好的任務(wù)序列,顯著提升目標(biāo)任務(wù)的學(xué)習(xí)速度,并且優(yōu)于現(xiàn)有的最新算法。
【圖文】:

源任務(wù),目標(biāo)任務(wù),目標(biāo)


識遷移到目標(biāo)任務(wù),來改變目標(biāo)任務(wù)的學(xué)習(xí)過程;這相當(dāng)于智能體在學(xué)習(xí)之前逡逑獲得了一些先驗(yàn)知識,以指導(dǎo)其更好的進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)遷移的基本框架如逡逑圖1.2所示。通常,強(qiáng)化學(xué)習(xí)遷移的過程可以分為三個(gè)步驟:(1)根據(jù)目標(biāo)任逡逑務(wù),選擇合適的一個(gè)或多個(gè)源任務(wù)(和源任務(wù)中學(xué)到的知識);(2)獲得源任務(wù)逡逑和目標(biāo)任務(wù)之間的相關(guān)性,根據(jù)該相關(guān)性生成遷移知識;(3)將遷移知識遷移逡逑到目標(biāo)任務(wù),學(xué)習(xí)目標(biāo)任務(wù)。在連續(xù)的遷移場景中(如終身強(qiáng)化學(xué)習(xí)Lifelong逡逑Leaming[l,,24,邋151]),智能體學(xué)好目標(biāo)任務(wù)后,可以將該任務(wù)及學(xué)到的知識也逡逑存入源任務(wù)庫中,在未來遇到相似的新任務(wù)時(shí)復(fù)用該任務(wù)的知識(如圖中虛線逡逑所示)。逡逑CT邋>邋知識邋A邋^邐邋/邐A邋邐逡逑源任務(wù)庫知識K-2^遷移算法-移-知%目標(biāo)任務(wù)一*學(xué)習(xí)算法I ̄^逡逑:邐‘邐/邐邐邋I逡逑■邐Kn邋M邐I逡逑L:.邐J逡逑圖1.2:強(qiáng)化學(xué)習(xí)遷移的基本框架逡逑我們知道,如果源任務(wù)與目標(biāo)任務(wù)相似,那么從源任務(wù)遷移知識到目標(biāo)任逡逑務(wù),很可能會(huì)提高智能體在目標(biāo)任務(wù)的學(xué)習(xí)性能;反之,如果源任務(wù)和目標(biāo)任逡逑務(wù)不相似

組織結(jié)構(gòu)圖,組織結(jié)構(gòu),源任務(wù),負(fù)遷移


本文主要針對強(qiáng)化學(xué)習(xí)遷移中的負(fù)遷移問題,研究如何選擇合適的源任務(wù),逡逑從不同角度提出了相應(yīng)的解決方法。全文共六章,各章的組織結(jié)構(gòu)和主要研究逡逑內(nèi)容如圖1.3所示。其具體研宄內(nèi)容可以概括如下:逡逑1.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 謝超蘭;;高中英語任務(wù)型閱讀教學(xué)初探[J];青少年日記(教育教學(xué)研究);2016年08期

2 楊玲麗;;優(yōu)化方式,自主探究——“任務(wù)學(xué)習(xí)單”在綜合實(shí)踐活動(dòng)中的運(yùn)用[J];華夏教師;2014年S1期

3 華芳;;例談?dòng)煤谩叭蝿?wù)學(xué)習(xí)單”[J];七彩語文(教師論壇);2015年08期

4 ;介紹Jane Willis著《任務(wù)學(xué)習(xí)法概覽》[J];外語教學(xué)與研究;1998年04期

5 許棣華;王志堅(jiān);;基于多任務(wù)學(xué)習(xí)的郵件過濾系統(tǒng)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年10期

6 李松林,甘健侯;基于任務(wù)學(xué)習(xí)法的素質(zhì)教育研究[J];學(xué)術(shù)探索;2002年02期

7 余傳明;李浩男;安璐;;基于多任務(wù)深度學(xué)習(xí)的文本情感原因分析[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2019年01期

8 韓鳳娟;肖春靜;王歡;;基于多任務(wù)學(xué)習(xí)的微博流行度預(yù)測[J];河南大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年05期

9 馬愷;;基于樹結(jié)構(gòu)的多任務(wù)學(xué)習(xí)算法[J];福建電腦;2017年09期

10 嚴(yán)育洪;;設(shè)計(jì)好“大任務(wù)”,讓學(xué)生看見“知識就是力量”[J];小學(xué)教學(xué)(數(shù)學(xué)版);2018年03期

相關(guān)會(huì)議論文 前4條

1 ;任務(wù)驅(qū)動(dòng)式教學(xué)法[A];中學(xué)教育科研2017年5-6期(總第216-217期)[C];2017年

2 張宇;張鵬遠(yuǎn);顏永紅;;基于注意力LSTM和多任務(wù)學(xué)習(xí)的遠(yuǎn)場語音識別[A];第十四屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC’2017)論文集[C];2017年

3 雷加美;;英語教學(xué)中的任務(wù)型閱讀模式研究[A];十三五規(guī)劃科研成果匯編(第二卷)[C];2017年

4 田滿紅;;中級工數(shù)學(xué)課程與專業(yè)結(jié)合的教學(xué)實(shí)踐[A];中國職協(xié)2016年度優(yōu)秀科研成果獲獎(jiǎng)?wù)撐募▽W(xué)校二等獎(jiǎng))[C];2016年

相關(guān)重要報(bào)紙文章 前6條

1 江蘇省無錫市錫山教師進(jìn)修學(xué)校 嚴(yán)育洪;尋找撬起課堂的支點(diǎn)[N];中國教師報(bào);2017年

2 記者 徐愛龍;緊抓首要政治任務(wù)學(xué)習(xí)宣傳貫徹好十八大精神 緊密聯(lián)系自身實(shí)際主動(dòng)服務(wù)全面小康社會(huì)建設(shè)[N];甘肅日報(bào);2012年

3 記者 徐愛龍;緊抓首要政治任務(wù)學(xué)習(xí)宣傳貫徹好十八大精神 緊密聯(lián)系自身實(shí)際主動(dòng)服務(wù)全面小康社會(huì)建設(shè)[N];甘肅法制報(bào);2012年

4 浙江省特級教師、金華市教育局教研室副主任 朱孝平;“完美”學(xué)習(xí)任務(wù)源自生動(dòng)實(shí)踐[N];中國教育報(bào);2019年

5 本報(bào)記者 朱穎婕;課堂如何跟上“超越課本”的學(xué)生[N];文匯報(bào);2018年

6 撰稿 段麗 策劃 吉奉剛;MVP注入發(fā)展新動(dòng)力[N];中國郵政報(bào);2012年

相關(guān)博士學(xué)位論文 前5條

1 宋錦華;強(qiáng)化學(xué)習(xí)遷移中的源任務(wù)選擇研究[D];南京大學(xué);2018年

2 張曉彤;多任務(wù)聚類研究[D];大連理工大學(xué);2018年

3 李亞;多任務(wù)學(xué)習(xí)的研究[D];中國科學(xué)技術(shù)大學(xué);2018年

4 浦劍;多任務(wù)學(xué)習(xí)算法研究[D];復(fù)旦大學(xué);2013年

5 楊名;矩陣廣義逆高斯分布在多任務(wù)學(xué)習(xí)中的應(yīng)用[D];浙江大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 馬建陽;基于多任務(wù)學(xué)習(xí)的數(shù)據(jù)分類方法研究[D];北京交通大學(xué);2018年

2 金鳳;多視角的構(gòu)建及其在單任務(wù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)中的應(yīng)用[D];華東師范大學(xué);2010年

3 黃艾青;基于疊加模型的多任務(wù)學(xué)習(xí)及應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2015年

4 劉凌波;基于多任務(wù)學(xué)習(xí)的年齡估計(jì)研究[D];中南大學(xué);2012年

5 戴美銀;基于動(dòng)態(tài)模糊集的半監(jiān)督多任務(wù)學(xué)習(xí)[D];蘇州大學(xué);2012年

6 周茜;基于多任務(wù)學(xué)習(xí)的人臉識別方法[D];西北大學(xué);2013年

7 鄒亮;基于多任務(wù)學(xué)習(xí)的微博信息流重排序研究[D];西安電子科技大學(xué);2017年

8 曹佳炯;基于多任務(wù)學(xué)習(xí)和度量學(xué)習(xí)的人臉屬性分類研究[D];浙江大學(xué);2018年

9 田貝貝;基于流形學(xué)習(xí)和多任務(wù)學(xué)習(xí)的腫瘤基因表達(dá)數(shù)據(jù)分類方法研究[D];武漢科技大學(xué);2015年

10 羅忠莉;網(wǎng)絡(luò)環(huán)境下任務(wù)牽引式教學(xué)在初中信息技術(shù)課程中的應(yīng)用探究[D];云南師范大學(xué);2017年



本文編號:2604268

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2604268.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b902b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
少妇高潮久久久久丙内射| 天天狠天天在线91| 欧美日韩免费一级无码| 欧美日本1区2区3区4区| 99久久区国产嫩粉| 综合一区二区图片| 亚洲日韩av伦理电影在线| 欧美日韩精品在线视频成人同性| 日韩狠人妻精品| 女女同性女同区二区在线播放| 综合极品粉嫩电影网| 小黄书成人在线观看| 色婷婷^V| 观看又黄又大又爽视频| 久久亚洲射综合| 美女高操视频在线观| 999精品国产日韩| 经典三级av影片一区二区三区| 亚洲AV无码乱码综合在线观看| 大香蕉大香蕉伊| 亚洲欧美| 中国女人和外国男人在床上桶的视频| 男人天堂av中文在线| 国产3P视频在线播放| h视频电影在线观看免费| av无码在线看网址| 嗯嗯久久久啊啊| 亚洲中文51av| 国产麻豆97| 国内激情 欧美激情| 欧美密臀一区二区三区| 日韩欧美a片在线观看| 97人人妻模特| 2019中文字幕有码无码| 国产69堂一巨二巨三直在线观看| 久久久国产的吗女人男久久久久久| 日韩视频欧美图片区| 亚洲欧美日韩第二十页| 美女福利免费观看网站| 欧美黄色网久久| 超精品在线免费观看|