強(qiáng)化學(xué)習(xí)遷移中的源任務(wù)選擇研究
【圖文】:
識遷移到目標(biāo)任務(wù),來改變目標(biāo)任務(wù)的學(xué)習(xí)過程;這相當(dāng)于智能體在學(xué)習(xí)之前逡逑獲得了一些先驗知識,以指導(dǎo)其更好的進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)遷移的基本框架如逡逑圖1.2所示。通常,強(qiáng)化學(xué)習(xí)遷移的過程可以分為三個步驟:(1)根據(jù)目標(biāo)任逡逑務(wù),選擇合適的一個或多個源任務(wù)(和源任務(wù)中學(xué)到的知識);(2)獲得源任務(wù)逡逑和目標(biāo)任務(wù)之間的相關(guān)性,根據(jù)該相關(guān)性生成遷移知識;(3)將遷移知識遷移逡逑到目標(biāo)任務(wù),學(xué)習(xí)目標(biāo)任務(wù)。在連續(xù)的遷移場景中(如終身強(qiáng)化學(xué)習(xí)Lifelong逡逑Leaming[l,,24,邋151]),智能體學(xué)好目標(biāo)任務(wù)后,可以將該任務(wù)及學(xué)到的知識也逡逑存入源任務(wù)庫中,在未來遇到相似的新任務(wù)時復(fù)用該任務(wù)的知識(如圖中虛線逡逑所示)。逡逑CT邋>邋知識邋A邋^邐邋/邐A邋邐逡逑源任務(wù)庫知識K-2^遷移算法-移-知%目標(biāo)任務(wù)一*學(xué)習(xí)算法I ̄^逡逑:邐‘邐/邐邐邋I逡逑■邐Kn邋M邐I逡逑L:.邐J逡逑圖1.2:強(qiáng)化學(xué)習(xí)遷移的基本框架逡逑我們知道,如果源任務(wù)與目標(biāo)任務(wù)相似,那么從源任務(wù)遷移知識到目標(biāo)任逡逑務(wù),很可能會提高智能體在目標(biāo)任務(wù)的學(xué)習(xí)性能;反之,如果源任務(wù)和目標(biāo)任逡逑務(wù)不相似
本文主要針對強(qiáng)化學(xué)習(xí)遷移中的負(fù)遷移問題,研究如何選擇合適的源任務(wù),逡逑從不同角度提出了相應(yīng)的解決方法。全文共六章,各章的組織結(jié)構(gòu)和主要研究逡逑內(nèi)容如圖1.3所示。其具體研宄內(nèi)容可以概括如下:逡逑1.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 謝超蘭;;高中英語任務(wù)型閱讀教學(xué)初探[J];青少年日記(教育教學(xué)研究);2016年08期
2 楊玲麗;;優(yōu)化方式,自主探究——“任務(wù)學(xué)習(xí)單”在綜合實踐活動中的運(yùn)用[J];華夏教師;2014年S1期
3 華芳;;例談用好“任務(wù)學(xué)習(xí)單”[J];七彩語文(教師論壇);2015年08期
4 ;介紹Jane Willis著《任務(wù)學(xué)習(xí)法概覽》[J];外語教學(xué)與研究;1998年04期
5 許棣華;王志堅;;基于多任務(wù)學(xué)習(xí)的郵件過濾系統(tǒng)的研究[J];計算機(jī)技術(shù)與發(fā)展;2010年10期
6 李松林,甘健侯;基于任務(wù)學(xué)習(xí)法的素質(zhì)教育研究[J];學(xué)術(shù)探索;2002年02期
7 余傳明;李浩男;安璐;;基于多任務(wù)深度學(xué)習(xí)的文本情感原因分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2019年01期
8 韓鳳娟;肖春靜;王歡;;基于多任務(wù)學(xué)習(xí)的微博流行度預(yù)測[J];河南大學(xué)學(xué)報(自然科學(xué)版);2017年05期
9 馬愷;;基于樹結(jié)構(gòu)的多任務(wù)學(xué)習(xí)算法[J];福建電腦;2017年09期
10 嚴(yán)育洪;;設(shè)計好“大任務(wù)”,讓學(xué)生看見“知識就是力量”[J];小學(xué)教學(xué)(數(shù)學(xué)版);2018年03期
相關(guān)會議論文 前4條
1 ;任務(wù)驅(qū)動式教學(xué)法[A];中學(xué)教育科研2017年5-6期(總第216-217期)[C];2017年
2 張宇;張鵬遠(yuǎn);顏永紅;;基于注意力LSTM和多任務(wù)學(xué)習(xí)的遠(yuǎn)場語音識別[A];第十四屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC’2017)論文集[C];2017年
3 雷加美;;英語教學(xué)中的任務(wù)型閱讀模式研究[A];十三五規(guī)劃科研成果匯編(第二卷)[C];2017年
4 田滿紅;;中級工數(shù)學(xué)課程與專業(yè)結(jié)合的教學(xué)實踐[A];中國職協(xié)2016年度優(yōu)秀科研成果獲獎?wù)撐募▽W(xué)校二等獎)[C];2016年
相關(guān)重要報紙文章 前6條
1 江蘇省無錫市錫山教師進(jìn)修學(xué)校 嚴(yán)育洪;尋找撬起課堂的支點[N];中國教師報;2017年
2 記者 徐愛龍;緊抓首要政治任務(wù)學(xué)習(xí)宣傳貫徹好十八大精神 緊密聯(lián)系自身實際主動服務(wù)全面小康社會建設(shè)[N];甘肅日報;2012年
3 記者 徐愛龍;緊抓首要政治任務(wù)學(xué)習(xí)宣傳貫徹好十八大精神 緊密聯(lián)系自身實際主動服務(wù)全面小康社會建設(shè)[N];甘肅法制報;2012年
4 浙江省特級教師、金華市教育局教研室副主任 朱孝平;“完美”學(xué)習(xí)任務(wù)源自生動實踐[N];中國教育報;2019年
5 本報記者 朱穎婕;課堂如何跟上“超越課本”的學(xué)生[N];文匯報;2018年
6 撰稿 段麗 策劃 吉奉剛;MVP注入發(fā)展新動力[N];中國郵政報;2012年
相關(guān)博士學(xué)位論文 前5條
1 宋錦華;強(qiáng)化學(xué)習(xí)遷移中的源任務(wù)選擇研究[D];南京大學(xué);2018年
2 張曉彤;多任務(wù)聚類研究[D];大連理工大學(xué);2018年
3 李亞;多任務(wù)學(xué)習(xí)的研究[D];中國科學(xué)技術(shù)大學(xué);2018年
4 浦劍;多任務(wù)學(xué)習(xí)算法研究[D];復(fù)旦大學(xué);2013年
5 楊名;矩陣廣義逆高斯分布在多任務(wù)學(xué)習(xí)中的應(yīng)用[D];浙江大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 馬建陽;基于多任務(wù)學(xué)習(xí)的數(shù)據(jù)分類方法研究[D];北京交通大學(xué);2018年
2 金鳳;多視角的構(gòu)建及其在單任務(wù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)中的應(yīng)用[D];華東師范大學(xué);2010年
3 黃艾青;基于疊加模型的多任務(wù)學(xué)習(xí)及應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2015年
4 劉凌波;基于多任務(wù)學(xué)習(xí)的年齡估計研究[D];中南大學(xué);2012年
5 戴美銀;基于動態(tài)模糊集的半監(jiān)督多任務(wù)學(xué)習(xí)[D];蘇州大學(xué);2012年
6 周茜;基于多任務(wù)學(xué)習(xí)的人臉識別方法[D];西北大學(xué);2013年
7 鄒亮;基于多任務(wù)學(xué)習(xí)的微博信息流重排序研究[D];西安電子科技大學(xué);2017年
8 曹佳炯;基于多任務(wù)學(xué)習(xí)和度量學(xué)習(xí)的人臉屬性分類研究[D];浙江大學(xué);2018年
9 田貝貝;基于流形學(xué)習(xí)和多任務(wù)學(xué)習(xí)的腫瘤基因表達(dá)數(shù)據(jù)分類方法研究[D];武漢科技大學(xué);2015年
10 羅忠莉;網(wǎng)絡(luò)環(huán)境下任務(wù)牽引式教學(xué)在初中信息技術(shù)課程中的應(yīng)用探究[D];云南師范大學(xué);2017年
本文編號:2604268
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2604268.html