強化學習遷移中的源任務(wù)選擇研究
【圖文】:
識遷移到目標任務(wù),來改變目標任務(wù)的學習過程;這相當于智能體在學習之前逡逑獲得了一些先驗知識,以指導(dǎo)其更好的進行學習。強化學習遷移的基本框架如逡逑圖1.2所示。通常,強化學習遷移的過程可以分為三個步驟:(1)根據(jù)目標任逡逑務(wù),選擇合適的一個或多個源任務(wù)(和源任務(wù)中學到的知識);(2)獲得源任務(wù)逡逑和目標任務(wù)之間的相關(guān)性,根據(jù)該相關(guān)性生成遷移知識;(3)將遷移知識遷移逡逑到目標任務(wù),學習目標任務(wù)。在連續(xù)的遷移場景中(如終身強化學習Lifelong逡逑Leaming[l,,24,邋151]),智能體學好目標任務(wù)后,可以將該任務(wù)及學到的知識也逡逑存入源任務(wù)庫中,在未來遇到相似的新任務(wù)時復(fù)用該任務(wù)的知識(如圖中虛線逡逑所示)。逡逑CT邋>邋知識邋A邋^邐邋/邐A邋邐逡逑源任務(wù)庫知識K-2^遷移算法-移-知%目標任務(wù)一*學習算法I ̄^逡逑:邐‘邐/邐邐邋I逡逑■邐Kn邋M邐I逡逑L:.邐J逡逑圖1.2:強化學習遷移的基本框架逡逑我們知道,如果源任務(wù)與目標任務(wù)相似,那么從源任務(wù)遷移知識到目標任逡逑務(wù),很可能會提高智能體在目標任務(wù)的學習性能;反之,如果源任務(wù)和目標任逡逑務(wù)不相似
本文主要針對強化學習遷移中的負遷移問題,研究如何選擇合適的源任務(wù),逡逑從不同角度提出了相應(yīng)的解決方法。全文共六章,各章的組織結(jié)構(gòu)和主要研究逡逑內(nèi)容如圖1.3所示。其具體研宄內(nèi)容可以概括如下:逡逑1.
【學位授予單位】:南京大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP181
【相似文獻】
相關(guān)期刊論文 前10條
1 謝超蘭;;高中英語任務(wù)型閱讀教學初探[J];青少年日記(教育教學研究);2016年08期
2 楊玲麗;;優(yōu)化方式,自主探究——“任務(wù)學習單”在綜合實踐活動中的運用[J];華夏教師;2014年S1期
3 華芳;;例談用好“任務(wù)學習單”[J];七彩語文(教師論壇);2015年08期
4 ;介紹Jane Willis著《任務(wù)學習法概覽》[J];外語教學與研究;1998年04期
5 許棣華;王志堅;;基于多任務(wù)學習的郵件過濾系統(tǒng)的研究[J];計算機技術(shù)與發(fā)展;2010年10期
6 李松林,甘健侯;基于任務(wù)學習法的素質(zhì)教育研究[J];學術(shù)探索;2002年02期
7 余傳明;李浩男;安璐;;基于多任務(wù)深度學習的文本情感原因分析[J];廣西師范大學學報(自然科學版);2019年01期
8 韓鳳娟;肖春靜;王歡;;基于多任務(wù)學習的微博流行度預(yù)測[J];河南大學學報(自然科學版);2017年05期
9 馬愷;;基于樹結(jié)構(gòu)的多任務(wù)學習算法[J];福建電腦;2017年09期
10 嚴育洪;;設(shè)計好“大任務(wù)”,讓學生看見“知識就是力量”[J];小學教學(數(shù)學版);2018年03期
相關(guān)會議論文 前4條
1 ;任務(wù)驅(qū)動式教學法[A];中學教育科研2017年5-6期(總第216-217期)[C];2017年
2 張宇;張鵬遠;顏永紅;;基于注意力LSTM和多任務(wù)學習的遠場語音識別[A];第十四屆全國人機語音通訊學術(shù)會議(NCMMSC’2017)論文集[C];2017年
3 雷加美;;英語教學中的任務(wù)型閱讀模式研究[A];十三五規(guī)劃科研成果匯編(第二卷)[C];2017年
4 田滿紅;;中級工數(shù)學課程與專業(yè)結(jié)合的教學實踐[A];中國職協(xié)2016年度優(yōu)秀科研成果獲獎?wù)撐募▽W校二等獎)[C];2016年
相關(guān)重要報紙文章 前6條
1 江蘇省無錫市錫山教師進修學校 嚴育洪;尋找撬起課堂的支點[N];中國教師報;2017年
2 記者 徐愛龍;緊抓首要政治任務(wù)學習宣傳貫徹好十八大精神 緊密聯(lián)系自身實際主動服務(wù)全面小康社會建設(shè)[N];甘肅日報;2012年
3 記者 徐愛龍;緊抓首要政治任務(wù)學習宣傳貫徹好十八大精神 緊密聯(lián)系自身實際主動服務(wù)全面小康社會建設(shè)[N];甘肅法制報;2012年
4 浙江省特級教師、金華市教育局教研室副主任 朱孝平;“完美”學習任務(wù)源自生動實踐[N];中國教育報;2019年
5 本報記者 朱穎婕;課堂如何跟上“超越課本”的學生[N];文匯報;2018年
6 撰稿 段麗 策劃 吉奉剛;MVP注入發(fā)展新動力[N];中國郵政報;2012年
相關(guān)博士學位論文 前5條
1 宋錦華;強化學習遷移中的源任務(wù)選擇研究[D];南京大學;2018年
2 張曉彤;多任務(wù)聚類研究[D];大連理工大學;2018年
3 李亞;多任務(wù)學習的研究[D];中國科學技術(shù)大學;2018年
4 浦劍;多任務(wù)學習算法研究[D];復(fù)旦大學;2013年
5 楊名;矩陣廣義逆高斯分布在多任務(wù)學習中的應(yīng)用[D];浙江大學;2014年
相關(guān)碩士學位論文 前10條
1 馬建陽;基于多任務(wù)學習的數(shù)據(jù)分類方法研究[D];北京交通大學;2018年
2 金鳳;多視角的構(gòu)建及其在單任務(wù)學習和多任務(wù)學習中的應(yīng)用[D];華東師范大學;2010年
3 黃艾青;基于疊加模型的多任務(wù)學習及應(yīng)用[D];中國科學技術(shù)大學;2015年
4 劉凌波;基于多任務(wù)學習的年齡估計研究[D];中南大學;2012年
5 戴美銀;基于動態(tài)模糊集的半監(jiān)督多任務(wù)學習[D];蘇州大學;2012年
6 周茜;基于多任務(wù)學習的人臉識別方法[D];西北大學;2013年
7 鄒亮;基于多任務(wù)學習的微博信息流重排序研究[D];西安電子科技大學;2017年
8 曹佳炯;基于多任務(wù)學習和度量學習的人臉屬性分類研究[D];浙江大學;2018年
9 田貝貝;基于流形學習和多任務(wù)學習的腫瘤基因表達數(shù)據(jù)分類方法研究[D];武漢科技大學;2015年
10 羅忠莉;網(wǎng)絡(luò)環(huán)境下任務(wù)牽引式教學在初中信息技術(shù)課程中的應(yīng)用探究[D];云南師范大學;2017年
本文編號:2604268
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2604268.html