面向場景解析的深度學(xué)習(xí)網(wǎng)絡(luò)研究
發(fā)布時(shí)間:2020-04-08 00:08
【摘要】:場景解析作為一項(xiàng)復(fù)雜的計(jì)算機(jī)視覺基礎(chǔ)工作,它不僅需要檢測并分割出場景中出現(xiàn)的不同物體,而且需要識(shí)別出不同物體所屬的類別,因此它的核心目標(biāo)是準(zhǔn)確地為圖像中每個(gè)像素做分類,從而有助于實(shí)現(xiàn)目標(biāo)檢測、機(jī)器人任務(wù)規(guī)劃、車輛自動(dòng)駕駛以及無人機(jī)自主導(dǎo)航等智能計(jì)算機(jī)視覺任務(wù)。另外,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新的分支近幾年取得了突飛猛進(jìn)的發(fā)展,基于深度學(xué)習(xí)的特征提取方法能夠有效地模擬人類的視覺系統(tǒng)逐級獲取物體的特征信息,從而成為計(jì)算機(jī)視覺研究領(lǐng)域的主流方法。因此,面向場景解析的深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)成為當(dāng)前的研究熱點(diǎn)問題之一。著眼于場景解析面臨的主要難題,本文針對現(xiàn)有場景解析深度學(xué)習(xí)網(wǎng)絡(luò)存在的不足展開研究并提出相應(yīng)的解決方法。本文的主要內(nèi)容和貢獻(xiàn)如下:(1)有效的視覺特征提取和準(zhǔn)確的空間結(jié)構(gòu)化學(xué)習(xí)成為提升RGB場景解析準(zhǔn)確率的關(guān)鍵,雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)展示強(qiáng)大的特征提取能力,但是該網(wǎng)絡(luò)的空間結(jié)構(gòu)化學(xué)習(xí)能力較弱。為此,本文面向RGB場景解析提出空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò),內(nèi)嵌的結(jié)構(gòu)化學(xué)習(xí)層有機(jī)地結(jié)合了條件隨機(jī)場和空間結(jié)構(gòu)化編碼算法,該層能夠較為全面而準(zhǔn)確地學(xué)習(xí)物體所處空間的物體分布以及物體間的空間位置關(guān)系;在此基礎(chǔ)上,網(wǎng)絡(luò)的特征融合層巧妙地利用了深度置信網(wǎng)絡(luò)和改進(jìn)的條件隨機(jī)場,該層可以根據(jù)多模態(tài)特征融合生成的物體綜合語義信息和物體間語義相關(guān)性信息完成深度結(jié)構(gòu)化學(xué)習(xí)。(2)如何準(zhǔn)確地學(xué)習(xí)物體的三維空間結(jié)構(gòu)化信息以及如何有效地融合RGB和深度圖像的特征信息是現(xiàn)有RGB-D場景解析方法面臨的兩大難題。為了解決上述問題,本文面向RGB-D場景解析提出三維空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò),內(nèi)嵌的結(jié)構(gòu)化學(xué)習(xí)層有機(jī)地結(jié)合了條件隨機(jī)場和三維空間結(jié)構(gòu)化編碼算法,該層能夠較為全面而準(zhǔn)確地學(xué)習(xí)物體所處三維空間的物體分布以及物體間的三維空間位置關(guān)系;在此基礎(chǔ)上,網(wǎng)絡(luò)的特征融合層巧妙地利用了深度置信網(wǎng)絡(luò)來實(shí)現(xiàn)RGB和深度圖像特征信息的融合,從而充分地挖掘RGB圖像所提供視覺信息和深度圖像所提供深度信息之間的關(guān)聯(lián)性。(3)由于采用分離方式訓(xùn)練(三維)空間結(jié)構(gòu)化編碼深度網(wǎng)絡(luò)的過程中可能存在特征信息的損失,因此本文通過長短期記憶網(wǎng)絡(luò)重建結(jié)構(gòu)化學(xué)習(xí)層,并通過卷積神經(jīng)網(wǎng)絡(luò)重建特征融合層,從而提出適合端到端、像素到像素聯(lián)合優(yōu)化的全局上下文信息推理深度網(wǎng)絡(luò),較采用分離方式訓(xùn)練的網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)能夠更加充分地發(fā)揮網(wǎng)絡(luò)各層的優(yōu)勢。另外,由于(三維)空間結(jié)構(gòu)化編碼算法僅能推理物體所處局部(三維)空間的上下文信息,因此本文在結(jié)構(gòu)化學(xué)習(xí)層巧妙地結(jié)合了4個(gè)單向的長短期記憶網(wǎng)絡(luò)來實(shí)現(xiàn)全局上下文信息的顯式推理,從而較為全面而準(zhǔn)確地學(xué)習(xí)物體間的長距離和短距離的(三維)空間依賴關(guān)系,其中長距離的依賴關(guān)系表示物體間的相對(三維)空間位置,從而有利于實(shí)現(xiàn)場景全局(三維)空間分布的正確性和合理性預(yù)測,而短距離的依賴關(guān)系表示相鄰物體間的邊界特點(diǎn),從而有助于實(shí)現(xiàn)物體輪廓外觀的一致性和平滑性優(yōu)化。(4)研究表明,對抗訓(xùn)練方法不僅能夠通過判別網(wǎng)絡(luò)的競爭提升生成網(wǎng)絡(luò)的性能,而且可以有效地降低生成網(wǎng)絡(luò)在訓(xùn)練過程中存在的過擬合。為此,本文以全局上下文信息推理深度網(wǎng)絡(luò)作為生成網(wǎng)絡(luò),提出基于對抗訓(xùn)練方法進(jìn)行優(yōu)化的空間結(jié)構(gòu)化推理嵌入式對抗網(wǎng)絡(luò),從而有機(jī)地結(jié)合了多維特征提取、空間結(jié)構(gòu)化推理、多模態(tài)特征融合和對抗訓(xùn)練方法各自的優(yōu)勢。通過對抗訓(xùn)練,空間結(jié)構(gòu)化推理嵌入式對抗網(wǎng)絡(luò)不僅可以通過判別網(wǎng)絡(luò)的分析判斷檢測生成網(wǎng)絡(luò)輸出的場景解析結(jié)果與對應(yīng)的Ground Truth之間的不一致,而且能夠通過判別網(wǎng)絡(luò)的競爭對抗地調(diào)優(yōu)生成網(wǎng)絡(luò)各層的參數(shù),從而充分地發(fā)揮特征提取層、結(jié)構(gòu)化學(xué)習(xí)層和特征融合層的作用,進(jìn)而顯著地提升場景解析結(jié)果與Ground Truth之間的語義一致性。
【圖文】:
圖 1.1 場景解析在計(jì)算機(jī)視覺任務(wù)中的應(yīng)用Fig 1.1 Application of scene parsing in computer vision tasks些年,深度學(xué)習(xí)[8, 9]作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新的分支取得了飛躍式地發(fā)的基本思想是通過大量的數(shù)據(jù)來訓(xùn)練包含多個(gè)層次的神經(jīng)網(wǎng)絡(luò)模型,,從而習(xí)過程。另外,經(jīng)過研究發(fā)現(xiàn)人類視覺系統(tǒng)獲取物體的視覺信息是一個(gè)逐
圖 1.2 深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及特征提取過程Fig 1.2 Architecture and feature extraction procedure of deep neural networks度學(xué)習(xí)的本質(zhì)問題是通過構(gòu)建深度網(wǎng)絡(luò)模型來有效地提取數(shù)據(jù)的特征。對題,如果僅僅根據(jù)像素粒度的圖像信息來提取特征,那么該特征信息很難
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP391.41;TP181
本文編號:2618586
【圖文】:
圖 1.1 場景解析在計(jì)算機(jī)視覺任務(wù)中的應(yīng)用Fig 1.1 Application of scene parsing in computer vision tasks些年,深度學(xué)習(xí)[8, 9]作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新的分支取得了飛躍式地發(fā)的基本思想是通過大量的數(shù)據(jù)來訓(xùn)練包含多個(gè)層次的神經(jīng)網(wǎng)絡(luò)模型,,從而習(xí)過程。另外,經(jīng)過研究發(fā)現(xiàn)人類視覺系統(tǒng)獲取物體的視覺信息是一個(gè)逐
圖 1.2 深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及特征提取過程Fig 1.2 Architecture and feature extraction procedure of deep neural networks度學(xué)習(xí)的本質(zhì)問題是通過構(gòu)建深度網(wǎng)絡(luò)模型來有效地提取數(shù)據(jù)的特征。對題,如果僅僅根據(jù)像素粒度的圖像信息來提取特征,那么該特征信息很難
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP391.41;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 張宏毅;王立威;陳瑜希;;概率圖模型研究進(jìn)展綜述[J];軟件學(xué)報(bào);2013年11期
本文編號:2618586
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2618586.html
最近更新
教材專著