深度學(xué)習(xí)下標(biāo)記受限的視覺識(shí)別研究
發(fā)布時(shí)間:2020-03-27 13:55
【摘要】:隨著大規(guī)模數(shù)據(jù)時(shí)代的到來(lái)和計(jì)算資源的大力提升,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)在各種視覺識(shí)別任務(wù)上取得了突破性的進(jìn)展,F(xiàn)有的深度學(xué)習(xí)算法以大規(guī)模、標(biāo)記精確的訓(xùn)練數(shù)據(jù)為前提。然而,標(biāo)記受限(標(biāo)記不充分或標(biāo)記不確定)的視覺識(shí)別問題在現(xiàn)實(shí)中是非常普遍的,且以往的研究較少,是視覺問題中新的挑戰(zhàn)。本文從特征表示和特征學(xué)習(xí)這兩個(gè)角度嘗試解決標(biāo)記受限的視覺識(shí)別問題,其應(yīng)用主要包括單標(biāo)記圖像識(shí)別、多標(biāo)記圖像識(shí)別、場(chǎng)景分類、視頻分類、面部屬性估計(jì)、頭部姿態(tài)估計(jì)、語(yǔ)義分割等,主要工作包括:1.提出了一個(gè)使用深度學(xué)習(xí)特征的圖像識(shí)別框架DSP。本文探索了使用深度特征的5個(gè)重要因素,分析了它們對(duì)特征表示的影響,并提供了相應(yīng)的決策:(1)卷積層的特征由于保留空間信息、計(jì)算量小,因而比全連接層特征更有效;(2)Frobenius范數(shù)矩陣標(biāo)準(zhǔn)化比非標(biāo)準(zhǔn)化或l2向量標(biāo)準(zhǔn)化更有效;(3)提出的深層空間金字塔能非常自然地編碼空間信息;(4)FV編碼中使用非常小的高斯分量就可以獲得較高的識(shí)別率,這與平常用較大值的經(jīng)驗(yàn)完全相反;(5)提取多尺度的深度特征可以有效提升識(shí)別系統(tǒng)的性能。所提DSP框架實(shí)現(xiàn)簡(jiǎn)單、高效、準(zhǔn)確,有效性在許多標(biāo)準(zhǔn)數(shù)據(jù)集上得到驗(yàn)證。2.提出了一種判別式分布距離特征編碼方法D3,它可以將視覺對(duì)象的一組特征向量有效地編碼為單個(gè)向量。在計(jì)算機(jī)視覺中,視覺對(duì)象(圖像或視頻)通常表示為一組描述子向量,設(shè)計(jì)強(qiáng)有力的特征表示方法編碼一組向量為單個(gè)向量是至關(guān)重要的,F(xiàn)有方法如FV或VLAD是基于生成式角度設(shè)計(jì)的,當(dāng)使用不同類型的描述子向量(如密集的SIFT或深度特征)時(shí),它們的性能會(huì)發(fā)生波動(dòng)。本文提出的D3方法有效地把兩組描述子向量作為兩個(gè)分布來(lái)比較,并提出一個(gè)方向總變分距離(DTVD)來(lái)衡量它們的不相似性。此外,本文還提出了一種基于判別式的方法來(lái)穩(wěn)健地估計(jì)DTVD。D3在視頻動(dòng)作和圖像識(shí)別任務(wù)中表現(xiàn)出卓越的穩(wěn)健性、準(zhǔn)確性和高效性。3.提出了一個(gè)有效利用標(biāo)記不確定性協(xié)同學(xué)習(xí)特征和標(biāo)記分布的深度標(biāo)記分布學(xué)習(xí)框架DLDL。卷積神經(jīng)網(wǎng)絡(luò)在各種視覺識(shí)別任務(wù)中取得了出色的識(shí)別性能,其成功最重要的因素之一是大規(guī)模帶有標(biāo)記的訓(xùn)練集。然而,在諸如年齡估計(jì)、頭部姿態(tài)估計(jì)、多標(biāo)記分類和語(yǔ)義分割等領(lǐng)域,很難收集到足夠多且標(biāo)記精確的訓(xùn)練圖像。幸運(yùn)的是,這些任務(wù)的標(biāo)記之間存在不確定信息,這使得它們與傳統(tǒng)分類任務(wù)不同;谶@種觀察,本文將每幅圖像的單值標(biāo)記轉(zhuǎn)換為離散標(biāo)記分布,通過深度卷積網(wǎng)絡(luò)最小化預(yù)測(cè)分布和真實(shí)標(biāo)記分布之間的Kullback-Leibler散度來(lái)學(xué)習(xí)標(biāo)記分布。該框架能有效地利用標(biāo)記的不確定性,能夠有效地減小過擬合的風(fēng)險(xiǎn),即使在訓(xùn)練數(shù)據(jù)不充足時(shí)也能很好的工作。實(shí)驗(yàn)結(jié)果表明,所提方法在年齡估計(jì)和頭部姿態(tài)估計(jì)上顯著好于現(xiàn)有方法。同時(shí),它還有效改善了多標(biāo)記分類和語(yǔ)義分割的識(shí)別性能。4.提出了聯(lián)合標(biāo)記分布學(xué)習(xí)和期望回歸的深度學(xué)習(xí)框架。排序卷積網(wǎng)絡(luò)和DLDL是當(dāng)前面部屬性(例如年齡或顏值)估計(jì)最好的方法。但是,這些方法在訓(xùn)練目標(biāo)和評(píng)估指標(biāo)之間存在不一致性,因此它們可能不是最理想的。此外,它們一般采用具有大量參數(shù)的圖像分類或人臉識(shí)別預(yù)訓(xùn)練模型,這帶來(lái)了昂貴的計(jì)算成本和存儲(chǔ)開銷。為緩解這些問題,本文設(shè)計(jì)了一個(gè)輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu),并提出了一個(gè)可以聯(lián)合學(xué)習(xí)標(biāo)記分布和回歸標(biāo)記值的統(tǒng)一框架。本文還探究了排序CNN和DLDL之間的關(guān)系,首次證明排序方法本質(zhì)上是隱式地學(xué)習(xí)標(biāo)記分布,這一結(jié)果將現(xiàn)有排序?qū)W習(xí)方法統(tǒng)一到DLDL框架中。所提框架的有效性已在面部年齡和顏值估計(jì)任務(wù)上得到驗(yàn)證,使用該方法單一模型就可以高效地(參數(shù)減小36倍,預(yù)測(cè)速度提升2.6倍)超過當(dāng)前最好的方法,即使模型參數(shù)進(jìn)一步減小到0.9M(3.8MB磁盤存儲(chǔ)),本文方法也可以與當(dāng)前最好的技術(shù)相媲美。
【圖文】:
和語(yǔ)義分割是計(jì)算機(jī)視覺中三項(xiàng)最基本的識(shí)別任務(wù)。除了面向一般對(duì)象的識(shí)別逡逑夕卜,以人體為對(duì)象的行人檢測(cè)、人物解析和以人臉為對(duì)象的人臉識(shí)別、人臉屬逡逑性(年齡、姿態(tài)、顏值、性別和表情等)估計(jì)等(如圖1-2所示)是非常重要和基逡逑礎(chǔ)的視覺識(shí)別問題。特別是以人臉為中心的視覺問題,由于其可以快速地促進(jìn)逡逑各種智能化的商業(yè)應(yīng)用,例如安全監(jiān)控、電子支付、廣告精準(zhǔn)投放、安全駕駛逡逑等,因此在學(xué)術(shù)界和工業(yè)界也受到了研宄人員的極大關(guān)注。相比于圖像,視頻逡逑數(shù)據(jù)包含更豐富的信息,因此視頻理解更有挑戰(zhàn)性。基于視頻的語(yǔ)義內(nèi)容如人逡逑類行為和復(fù)雜事件等,將視頻片段自動(dòng)分類至單個(gè)或多個(gè)類別的視頻分類是繼逡逑圖像分類后的一個(gè)關(guān)鍵的視頻理解問題。研究這些視覺識(shí)別問題對(duì)當(dāng)代智能化逡逑的推進(jìn)具有重大的意義。逡逑(a)人臉識(shí)別邐(b)年齡估計(jì)邐(c)姿態(tài)估計(jì)邐(d)顏值評(píng)分逡逑圖1-2:以人臉為中心的視覺識(shí)別問題包括人臉檢測(cè)、識(shí)別,年齡估計(jì),姿態(tài)估計(jì)和顏值評(píng)逡逑分等。逡逑幾十年來(lái),人類對(duì)上述視覺問題進(jìn)行了不懈的探索;仡櫽(jì)算機(jī)視覺發(fā)展逡逑的歷程
征工程”時(shí)代的特征提取和學(xué)習(xí)識(shí)別的方法相比,深度學(xué)習(xí)將它們整合到一個(gè)逡逑統(tǒng)一的框架中。由于深度學(xué)習(xí)能夠自動(dòng)地將原始數(shù)據(jù)表征為高層的抽象表示,逡逑因此人們也習(xí)慣稱其為“表示學(xué)習(xí)”或“特征學(xué)習(xí)”。圖1-3展示了深度學(xué)習(xí)發(fā)展逡逑過程中一些創(chuàng)新性、革新性的研究成果。逡逑深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺上第一次真正的突破是在2012年ImageNet逡逑1000類圖像識(shí)別挑戰(zhàn)大賽中。Geoffrey邋Hinton的學(xué)生Alex邋Krizhevsky在Ima-逡逑geNet百萬(wàn)訓(xùn)練數(shù)據(jù)集上
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.41;TP181
本文編號(hào):2603054
【圖文】:
和語(yǔ)義分割是計(jì)算機(jī)視覺中三項(xiàng)最基本的識(shí)別任務(wù)。除了面向一般對(duì)象的識(shí)別逡逑夕卜,以人體為對(duì)象的行人檢測(cè)、人物解析和以人臉為對(duì)象的人臉識(shí)別、人臉屬逡逑性(年齡、姿態(tài)、顏值、性別和表情等)估計(jì)等(如圖1-2所示)是非常重要和基逡逑礎(chǔ)的視覺識(shí)別問題。特別是以人臉為中心的視覺問題,由于其可以快速地促進(jìn)逡逑各種智能化的商業(yè)應(yīng)用,例如安全監(jiān)控、電子支付、廣告精準(zhǔn)投放、安全駕駛逡逑等,因此在學(xué)術(shù)界和工業(yè)界也受到了研宄人員的極大關(guān)注。相比于圖像,視頻逡逑數(shù)據(jù)包含更豐富的信息,因此視頻理解更有挑戰(zhàn)性。基于視頻的語(yǔ)義內(nèi)容如人逡逑類行為和復(fù)雜事件等,將視頻片段自動(dòng)分類至單個(gè)或多個(gè)類別的視頻分類是繼逡逑圖像分類后的一個(gè)關(guān)鍵的視頻理解問題。研究這些視覺識(shí)別問題對(duì)當(dāng)代智能化逡逑的推進(jìn)具有重大的意義。逡逑(a)人臉識(shí)別邐(b)年齡估計(jì)邐(c)姿態(tài)估計(jì)邐(d)顏值評(píng)分逡逑圖1-2:以人臉為中心的視覺識(shí)別問題包括人臉檢測(cè)、識(shí)別,年齡估計(jì),姿態(tài)估計(jì)和顏值評(píng)逡逑分等。逡逑幾十年來(lái),人類對(duì)上述視覺問題進(jìn)行了不懈的探索;仡櫽(jì)算機(jī)視覺發(fā)展逡逑的歷程
征工程”時(shí)代的特征提取和學(xué)習(xí)識(shí)別的方法相比,深度學(xué)習(xí)將它們整合到一個(gè)逡逑統(tǒng)一的框架中。由于深度學(xué)習(xí)能夠自動(dòng)地將原始數(shù)據(jù)表征為高層的抽象表示,逡逑因此人們也習(xí)慣稱其為“表示學(xué)習(xí)”或“特征學(xué)習(xí)”。圖1-3展示了深度學(xué)習(xí)發(fā)展逡逑過程中一些創(chuàng)新性、革新性的研究成果。逡逑深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺上第一次真正的突破是在2012年ImageNet逡逑1000類圖像識(shí)別挑戰(zhàn)大賽中。Geoffrey邋Hinton的學(xué)生Alex邋Krizhevsky在Ima-逡逑geNet百萬(wàn)訓(xùn)練數(shù)據(jù)集上
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.41;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 尹寶才;孫艷豐;王成章;蓋峗;;BJUT-3D三維人臉數(shù)據(jù)庫(kù)及其處理技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2009年06期
,本文編號(hào):2603054
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2603054.html
最近更新
教材專著