深度學(xué)習(xí)下標(biāo)記受限的視覺識別研究

發(fā)布時間：2020-03-27 13:55

【摘要】：隨著大規(guī)模數(shù)據(jù)時代的到來和計算資源的大力提升,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)在各種視覺識別任務(wù)上取得了突破性的進(jìn)展�，F(xiàn)有的深度學(xué)習(xí)算法以大規(guī)模、標(biāo)記精確的訓(xùn)練數(shù)據(jù)為前提。然而,標(biāo)記受限(標(biāo)記不充分或標(biāo)記不確定)的視覺識別問題在現(xiàn)實(shí)中是非常普遍的,且以往的研究較少,是視覺問題中新的挑戰(zhàn)。本文從特征表示和特征學(xué)習(xí)這兩個角度嘗試解決標(biāo)記受限的視覺識別問題,其應(yīng)用主要包括單標(biāo)記圖像識別、多標(biāo)記圖像識別、場景分類、視頻分類、面部屬性估計、頭部姿態(tài)估計、語義分割等,主要工作包括:1.提出了一個使用深度學(xué)習(xí)特征的圖像識別框架DSP。本文探索了使用深度特征的5個重要因素,分析了它們對特征表示的影響,并提供了相應(yīng)的決策:(1)卷積層的特征由于保留空間信息、計算量小,因而比全連接層特征更有效;(2)Frobenius范數(shù)矩陣標(biāo)準(zhǔn)化比非標(biāo)準(zhǔn)化或l2向量標(biāo)準(zhǔn)化更有效;(3)提出的深層空間金字塔能非常自然地編碼空間信息;(4)FV編碼中使用非常小的高斯分量就可以獲得較高的識別率,這與平常用較大值的經(jīng)驗(yàn)完全相反;(5)提取多尺度的深度特征可以有效提升識別系統(tǒng)的性能。所提DSP框架實(shí)現(xiàn)簡單、高效、準(zhǔn)確,有效性在許多標(biāo)準(zhǔn)數(shù)據(jù)集上得到驗(yàn)證。2.提出了一種判別式分布距離特征編碼方法D3,它可以將視覺對象的一組特征向量有效地編碼為單個向量。在計算機(jī)視覺中,視覺對象(圖像或視頻)通常表示為一組描述子向量,設(shè)計強(qiáng)有力的特征表示方法編碼一組向量為單個向量是至關(guān)重要的�，F(xiàn)有方法如FV或VLAD是基于生成式角度設(shè)計的,當(dāng)使用不同類型的描述子向量(如密集的SIFT或深度特征)時,它們的性能會發(fā)生波動。本文提出的D3方法有效地把兩組描述子向量作為兩個分布來比較,并提出一個方向總變分距離(DTVD)來衡量它們的不相似性。此外,本文還提出了一種基于判別式的方法來穩(wěn)健地估計DTVD。D3在視頻動作和圖像識別任務(wù)中表現(xiàn)出卓越的穩(wěn)健性、準(zhǔn)確性和高效性。3.提出了一個有效利用標(biāo)記不確定性協(xié)同學(xué)習(xí)特征和標(biāo)記分布的深度標(biāo)記分布學(xué)習(xí)框架DLDL。卷積神經(jīng)網(wǎng)絡(luò)在各種視覺識別任務(wù)中取得了出色的識別性能,其成功最重要的因素之一是大規(guī)模帶有標(biāo)記的訓(xùn)練集。然而,在諸如年齡估計、頭部姿態(tài)估計、多標(biāo)記分類和語義分割等領(lǐng)域,很難收集到足夠多且標(biāo)記精確的訓(xùn)練圖像。幸運(yùn)的是,這些任務(wù)的標(biāo)記之間存在不確定信息,這使得它們與傳統(tǒng)分類任務(wù)不同。基于這種觀察,本文將每幅圖像的單值標(biāo)記轉(zhuǎn)換為離散標(biāo)記分布,通過深度卷積網(wǎng)絡(luò)最小化預(yù)測分布和真實(shí)標(biāo)記分布之間的Kullback-Leibler散度來學(xué)習(xí)標(biāo)記分布。該框架能有效地利用標(biāo)記的不確定性,能夠有效地減小過擬合的風(fēng)險,即使在訓(xùn)練數(shù)據(jù)不充足時也能很好的工作。實(shí)驗(yàn)結(jié)果表明,所提方法在年齡估計和頭部姿態(tài)估計上顯著好于現(xiàn)有方法。同時,它還有效改善了多標(biāo)記分類和語義分割的識別性能。4.提出了聯(lián)合標(biāo)記分布學(xué)習(xí)和期望回歸的深度學(xué)習(xí)框架。排序卷積網(wǎng)絡(luò)和DLDL是當(dāng)前面部屬性(例如年齡或顏值)估計最好的方法。但是,這些方法在訓(xùn)練目標(biāo)和評估指標(biāo)之間存在不一致性,因此它們可能不是最理想的。此外,它們一般采用具有大量參數(shù)的圖像分類或人臉識別預(yù)訓(xùn)練模型,這帶來了昂貴的計算成本和存儲開銷。為緩解這些問題,本文設(shè)計了一個輕量級的網(wǎng)絡(luò)結(jié)構(gòu),并提出了一個可以聯(lián)合學(xué)習(xí)標(biāo)記分布和回歸標(biāo)記值的統(tǒng)一框架。本文還探究了排序CNN和DLDL之間的關(guān)系,首次證明排序方法本質(zhì)上是隱式地學(xué)習(xí)標(biāo)記分布,這一結(jié)果將現(xiàn)有排序?qū)W習(xí)方法統(tǒng)一到DLDL框架中。所提框架的有效性已在面部年齡和顏值估計任務(wù)上得到驗(yàn)證,使用該方法單一模型就可以高效地(參數(shù)減小36倍,預(yù)測速度提升2.6倍)超過當(dāng)前最好的方法,即使模型參數(shù)進(jìn)一步減小到0.9M(3.8MB磁盤存儲),本文方法也可以與當(dāng)前最好的技術(shù)相媲美。
【圖文】：

姿態(tài)估計,人臉檢測,問題

和語義分割是計算機(jī)視覺中三項(xiàng)最基本的識別任務(wù)。除了面向一般對象的識別逡逑夕卜，以人體為對象的行人檢測、人物解析和以人臉為對象的人臉識別、人臉屬逡逑性（年齡、姿態(tài)、顏值、性別和表情等）估計等（如圖１－２所示）是非常重要和基逡逑礎(chǔ)的視覺識別問題。特別是以人臉為中心的視覺問題，由于其可以快速地促進(jìn)逡逑各種智能化的商業(yè)應(yīng)用，例如安全監(jiān)控、電子支付、廣告精準(zhǔn)投放、安全駕駛逡逑等，因此在學(xué)術(shù)界和工業(yè)界也受到了研宄人員的極大關(guān)注。相比于圖像，視頻逡逑數(shù)據(jù)包含更豐富的信息，因此視頻理解更有挑戰(zhàn)性�；谝曨l的語義內(nèi)容如人逡逑類行為和復(fù)雜事件等，將視頻片段自動分類至單個或多個類別的視頻分類是繼逡逑圖像分類后的一個關(guān)鍵的視頻理解問題。研究這些視覺識別問題對當(dāng)代智能化逡逑的推進(jìn)具有重大的意義。逡逑（ａ）人臉識別邐（ｂ）年齡估計邐（ｃ）姿態(tài)估計邐（ｄ）顏值評分逡逑圖１－２：以人臉為中心的視覺識別問題包括人臉檢測、識別，年齡估計，姿態(tài)估計和顏值評逡逑分等。逡逑幾十年來，人類對上述視覺問題進(jìn)行了不懈的探索�；仡櫽嬎銠C(jī)視覺發(fā)展逡逑的歷程

類圖,發(fā)展過程,學(xué)習(xí)發(fā)展,學(xué)習(xí)識別

征工程”時代的特征提取和學(xué)習(xí)識別的方法相比，深度學(xué)習(xí)將它們整合到一個逡逑統(tǒng)一的框架中。由于深度學(xué)習(xí)能夠自動地將原始數(shù)據(jù)表征為高層的抽象表示，逡逑因此人們也習(xí)慣稱其為“表示學(xué)習(xí)”或“特征學(xué)習(xí)”。圖１－３展示了深度學(xué)習(xí)發(fā)展逡逑過程中一些創(chuàng)新性、革新性的研究成果。逡逑深度學(xué)習(xí)技術(shù)在計算機(jī)視覺上第一次真正的突破是在２０１２年ＩｍａｇｅＮｅｔ逡逑１０００類圖像識別挑戰(zhàn)大賽中。Ｇｅｏｆｆｒｅｙ邋Ｈｉｎｔｏｎ的學(xué)生Ａｌｅｘ邋Ｋｒｉｚｈｅｖｓｋｙ在Ｉｍａ－逡逑ｇｅＮｅｔ百萬訓(xùn)練數(shù)據(jù)集上
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2018
【分類號】：TP391.41;TP181

【參考文獻(xiàn)】

相關(guān)期刊論文前1條

1 尹寶才;孫艷豐;王成章;蓋峗;;BJUT-3D三維人臉數(shù)據(jù)庫及其處理技術(shù)[J];計算機(jī)研究與發(fā)展;2009年06期

，

本文編號：2603054

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2603054.html

上一篇：基于深度卷積神經(jīng)網(wǎng)絡(luò)的掌紋識別方法
下一篇：NARX模型的辨識方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

深度學(xué)習(xí)下標(biāo)記受限的視覺識別研究