稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)動(dòng)作識(shí)別方法及其并行化研究
【關(guān)鍵詞】 動(dòng)作識(shí)別; 深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); MapReduce; 多核;
第一章緒論
1.1課題背景和研究意義
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)規(guī)模迅速增大,同時(shí)視頻數(shù)據(jù)每天以海量方式產(chǎn)生和積累,研宄如何利用深度學(xué)習(xí)對(duì)這些海量視頻數(shù)據(jù)進(jìn)行大規(guī)模并行處理,既具有現(xiàn)實(shí)的經(jīng)濟(jì)價(jià)值,對(duì)于發(fā)揮挖掘深度學(xué)習(xí)的并行處理能力同樣意義重大。MapReduce是由Gooogle公司提出來的一個(gè)用于處理海量數(shù)據(jù)的并行編程模型,由于它簡(jiǎn)單實(shí)用,因而迅速成為云計(jì)算方面的標(biāo)準(zhǔn)模型。是基于MapReduce的JAVA開源實(shí)現(xiàn),具有配置簡(jiǎn)單、易擴(kuò)展、編程容易等特點(diǎn),從而成為分布式集群的標(biāo)準(zhǔn)配置。研究如何利用Hadoop平臺(tái)對(duì)動(dòng)作識(shí)別方法進(jìn)行工程實(shí)現(xiàn),將理論與實(shí)際應(yīng)用相結(jié)合,同樣具有重要的現(xiàn)實(shí)意義與理論價(jià)值。多核CPU的快速發(fā)展,提高了計(jì)算機(jī)的運(yùn)算速度,而現(xiàn)有動(dòng)作識(shí)別方法運(yùn)算復(fù)雜,執(zhí)行效率低,研究如何利用多核CPU的并行加速能力對(duì)動(dòng)作識(shí)別應(yīng)用進(jìn)行改進(jìn),具有重大意義。
1. 2動(dòng)作識(shí)別相關(guān)研究
早期的時(shí)候,研究者試圖對(duì)人體進(jìn)行跟蹤,并把人體部分作為動(dòng)作分類的特征,這是一種很自然的表示方法,因?yàn)槿说年P(guān)節(jié)的運(yùn)動(dòng)就形成了動(dòng)作。Yacoob和Black[i2]對(duì)人體的主要關(guān)節(jié)部分進(jìn)行跟蹤,并用參數(shù)化方法來表示人體各個(gè)部分的旋轉(zhuǎn)和平移,用這些參數(shù)對(duì)動(dòng)作進(jìn)行表示。Ali等人早期的關(guān)節(jié)模型進(jìn)行改進(jìn),在跟蹤時(shí)只跟蹤主要關(guān)節(jié),使跟蹤更具魯棒性;同時(shí),對(duì)側(cè)影進(jìn)行骨架化,獲得一個(gè)支柱組合似人體;在跟蹤關(guān)節(jié)時(shí),形成一個(gè)關(guān)節(jié)軌跡,一個(gè)視頻序列被表示成一組關(guān)節(jié)軌跡,然后輸入到一個(gè)基于模板的K近鄰分類器。Carisson和Sullivan[i4]將動(dòng)作識(shí)別看成一個(gè)形狀匹配問題,每個(gè)動(dòng)作通過一個(gè)特別的姿勢(shì)來表示,識(shí)別就通過比較姿勢(shì)來完成,實(shí)際上就是邊緣匹配,這說明了形狀信息的重要性。Blank等人[15]從每一幀提取人體側(cè)影,將10幀人體側(cè)影序列作為“時(shí)空形狀”。從該3D形狀中提取局部特征可以通過解決一個(gè)泊松方程來完成,最后使用一個(gè)基于模板的最近鄰分類器進(jìn)行分類。Wang和Suter[i6]也使用了人體側(cè)影對(duì)視頻序列進(jìn)行分類。他們從側(cè)影序列中米用KPCA提取特征,然后使用因子條件隨機(jī)場(chǎng)(Factorial Conditional RandomField)進(jìn)行分類。
…………
第二章卷積神經(jīng)網(wǎng)絡(luò)
2.1神經(jīng)網(wǎng)絡(luò)基本概念
假設(shè)有訓(xùn)練樣本那么神經(jīng)網(wǎng)絡(luò)能夠提供一個(gè)非線性復(fù)雜的假設(shè)模型來擬合這些數(shù)據(jù),它有兩個(gè)參數(shù)和對(duì)于一個(gè)只有單個(gè)神經(jīng)元的神經(jīng)網(wǎng)絡(luò)模型,可以由圖2-1表示:
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層與層之間都是全連接網(wǎng)絡(luò),即輸入層的所有神經(jīng)元都與輸出層的神經(jīng)元相連,假設(shè)輸入層的神經(jīng)元個(gè)數(shù),輸出層的神經(jīng)元個(gè)數(shù),那么連接數(shù)為圖2-3是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),它具有1個(gè)輸入層、1個(gè)隱含層、1個(gè)輸出層。連接數(shù)實(shí)際上就是神經(jīng)元參數(shù)數(shù)目,圖2-3的神經(jīng)網(wǎng)絡(luò)共有16條連接,所以共有16個(gè)參數(shù)。當(dāng)神經(jīng)元個(gè)數(shù)非常多時(shí),連接數(shù)非常多,相應(yīng)的訓(xùn)練的參數(shù)非常多,這必然增加訓(xùn)練神經(jīng)網(wǎng)絡(luò)的難度。
2.2卷積神經(jīng)網(wǎng)絡(luò)
1959年,Hubel和Wiese[3G]兩位科學(xué)家在對(duì)貓的視覺實(shí)驗(yàn)中發(fā)現(xiàn)了貓的視覺系統(tǒng)是分級(jí)的,這種分級(jí)可以看成是逐層迭代、抽象的過程:瞳孔接收像素,方向選擇性細(xì)胞抽象出邊緣,對(duì)邊緣進(jìn)一步抽象得出形狀,對(duì)形狀進(jìn)一步抽象得出是什么物體。高級(jí)特征是低層特征的組合與抽象,越高級(jí)的特征越能體現(xiàn)人類的語義信息。圖2-5對(duì)這種逐步抽象的分層模型進(jìn)行了展示,越高層的表示,越具有抽象表達(dá)能力。后來研究者提出了一個(gè)新名詞來命名這種模型一即“深度學(xué)習(xí)模型”。 上述模型正是CNN的雛形,這也是首個(gè)深度學(xué)習(xí)模型。圖2-6是Neocognitron的模型示意圖。之后,在實(shí)踐和理論分析中,很多學(xué)者為CNN的發(fā)展做出了重大貢獻(xiàn)。
………
第三章稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)動(dòng)作識(shí)別方法........ 15
3.1引言.......... 15
第四章稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)并行化 ....... 45
4.1引言 ......45
第五章總結(jié)與展望.......... 71
5.1 總結(jié) ........... 71
第四章稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)并行化
4.1引言
從海量數(shù)據(jù)中挖掘潛在的信息,推動(dòng)了基于云平臺(tái)的大規(guī)模機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,目前,基于大規(guī)模機(jī)器學(xué)習(xí)的廣告推薦、商品個(gè)性化推薦成為互聯(lián)網(wǎng)企業(yè)的必備“掘金術(shù)”。在此背景下,眾多研宄者為了將機(jī)器學(xué)習(xí)擴(kuò)展到大規(guī)模應(yīng)用中做出 了諸多嘗試。Mahout[78]是Apache Software Foundation (ASF)基于Hadoop開發(fā)的一個(gè)全新的開源項(xiàng)目,其主要目標(biāo)是創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,Mahout可以快速有效地?cái)U(kuò)展到云中,該項(xiàng)目分為推薦、聚類、分類三個(gè)模塊,實(shí)現(xiàn) 了包括K-Means、Canopy、Naive Bayes、Random Forests等典型的機(jī)器學(xué)習(xí)算法,是目前最受歡迎的開源的大規(guī)模機(jī)器學(xué)習(xí)庫。
4.2 MapReduce
MapReduce是一個(gè)出色的并行編程模型,它在處理一些適定的問題時(shí)才能發(fā)揮它的優(yōu)勢(shì),換句話說并不是所有的問題都適用MapReduce。首先,MapReduce適用于大規(guī)模的數(shù)據(jù)處理,一般達(dá)到TB級(jí)以上,如果數(shù)據(jù)很小,可能橫向擴(kuò)展(增加集群的單機(jī)數(shù)量)的代價(jià)要大于縱向擴(kuò)展(升級(jí)硬件)。其次,MapReduce適用于離線文件分析,文件讀寫頻繁時(shí)不適用。再者,MapReduce適用于統(tǒng)計(jì),但不適用于建模:因?yàn)榻y(tǒng)計(jì)過程可以插分成小任務(wù)再來求和,這與Map和Reduce過程是一致的,比如單詞計(jì)數(shù)非常適用于MapReduce;而建模過程往往前后依賴,無法拆分成多個(gè)獨(dú)立的Map和Reduce過程,比如斐波那契數(shù)列的求解就禾適用MapReduce。最后,MapReduce不適用于需要實(shí)時(shí)反饋的任務(wù),因?yàn)镸apReduce的大規(guī)模處理能力是對(duì)于一些無法在可接受的時(shí)間內(nèi)給出可行解的任務(wù),采用MapReduce過程往往能夠給出可行解。
........
第五章總結(jié)與展望
5.1總結(jié)
為了利用MapReduce的大規(guī)模數(shù)據(jù)處理能力,及其并行加速能力,創(chuàng)新性地將稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)在基于MapReduce的Hadoop開源警臺(tái)上進(jìn)行實(shí)現(xiàn),并提出了矩陣分布式乘法等改進(jìn)措施,最后進(jìn)行了一系列對(duì)比實(shí)驗(yàn),說明稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)的MapReduce并行化是可行的,并獲得了穩(wěn)定的正確性與一定的加速比。5.2展望
本文的動(dòng)作識(shí)別方法展示出一定的動(dòng)作分類能力,主要依賴于使用眾多的參數(shù)對(duì)人類視覺系統(tǒng)進(jìn)行模擬,雖然該模型盡量采用自然的、自動(dòng)的學(xué)習(xí)策略訓(xùn)練眾多參數(shù),但是依然存在參數(shù)難以調(diào)諧的難題。比如在設(shè)置網(wǎng)絡(luò)的層數(shù)、卷積核的大小等參數(shù)時(shí),依然采用手工設(shè)置的方式,這些參數(shù)變化大,無法找到一種有效的自動(dòng)學(xué)習(xí)策略進(jìn)行學(xué)習(xí),與真正的自然的視覺識(shí)別系統(tǒng)相差甚遠(yuǎn)。因此,未來的工作可以在參數(shù)的自動(dòng)學(xué)習(xí)方面進(jìn)行改進(jìn)。
動(dòng)作識(shí)別不是一個(gè)單一偏狹的問題,它與神經(jīng)科學(xué)、認(rèn)知科學(xué)等存在非常緊密的聯(lián)系,單單從計(jì)算機(jī)科學(xué)出發(fā)不可能得以解決,因?yàn)閮H僅依靠幾個(gè)參數(shù)不可能模擬出人類大腦的認(rèn)知能力,人類大腦的記憶、推理、抽象等功能是一個(gè)整體,因此,真正的動(dòng)作識(shí)別方法依賴于人工智能的徹底實(shí)現(xiàn)。但是,人工智能的重點(diǎn)不是研究計(jì)算機(jī),重點(diǎn)在于研宄人,如果有一天人類完全揭開了人類大腦的工作奧秘,計(jì)算機(jī)一定能夠展示出人一樣的智能,自然也能像人一樣對(duì)動(dòng)作進(jìn)行識(shí)別。
.........
參考文獻(xiàn):
- [1] 許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的應(yīng)用的研究[D]. 浙江大學(xué) 2012
- [2] 宋皓. 基于視覺通路目標(biāo)識(shí)別算法的研究[D]. 合肥工業(yè)大學(xué) 2011
- [3] 陸璐. 卷積神經(jīng)網(wǎng)絡(luò)的研究及其在車牌識(shí)別系統(tǒng)中的應(yīng)用[D]. 合肥工業(yè)大學(xué) 2006
- [4] 肖柏旭. 基于卷積網(wǎng)絡(luò)的人臉檢測(cè)的研究與實(shí)現(xiàn)[D]. 華北電力大學(xué)(河北) 2007
- [5] 吳偉. 基于SAE-PCA模型的ASL字母識(shí)別方法研究[D]. 廈門大學(xué) 2014
- [6] 陸慶慶. 基于人臉圖像的性別分類[D]. 南京理工大學(xué) 2014
- [7] 鄧超. 基于3D DAISY描述符的動(dòng)作識(shí)別[D]. 天津大學(xué) 2012
- [8] 劉飛. 基于Kinect骨架信息的人體動(dòng)作識(shí)別[D]. 東華大學(xué) 2014
- [9] 張曉婧. 基于時(shí)空金字塔稀疏編碼的動(dòng)作識(shí)別[D]. 天津大學(xué) 2012
- [10] 劉聰. 包含小數(shù)點(diǎn)的手寫數(shù)字串切分與識(shí)別[D]. 廈門大學(xué) 2014
本文編號(hào):8750
本文鏈接:http://www.lk138.cn/shoufeilunwen/shuoshibiyelunwen/8750.html