稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)動作識別方法及其并行化研究

發(fā)布時間：2014-09-10 09:39

【摘要】動作識別系統(tǒng)在現(xiàn)實中具有重要的應(yīng)用價值,但是現(xiàn)有的動作識別方法依然存在各種各樣的缺陷,研究穩(wěn)定可靠的動作識別方法,對于機器學(xué)習(xí)的理論發(fā)展與應(yīng)用推廣具有重要的意義。卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,它受到脊椎動物視覺神經(jīng)系統(tǒng)的啟發(fā),能夠直接從灰度圖像學(xué)習(xí)出抽象的高級特征,具有強大的圖像分類能力,但它不能直接應(yīng)用于視頻中的動作識別。為了將卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力推廣到動作識別,本文對卷積神經(jīng)網(wǎng)絡(luò)進行了擴展,本文的貢獻主要有以下幾個方面：基于時空卷積特征提取,開發(fā)了一個時空卷積神經(jīng)網(wǎng)絡(luò)框架。該模型以多個連續(xù)視頻幀為輸入,交替進行卷積和子采樣操作,逐步提取出多種復(fù)雜抽象的高級特征,具有出色的特征學(xué)習(xí)能力與分類能力。為了進一步提高時空卷積神經(jīng)網(wǎng)絡(luò)的性能,在組合卷積層的輸入特征圖時,提出了一種稀疏自組合策略。通過對輸入特征圖增加稀疏性限制,使卷積層能夠自動學(xué)習(xí)出最佳的特征圖組合作為輸入,與傳統(tǒng)的手工設(shè)置方式相比,省略了手工設(shè)置的繁復(fù)步驟,實驗表明,采用稀疏自組合策略的時空卷積神經(jīng)網(wǎng)絡(luò)具有更好的特征學(xué)習(xí)能力與分類能力。提出了一種基于MapReduce的矩陣并行相乘算法,基于該矩陣并行算法,在Hadoop平臺對稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)采用MapReduce編程模型并行化,并與串行實驗結(jié)果進行了對比,驗證了稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化的可行性、穩(wěn)定性、正確性,并獲得了一定的加速比。為了利用多核CPU的計算能力,將MapReduce的Map過程和Reduce過程采用多線程實現(xiàn),將該算法用于稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練測試,性能進一步得到提高。分別在WEIZMAN和KTH兩個公開數(shù)據(jù)集上進行了一系列實驗,展示了時空卷積神經(jīng)網(wǎng)絡(luò)在各種場景下的表現(xiàn)性能。實驗結(jié)果表明,與其他基準方法相比,本文提出的方法在兩個數(shù)據(jù)集上表現(xiàn)出了非常有競爭力的結(jié)果。

【關(guān)鍵詞】動作識別；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)； MapReduce；多核；

第一章緒論

1.1課題背景和研究意義
隨著移動互聯(lián)網(wǎng)的快速發(fā)展，數(shù)據(jù)規(guī)模迅速增大，同時視頻數(shù)據(jù)每天以海量方式產(chǎn)生和積累，研宄如何利用深度學(xué)習(xí)對這些海量視頻數(shù)據(jù)進行大規(guī)模并行處理，既具有現(xiàn)實的經(jīng)濟價值，對于發(fā)揮挖掘深度學(xué)習(xí)的并行處理能力同樣意義重大。MapReduce是由Gooogle公司提出來的一個用于處理海量數(shù)據(jù)的并行編程模型，由于它簡單實用，因而迅速成為云計算方面的標準模型。是基于MapReduce的JAVA開源實現(xiàn)，具有配置簡單、易擴展、編程容易等特點，從而成為分布式集群的標準配置。研究如何利用Hadoop平臺對動作識別方法進行工程實現(xiàn)，將理論與實際應(yīng)用相結(jié)合，同樣具有重要的現(xiàn)實意義與理論價值。多核CPU的快速發(fā)展，提高了計算機的運算速度，而現(xiàn)有動作識別方法運算復(fù)雜，執(zhí)行效率低，研究如何利用多核CPU的并行加速能力對動作識別應(yīng)用進行改進，具有重大意義。

1. 2動作識別相關(guān)研究
早期的時候，研究者試圖對人體進行跟蹤，并把人體部分作為動作分類的特征，這是一種很自然的表示方法，因為人的關(guān)節(jié)的運動就形成了動作。Yacoob和Black[i2]對人體的主要關(guān)節(jié)部分進行跟蹤，并用參數(shù)化方法來表示人體各個部分的旋轉(zhuǎn)和平移，用這些參數(shù)對動作進行表示。Ali等人早期的關(guān)節(jié)模型進行改進，在跟蹤時只跟蹤主要關(guān)節(jié)，使跟蹤更具魯棒性；同時，對側(cè)影進行骨架化，獲得一個支柱組合似人體；在跟蹤關(guān)節(jié)時，形成一個關(guān)節(jié)軌跡，一個視頻序列被表示成一組關(guān)節(jié)軌跡，然后輸入到一個基于模板的K近鄰分類器。Carisson和Sullivan[i4]將動作識別看成一個形狀匹配問題，每個動作通過一個特別的姿勢來表示，識別就通過比較姿勢來完成，實際上就是邊緣匹配，這說明了形狀信息的重要性。Blank等人[15]從每一幀提取人體側(cè)影，將10幀人體側(cè)影序列作為“時空形狀”。從該3D形狀中提取局部特征可以通過解決一個泊松方程來完成，最后使用一個基于模板的最近鄰分類器進行分類。Wang和Suter[i6]也使用了人體側(cè)影對視頻序列進行分類。他們從側(cè)影序列中米用KPCA提取特征，然后使用因子條件隨機場(Factorial Conditional RandomField)進行分類。
…………

第二章卷積神經(jīng)網(wǎng)絡(luò)

2.1神經(jīng)網(wǎng)絡(luò)基本概念
假設(shè)有訓(xùn)練樣本那么神經(jīng)網(wǎng)絡(luò)能夠提供一個非線性復(fù)雜的假設(shè)模型來擬合這些數(shù)據(jù)，它有兩個參數(shù)和對于一個只有單個神經(jīng)元的神經(jīng)網(wǎng)絡(luò)模型，可以由圖2-1表示：
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層與層之間都是全連接網(wǎng)絡(luò)，即輸入層的所有神經(jīng)元都與輸出層的神經(jīng)元相連，假設(shè)輸入層的神經(jīng)元個數(shù)，輸出層的神經(jīng)元個數(shù)，那么連接數(shù)為圖2-3是一個簡單的神經(jīng)網(wǎng)絡(luò)，它具有1個輸入層、1個隱含層、1個輸出層。連接數(shù)實際上就是神經(jīng)元參數(shù)數(shù)目，圖2-3的神經(jīng)網(wǎng)絡(luò)共有16條連接，所以共有16個參數(shù)。當神經(jīng)元個數(shù)非常多時，連接數(shù)非常多，相應(yīng)的訓(xùn)練的參數(shù)非常多，這必然增加訓(xùn)練神經(jīng)網(wǎng)絡(luò)的難度。

2.2卷積神經(jīng)網(wǎng)絡(luò)
1959年，Hubel和Wiese[3G]兩位科學(xué)家在對貓的視覺實驗中發(fā)現(xiàn)了貓的視覺系統(tǒng)是分級的，這種分級可以看成是逐層迭代、抽象的過程：瞳孔接收像素，方向選擇性細胞抽象出邊緣，對邊緣進一步抽象得出形狀，對形狀進一步抽象得出是什么物體。高級特征是低層特征的組合與抽象，越高級的特征越能體現(xiàn)人類的語義信息。圖2-5對這種逐步抽象的分層模型進行了展示，越高層的表示，越具有抽象表達能力。后來研究者提出了一個新名詞來命名這種模型一即“深度學(xué)習(xí)模型”。上述模型正是CNN的雛形，這也是首個深度學(xué)習(xí)模型。圖2-6是Neocognitron的模型示意圖。之后，在實踐和理論分析中，很多學(xué)者為CNN的發(fā)展做出了重大貢獻。
………

第三章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)動作識別方法........ 15
3.1引言.......... 15
第四章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化 ....... 45
4.1引言 ......45
第五章總結(jié)與展望.......... 71
5.1 總結(jié) ........... 71

第四章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化

4.1引言
從海量數(shù)據(jù)中挖掘潛在的信息，推動了基于云平臺的大規(guī)模機器學(xué)習(xí)技術(shù)的快速發(fā)展，目前，基于大規(guī)模機器學(xué)習(xí)的廣告推薦、商品個性化推薦成為互聯(lián)網(wǎng)企業(yè)的必備“掘金術(shù)”。在此背景下，眾多研宄者為了將機器學(xué)習(xí)擴展到大規(guī)模應(yīng)用中做出了諸多嘗試。Mahout[78]是Apache Software Foundation (ASF)基于Hadoop開發(fā)的一個全新的開源項目，其主要目標是創(chuàng)建一些可伸縮的機器學(xué)習(xí)算法，Mahout可以快速有效地擴展到云中，該項目分為推薦、聚類、分類三個模塊，實現(xiàn) 了包括K-Means、Canopy、Naive Bayes、Random Forests等典型的機器學(xué)習(xí)算法，是目前最受歡迎的開源的大規(guī)模機器學(xué)習(xí)庫。

4.2 MapReduce
MapReduce是一個出色的并行編程模型，它在處理一些適定的問題時才能發(fā)揮它的優(yōu)勢，換句話說并不是所有的問題都適用MapReduce。首先，MapReduce適用于大規(guī)模的數(shù)據(jù)處理，一般達到TB級以上，如果數(shù)據(jù)很小，可能橫向擴展(增加集群的單機數(shù)量)的代價要大于縱向擴展(升級硬件)。其次，MapReduce適用于離線文件分析，文件讀寫頻繁時不適用。再者，MapReduce適用于統(tǒng)計，但不適用于建模：因為統(tǒng)計過程可以插分成小任務(wù)再來求和，這與Map和Reduce過程是一致的，比如單詞計數(shù)非常適用于MapReduce;而建模過程往往前后依賴，無法拆分成多個獨立的Map和Reduce過程，比如斐波那契數(shù)列的求解就禾適用MapReduce。最后，MapReduce不適用于需要實時反饋的任務(wù)，因為MapReduce的大規(guī)模處理能力是對于一些無法在可接受的時間內(nèi)給出可行解的任務(wù)，采用MapReduce過程往往能夠給出可行解。
........

第五章總結(jié)與展望

5.1總結(jié)
為了利用MapReduce的大規(guī)模數(shù)據(jù)處理能力，及其并行加速能力，創(chuàng)新性地將稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)在基于MapReduce的Hadoop開源警臺上進行實現(xiàn)，并提出了矩陣分布式乘法等改進措施，最后進行了一系列對比實驗，說明稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)的MapReduce并行化是可行的，并獲得了穩(wěn)定的正確性與一定的加速比。5.2展望

本文的動作識別方法展示出一定的動作分類能力，主要依賴于使用眾多的參數(shù)對人類視覺系統(tǒng)進行模擬，雖然該模型盡量采用自然的、自動的學(xué)習(xí)策略訓(xùn)練眾多參數(shù)，但是依然存在參數(shù)難以調(diào)諧的難題。比如在設(shè)置網(wǎng)絡(luò)的層數(shù)、卷積核的大小等參數(shù)時，依然采用手工設(shè)置的方式，這些參數(shù)變化大，無法找到一種有效的自動學(xué)習(xí)策略進行學(xué)習(xí)，與真正的自然的視覺識別系統(tǒng)相差甚遠。因此，未來的工作可以在參數(shù)的自動學(xué)習(xí)方面進行改進。
動作識別不是一個單一偏狹的問題，它與神經(jīng)科學(xué)、認知科學(xué)等存在非常緊密的聯(lián)系，單單從計算機科學(xué)出發(fā)不可能得以解決，因為僅僅依靠幾個參數(shù)不可能模擬出人類大腦的認知能力，人類大腦的記憶、推理、抽象等功能是一個整體，因此，真正的動作識別方法依賴于人工智能的徹底實現(xiàn)。但是，人工智能的重點不是研究計算機，重點在于研宄人，如果有一天人類完全揭開了人類大腦的工作奧秘，計算機一定能夠展示出人一樣的智能，自然也能像人一樣對動作進行識別。

.........

參考文獻：

[1] 許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D]. 浙江大學(xué) 2012
[2] 宋皓. 基于視覺通路目標識別算法的研究[D]. 合肥工業(yè)大學(xué) 2011
[3] 陸璐. 卷積神經(jīng)網(wǎng)絡(luò)的研究及其在車牌識別系統(tǒng)中的應(yīng)用[D]. 合肥工業(yè)大學(xué) 2006
[4] 肖柏旭. 基于卷積網(wǎng)絡(luò)的人臉檢測的研究與實現(xiàn)[D]. 華北電力大學(xué)（河北） 2007
[5] 吳偉. 基于SAE-PCA模型的ASL字母識別方法研究[D]. 廈門大學(xué) 2014
[6] 陸慶慶. 基于人臉圖像的性別分類[D]. 南京理工大學(xué) 2014
[7] 鄧超. 基于3D DAISY描述符的動作識別[D]. 天津大學(xué) 2012
[8] 劉飛. 基于Kinect骨架信息的人體動作識別[D]. 東華大學(xué) 2014
[9] 張曉婧. 基于時空金字塔稀疏編碼的動作識別[D]. 天津大學(xué) 2012
[10] 劉聰. 包含小數(shù)點的手寫數(shù)字串切分與識別[D]. 廈門大學(xué) 2014

本文編號：8750

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/shoufeilunwen/shuoshibiyelunwen/8750.html

上一篇：我國金融保險行業(yè)健康發(fā)展中的協(xié)整檢驗統(tǒng)計分析與實證研究
下一篇：目前我國國內(nèi)復(fù)合麻醉制劑發(fā)展中所面臨的主要瓶頸

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)動作識別方法及其并行化研究