稀疏自組合時空卷積神經網絡動作識別方法及其并行化研究
發(fā)布時間:2014-09-10 09:39
【摘要】 動作識別系統(tǒng)在現實中具有重要的應用價值,但是現有的動作識別方法依然存在各種各樣的缺陷,研究穩(wěn)定可靠的動作識別方法,對于機器學習的理論發(fā)展與應用推廣具有重要的意義。卷積神經網絡是一種深度學習模型,它受到脊椎動物視覺神經系統(tǒng)的啟發(fā),能夠直接從灰度圖像學習出抽象的高級特征,具有強大的圖像分類能力,但它不能直接應用于視頻中的動作識別。為了將卷積神經網絡的特征提取能力推廣到動作識別,本文對卷積神經網絡進行了擴展,本文的貢獻主要有以下幾個方面:基于時空卷積特征提取,開發(fā)了一個時空卷積神經網絡框架。該模型以多個連續(xù)視頻幀為輸入,交替進行卷積和子采樣操作,逐步提取出多種復雜抽象的高級特征,具有出色的特征學習能力與分類能力。為了進一步提高時空卷積神經網絡的性能,在組合卷積層的輸入特征圖時,提出了一種稀疏自組合策略。通過對輸入特征圖增加稀疏性限制,使卷積層能夠自動學習出最佳的特征圖組合作為輸入,與傳統(tǒng)的手工設置方式相比,省略了手工設置的繁復步驟,實驗表明,采用稀疏自組合策略的時空卷積神經網絡具有更好的特征學習能力與分類能力。提出了一種基于MapReduce的矩陣并行相乘算法,基于該矩陣并行算法,在Hadoop平臺對稀疏自組合時空卷積神經網絡采用MapReduce編程模型并行化,并與串行實驗結果進行了對比,驗證了稀疏自組合時空卷積神經網絡并行化的可行性、穩(wěn)定性、正確性,并獲得了一定的加速比。為了利用多核CPU的計算能力,將MapReduce的Map過程和Reduce過程采用多線程實現,將該算法用于稀疏自組合時空卷積神經網絡的訓練測試,性能進一步得到提高。分別在WEIZMAN和KTH兩個公開數據集上進行了一系列實驗,展示了時空卷積神經網絡在各種場景下的表現性能。實驗結果表明,與其他基準方法相比,本文提出的方法在兩個數據集上表現出了非常有競爭力的結果。
【關鍵詞】 動作識別; 深度學習; 卷積神經網絡; MapReduce; 多核;
第一章緒論
1.1課題背景和研究意義
隨著移動互聯(lián)網的快速發(fā)展,數據規(guī)模迅速增大,同時視頻數據每天以海量方式產生和積累,研宄如何利用深度學習對這些海量視頻數據進行大規(guī)模并行處理,既具有現實的經濟價值,對于發(fā)揮挖掘深度學習的并行處理能力同樣意義重大。MapReduce是由Gooogle公司提出來的一個用于處理海量數據的并行編程模型,由于它簡單實用,因而迅速成為云計算方面的標準模型。是基于MapReduce的JAVA開源實現,具有配置簡單、易擴展、編程容易等特點,從而成為分布式集群的標準配置。研究如何利用Hadoop平臺對動作識別方法進行工程實現,將理論與實際應用相結合,同樣具有重要的現實意義與理論價值。多核CPU的快速發(fā)展,提高了計算機的運算速度,而現有動作識別方法運算復雜,執(zhí)行效率低,研究如何利用多核CPU的并行加速能力對動作識別應用進行改進,具有重大意義。
1. 2動作識別相關研究
早期的時候,研究者試圖對人體進行跟蹤,并把人體部分作為動作分類的特征,這是一種很自然的表示方法,因為人的關節(jié)的運動就形成了動作。Yacoob和Black[i2]對人體的主要關節(jié)部分進行跟蹤,并用參數化方法來表示人體各個部分的旋轉和平移,用這些參數對動作進行表示。Ali等人早期的關節(jié)模型進行改進,在跟蹤時只跟蹤主要關節(jié),使跟蹤更具魯棒性;同時,對側影進行骨架化,獲得一個支柱組合似人體;在跟蹤關節(jié)時,形成一個關節(jié)軌跡,一個視頻序列被表示成一組關節(jié)軌跡,然后輸入到一個基于模板的K近鄰分類器。Carisson和Sullivan[i4]將動作識別看成一個形狀匹配問題,每個動作通過一個特別的姿勢來表示,識別就通過比較姿勢來完成,實際上就是邊緣匹配,這說明了形狀信息的重要性。Blank等人[15]從每一幀提取人體側影,將10幀人體側影序列作為“時空形狀”。從該3D形狀中提取局部特征可以通過解決一個泊松方程來完成,最后使用一個基于模板的最近鄰分類器進行分類。Wang和Suter[i6]也使用了人體側影對視頻序列進行分類。他們從側影序列中米用KPCA提取特征,然后使用因子條件隨機場(Factorial Conditional RandomField)進行分類。
…………
第二章卷積神經網絡
2.1神經網絡基本概念
假設有訓練樣本那么神經網絡能夠提供一個非線性復雜的假設模型來擬合這些數據,它有兩個參數和對于一個只有單個神經元的神經網絡模型,可以由圖2-1表示:
傳統(tǒng)神經網絡層與層之間都是全連接網絡,即輸入層的所有神經元都與輸出層的神經元相連,假設輸入層的神經元個數,輸出層的神經元個數,那么連接數為圖2-3是一個簡單的神經網絡,它具有1個輸入層、1個隱含層、1個輸出層。連接數實際上就是神經元參數數目,圖2-3的神經網絡共有16條連接,所以共有16個參數。當神經元個數非常多時,連接數非常多,相應的訓練的參數非常多,這必然增加訓練神經網絡的難度。

2.2卷積神經網絡
1959年,Hubel和Wiese[3G]兩位科學家在對貓的視覺實驗中發(fā)現了貓的視覺系統(tǒng)是分級的,這種分級可以看成是逐層迭代、抽象的過程:瞳孔接收像素,方向選擇性細胞抽象出邊緣,對邊緣進一步抽象得出形狀,對形狀進一步抽象得出是什么物體。高級特征是低層特征的組合與抽象,越高級的特征越能體現人類的語義信息。圖2-5對這種逐步抽象的分層模型進行了展示,越高層的表示,越具有抽象表達能力。后來研究者提出了一個新名詞來命名這種模型一即“深度學習模型”。 上述模型正是CNN的雛形,這也是首個深度學習模型。圖2-6是Neocognitron的模型示意圖。之后,在實踐和理論分析中,很多學者為CNN的發(fā)展做出了重大貢獻。
………
第三章稀疏自組合時空卷積神經網絡動作識別方法........ 15
3.1引言.......... 15
第四章稀疏自組合時空卷積神經網絡并行化 ....... 45
4.1引言 ......45
第五章總結與展望.......... 71
5.1 總結 ........... 71
第四章稀疏自組合時空卷積神經網絡并行化
4.1引言
從海量數據中挖掘潛在的信息,推動了基于云平臺的大規(guī)模機器學習技術的快速發(fā)展,目前,基于大規(guī)模機器學習的廣告推薦、商品個性化推薦成為互聯(lián)網企業(yè)的必備“掘金術”。在此背景下,眾多研宄者為了將機器學習擴展到大規(guī)模應用中做出 了諸多嘗試。Mahout[78]是Apache Software Foundation (ASF)基于Hadoop開發(fā)的一個全新的開源項目,其主要目標是創(chuàng)建一些可伸縮的機器學習算法,Mahout可以快速有效地擴展到云中,該項目分為推薦、聚類、分類三個模塊,實現 了包括K-Means、Canopy、Naive Bayes、Random Forests等典型的機器學習算法,是目前最受歡迎的開源的大規(guī)模機器學習庫。
4.2 MapReduce
MapReduce是一個出色的并行編程模型,它在處理一些適定的問題時才能發(fā)揮它的優(yōu)勢,換句話說并不是所有的問題都適用MapReduce。首先,MapReduce適用于大規(guī)模的數據處理,一般達到TB級以上,如果數據很小,可能橫向擴展(增加集群的單機數量)的代價要大于縱向擴展(升級硬件)。其次,MapReduce適用于離線文件分析,文件讀寫頻繁時不適用。再者,MapReduce適用于統(tǒng)計,但不適用于建模:因為統(tǒng)計過程可以插分成小任務再來求和,這與Map和Reduce過程是一致的,比如單詞計數非常適用于MapReduce;而建模過程往往前后依賴,無法拆分成多個獨立的Map和Reduce過程,比如斐波那契數列的求解就禾適用MapReduce。最后,MapReduce不適用于需要實時反饋的任務,因為MapReduce的大規(guī)模處理能力是對于一些無法在可接受的時間內給出可行解的任務,采用MapReduce過程往往能夠給出可行解。
........
第五章總結與展望
5.1總結
為了利用MapReduce的大規(guī)模數據處理能力,及其并行加速能力,創(chuàng)新性地將稀疏自組合時空卷積神經網絡在基于MapReduce的Hadoop開源警臺上進行實現,并提出了矩陣分布式乘法等改進措施,最后進行了一系列對比實驗,說明稀疏自組合時空卷積神經網絡的MapReduce并行化是可行的,并獲得了穩(wěn)定的正確性與一定的加速比。5.2展望
本文編號:8750
【關鍵詞】 動作識別; 深度學習; 卷積神經網絡; MapReduce; 多核;
第一章緒論
1.1課題背景和研究意義
隨著移動互聯(lián)網的快速發(fā)展,數據規(guī)模迅速增大,同時視頻數據每天以海量方式產生和積累,研宄如何利用深度學習對這些海量視頻數據進行大規(guī)模并行處理,既具有現實的經濟價值,對于發(fā)揮挖掘深度學習的并行處理能力同樣意義重大。MapReduce是由Gooogle公司提出來的一個用于處理海量數據的并行編程模型,由于它簡單實用,因而迅速成為云計算方面的標準模型。是基于MapReduce的JAVA開源實現,具有配置簡單、易擴展、編程容易等特點,從而成為分布式集群的標準配置。研究如何利用Hadoop平臺對動作識別方法進行工程實現,將理論與實際應用相結合,同樣具有重要的現實意義與理論價值。多核CPU的快速發(fā)展,提高了計算機的運算速度,而現有動作識別方法運算復雜,執(zhí)行效率低,研究如何利用多核CPU的并行加速能力對動作識別應用進行改進,具有重大意義。
1. 2動作識別相關研究
早期的時候,研究者試圖對人體進行跟蹤,并把人體部分作為動作分類的特征,這是一種很自然的表示方法,因為人的關節(jié)的運動就形成了動作。Yacoob和Black[i2]對人體的主要關節(jié)部分進行跟蹤,并用參數化方法來表示人體各個部分的旋轉和平移,用這些參數對動作進行表示。Ali等人早期的關節(jié)模型進行改進,在跟蹤時只跟蹤主要關節(jié),使跟蹤更具魯棒性;同時,對側影進行骨架化,獲得一個支柱組合似人體;在跟蹤關節(jié)時,形成一個關節(jié)軌跡,一個視頻序列被表示成一組關節(jié)軌跡,然后輸入到一個基于模板的K近鄰分類器。Carisson和Sullivan[i4]將動作識別看成一個形狀匹配問題,每個動作通過一個特別的姿勢來表示,識別就通過比較姿勢來完成,實際上就是邊緣匹配,這說明了形狀信息的重要性。Blank等人[15]從每一幀提取人體側影,將10幀人體側影序列作為“時空形狀”。從該3D形狀中提取局部特征可以通過解決一個泊松方程來完成,最后使用一個基于模板的最近鄰分類器進行分類。Wang和Suter[i6]也使用了人體側影對視頻序列進行分類。他們從側影序列中米用KPCA提取特征,然后使用因子條件隨機場(Factorial Conditional RandomField)進行分類。
…………
第二章卷積神經網絡
2.1神經網絡基本概念
假設有訓練樣本那么神經網絡能夠提供一個非線性復雜的假設模型來擬合這些數據,它有兩個參數和對于一個只有單個神經元的神經網絡模型,可以由圖2-1表示:
傳統(tǒng)神經網絡層與層之間都是全連接網絡,即輸入層的所有神經元都與輸出層的神經元相連,假設輸入層的神經元個數,輸出層的神經元個數,那么連接數為圖2-3是一個簡單的神經網絡,它具有1個輸入層、1個隱含層、1個輸出層。連接數實際上就是神經元參數數目,圖2-3的神經網絡共有16條連接,所以共有16個參數。當神經元個數非常多時,連接數非常多,相應的訓練的參數非常多,這必然增加訓練神經網絡的難度。

2.2卷積神經網絡
1959年,Hubel和Wiese[3G]兩位科學家在對貓的視覺實驗中發(fā)現了貓的視覺系統(tǒng)是分級的,這種分級可以看成是逐層迭代、抽象的過程:瞳孔接收像素,方向選擇性細胞抽象出邊緣,對邊緣進一步抽象得出形狀,對形狀進一步抽象得出是什么物體。高級特征是低層特征的組合與抽象,越高級的特征越能體現人類的語義信息。圖2-5對這種逐步抽象的分層模型進行了展示,越高層的表示,越具有抽象表達能力。后來研究者提出了一個新名詞來命名這種模型一即“深度學習模型”。 上述模型正是CNN的雛形,這也是首個深度學習模型。圖2-6是Neocognitron的模型示意圖。之后,在實踐和理論分析中,很多學者為CNN的發(fā)展做出了重大貢獻。
………
第三章稀疏自組合時空卷積神經網絡動作識別方法........ 15
3.1引言.......... 15
第四章稀疏自組合時空卷積神經網絡并行化 ....... 45
4.1引言 ......45
第五章總結與展望.......... 71
5.1 總結 ........... 71
第四章稀疏自組合時空卷積神經網絡并行化
4.1引言
從海量數據中挖掘潛在的信息,推動了基于云平臺的大規(guī)模機器學習技術的快速發(fā)展,目前,基于大規(guī)模機器學習的廣告推薦、商品個性化推薦成為互聯(lián)網企業(yè)的必備“掘金術”。在此背景下,眾多研宄者為了將機器學習擴展到大規(guī)模應用中做出 了諸多嘗試。Mahout[78]是Apache Software Foundation (ASF)基于Hadoop開發(fā)的一個全新的開源項目,其主要目標是創(chuàng)建一些可伸縮的機器學習算法,Mahout可以快速有效地擴展到云中,該項目分為推薦、聚類、分類三個模塊,實現 了包括K-Means、Canopy、Naive Bayes、Random Forests等典型的機器學習算法,是目前最受歡迎的開源的大規(guī)模機器學習庫。
4.2 MapReduce
MapReduce是一個出色的并行編程模型,它在處理一些適定的問題時才能發(fā)揮它的優(yōu)勢,換句話說并不是所有的問題都適用MapReduce。首先,MapReduce適用于大規(guī)模的數據處理,一般達到TB級以上,如果數據很小,可能橫向擴展(增加集群的單機數量)的代價要大于縱向擴展(升級硬件)。其次,MapReduce適用于離線文件分析,文件讀寫頻繁時不適用。再者,MapReduce適用于統(tǒng)計,但不適用于建模:因為統(tǒng)計過程可以插分成小任務再來求和,這與Map和Reduce過程是一致的,比如單詞計數非常適用于MapReduce;而建模過程往往前后依賴,無法拆分成多個獨立的Map和Reduce過程,比如斐波那契數列的求解就禾適用MapReduce。最后,MapReduce不適用于需要實時反饋的任務,因為MapReduce的大規(guī)模處理能力是對于一些無法在可接受的時間內給出可行解的任務,采用MapReduce過程往往能夠給出可行解。
........
第五章總結與展望
5.1總結
為了利用MapReduce的大規(guī)模數據處理能力,及其并行加速能力,創(chuàng)新性地將稀疏自組合時空卷積神經網絡在基于MapReduce的Hadoop開源警臺上進行實現,并提出了矩陣分布式乘法等改進措施,最后進行了一系列對比實驗,說明稀疏自組合時空卷積神經網絡的MapReduce并行化是可行的,并獲得了穩(wěn)定的正確性與一定的加速比。5.2展望
本文的動作識別方法展示出一定的動作分類能力,主要依賴于使用眾多的參數對人類視覺系統(tǒng)進行模擬,雖然該模型盡量采用自然的、自動的學習策略訓練眾多參數,但是依然存在參數難以調諧的難題。比如在設置網絡的層數、卷積核的大小等參數時,依然采用手工設置的方式,這些參數變化大,無法找到一種有效的自動學習策略進行學習,與真正的自然的視覺識別系統(tǒng)相差甚遠。因此,未來的工作可以在參數的自動學習方面進行改進。
動作識別不是一個單一偏狹的問題,它與神經科學、認知科學等存在非常緊密的聯(lián)系,單單從計算機科學出發(fā)不可能得以解決,因為僅僅依靠幾個參數不可能模擬出人類大腦的認知能力,人類大腦的記憶、推理、抽象等功能是一個整體,因此,真正的動作識別方法依賴于人工智能的徹底實現。但是,人工智能的重點不是研究計算機,重點在于研宄人,如果有一天人類完全揭開了人類大腦的工作奧秘,計算機一定能夠展示出人一樣的智能,自然也能像人一樣對動作進行識別。
.........
參考文獻:
- [1] 許可. 卷積神經網絡在圖像識別上的應用的研究[D]. 浙江大學 2012
- [2] 宋皓. 基于視覺通路目標識別算法的研究[D]. 合肥工業(yè)大學 2011
- [3] 陸璐. 卷積神經網絡的研究及其在車牌識別系統(tǒng)中的應用[D]. 合肥工業(yè)大學 2006
- [4] 肖柏旭. 基于卷積網絡的人臉檢測的研究與實現[D]. 華北電力大學(河北) 2007
- [5] 吳偉. 基于SAE-PCA模型的ASL字母識別方法研究[D]. 廈門大學 2014
- [6] 陸慶慶. 基于人臉圖像的性別分類[D]. 南京理工大學 2014
- [7] 鄧超. 基于3D DAISY描述符的動作識別[D]. 天津大學 2012
- [8] 劉飛. 基于Kinect骨架信息的人體動作識別[D]. 東華大學 2014
- [9] 張曉婧. 基于時空金字塔稀疏編碼的動作識別[D]. 天津大學 2012
- [10] 劉聰. 包含小數點的手寫數字串切分與識別[D]. 廈門大學 2014
本文編號:8750
本文鏈接:http://www.lk138.cn/shoufeilunwen/shuoshibiyelunwen/8750.html