聾啞人手語識(shí)別關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2020-04-11 17:47
【摘要】:殘障人士這一特殊群體的數(shù)量非常龐大,伴隨著教育需求的日益增長,讓教育發(fā)展的成果更多、更公平地惠及殘障人士是構(gòu)建開放融合式現(xiàn)代教育體系的必然趨勢?萍拣^作為殘障人士非正式學(xué)習(xí)的主要場所,是他們接受教育的重要途徑之一。其中,聽力受損及語言殘障人群面臨的交流障礙主要包括獲取展品信息困難和科技館工作人員無法理解作為聾啞人主要溝通方式的手語。因此,利用新興信息技術(shù)對手語進(jìn)行識(shí)別有助于聾啞人群與健聽人之間進(jìn)行順暢的溝通,對于構(gòu)建和諧社會(huì)以及完善全民教育體系具有重要的現(xiàn)實(shí)意義。同時(shí),作為人類身體最直觀的表達(dá),手語的應(yīng)用有助于人機(jī)交互向更加自然、便捷的方式升級(jí)。因此手語識(shí)別是當(dāng)今人工智能領(lǐng)域的研究熱點(diǎn)。近年來,作為新一波人工智能浪潮的排頭兵,深度學(xué)習(xí)為模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域注入了新的活力。伴隨著Kinect V2等新型體感交互設(shè)備的普及應(yīng)用,手語識(shí)別研究也迎來了新的契機(jī)。當(dāng)前手語的識(shí)別主要存在以下幾個(gè)具有挑戰(zhàn)性的關(guān)鍵問題:(1)聾啞人手語數(shù)據(jù)集的有效性難以保證。一方面,為了使訓(xùn)練的模型能夠適應(yīng)面向非特定人的手語識(shí)別,需要大量采集不同人的演示數(shù)據(jù);另一方面,很少有研究能夠使用真正的聾人數(shù)據(jù)集,在使用規(guī)范手語數(shù)據(jù)的情況下,采集到的數(shù)據(jù)規(guī)模較小、容錯(cuò)能力差,差異性實(shí)際上又被忽略。(2)手語的實(shí)際應(yīng)用場景往往比較復(fù)雜,背景和光照等客觀因素對算法的識(shí)別效果有較大的干擾。(3)與傳統(tǒng)的手勢相比,手語序列存在著表意詞豐富、動(dòng)作靈活多變等特點(diǎn),并且嚴(yán)重的肢體遮擋現(xiàn)象也較為常見,這就使得設(shè)計(jì)有辨識(shí)性的手語表征較為困難。(4)手語識(shí)別的最終目標(biāo)是實(shí)現(xiàn)連續(xù)手語的識(shí)別,然而,連續(xù)手語的詞與詞之間存在不屬于任何一個(gè)手語詞的過渡冗余數(shù)據(jù),這會(huì)嚴(yán)重影響連續(xù)手語識(shí)別的精度;谏鲜霰尘,本文緊扣深度學(xué)習(xí)聾啞人手語識(shí)別這一研究立足點(diǎn),對三維卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)、注意力機(jī)制以及多模式融合等模型進(jìn)行了重點(diǎn)的探索,并基于這些模型具體實(shí)現(xiàn)了動(dòng)態(tài)手語關(guān)鍵詞和連續(xù)手語序列的識(shí)別,取得了一些富有實(shí)際意義的研究成果:1.針對問題(1),本文對手語識(shí)別方法隨著交互設(shè)備的不斷演變所經(jīng)歷的幾個(gè)階段進(jìn)行了梳理,對識(shí)別精確度和交互體驗(yàn)等要素綜合考量后,提出了基于計(jì)算機(jī)視覺和新一代體感交互設(shè)備的手語識(shí)別方案。針對特殊的光照和背景噪聲干擾等條件,使用Kinect V2傳感器探索出了多模態(tài)同源數(shù)據(jù)采集方案,并構(gòu)建了自主的聾啞人手語公開數(shù)據(jù)集。2.針對問題(2),本文提出了一種融合多模態(tài)同源數(shù)據(jù)的三維卷積神經(jīng)網(wǎng)絡(luò)手語識(shí)別方法。該方法借助深層架構(gòu)強(qiáng)大的端到端自主學(xué)習(xí)能力來取代傳統(tǒng)的人工特征選取;通過構(gòu)建雙列深度神經(jīng)網(wǎng)絡(luò),分別從紅外圖像和輪廓圖像中逐層抽取和學(xué)習(xí)動(dòng)態(tài)手語中具有區(qū)分性的時(shí)空特征,并利用骨骼數(shù)據(jù)對兩種圖像數(shù)據(jù)中的上肢運(yùn)動(dòng)軌跡進(jìn)行準(zhǔn)確的定位。最后,采用深度學(xué)習(xí)的融合策略對兩列子網(wǎng)絡(luò)的分類結(jié)果進(jìn)行加權(quán)融合,從而有效避免單列網(wǎng)絡(luò)分類器由于數(shù)據(jù)丟失所引起的分類錯(cuò)誤,使模型對背景噪聲和因不同光照條件而產(chǎn)生的干擾具有較高的準(zhǔn)確性。3.針對問題(3),本文提出了一種基于寬殘差和可卷積長短時(shí)記憶網(wǎng)絡(luò)的融合式框架對手語序列進(jìn)行精確的表征。該框架首先以三維卷積神經(jīng)網(wǎng)絡(luò)作為視頻數(shù)據(jù)的特征提取器,以產(chǎn)生能夠反映手語特點(diǎn)的短時(shí)空特征。而后,以雙向可卷積長短時(shí)記憶網(wǎng)絡(luò)對這些固定長度的短時(shí)空特征進(jìn)行充分的時(shí)空編碼,進(jìn)一步形成手語的全局關(guān)聯(lián)信息。在模型的后半段,引入堆疊的寬殘差模塊對特征進(jìn)準(zhǔn)確的分類,并最終通過融合策略對兩種獨(dú)立的數(shù)據(jù)分類結(jié)果進(jìn)行融合,從而有效提高了模型對手語的辨識(shí)能力。4.針對問題(4),文本提出了一種基于可卷積長短時(shí)記憶網(wǎng)絡(luò)注意力機(jī)制的連續(xù)手語識(shí)別方法。面對需要處理的連續(xù)手語,該方法使用偽三維殘差網(wǎng)絡(luò)結(jié)合平衡鉸鏈損失函數(shù)對長序列中的過渡幀進(jìn)行檢測,判定出手語關(guān)鍵詞的時(shí)間邊界。在手語識(shí)別階段,以偽殘差網(wǎng)絡(luò)從視頻流中提取手語的空間特征和短時(shí)動(dòng)態(tài)特征:使用融合注意力機(jī)制的可卷積長短時(shí)記憶網(wǎng)絡(luò)對短時(shí)空特征進(jìn)行編碼,以充分獲取手語的上下文長時(shí)空信息;在特征分類部分,引入了寬殘差模塊對空間特征進(jìn)行精確表征從而得到連續(xù)手語的最終識(shí)別結(jié)果。
【圖文】:
圖1.1:聾啞人在場館下進(jìn)行的非正式學(xué)習(xí)示例逡逑手語是聾啞人之間互相溝通以及聾啞人與健聽人交流最有利的工具之一,也是聾啞人群獲逡逑取服務(wù)信息從而平等高效參與社會(huì)群體活動(dòng)最重要、最自然的途徑。因此,利用人工智能技術(shù)逡逑對聾啞人手語進(jìn)行識(shí)別,不僅可以優(yōu)化聾啞人的科技館學(xué)習(xí)體驗(yàn),還能夠完善和創(chuàng)新科技館的逡逑學(xué)習(xí)支持服務(wù)體系。同時(shí),如果將手語識(shí)別技術(shù)應(yīng)用在聾啞人的手語教學(xué)中,可以豐富聾啞人逡逑
博士學(xué)位論文逡逑DOCTORAL邋DISSERTATION逡逑語關(guān)鍵詞的時(shí)間分割邊界。在手語關(guān)鍵詞識(shí)別階段,以偽殘差3D網(wǎng)絡(luò)從手語序列中提取逡逑間特征和短時(shí)動(dòng)態(tài)特征:使用融合注意力機(jī)制的可卷積長短時(shí)記憶網(wǎng)絡(luò)對短時(shí)空特征進(jìn)行逡逑,使模型在一系列全局運(yùn)動(dòng)特征中有選擇性地關(guān)注視覺空間和時(shí)間序列中的關(guān)鍵特征。在逡逑的后半段,引入寬殘差模塊對手語關(guān)鍵詞張量進(jìn)行精確分類從而得到整個(gè)連續(xù)手語的識(shí)別逡逑。逡逑1.4.2論文結(jié)構(gòu)逡逑本文是作者在攻讀博士學(xué)位期間,參與科技館環(huán)境下的聾啞人無障礙展教技術(shù)研究的主要逡逑總結(jié)。形成的部分研宄成果己經(jīng)見刊(詳見文末附錄),結(jié)合以上列舉的創(chuàng)新點(diǎn),,本文的結(jié)逡逑排如下:逡逑聾啞人豐語翻遂的.盅|邐I邐^——逡逑.逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP18;G40-057
【圖文】:
圖1.1:聾啞人在場館下進(jìn)行的非正式學(xué)習(xí)示例逡逑手語是聾啞人之間互相溝通以及聾啞人與健聽人交流最有利的工具之一,也是聾啞人群獲逡逑取服務(wù)信息從而平等高效參與社會(huì)群體活動(dòng)最重要、最自然的途徑。因此,利用人工智能技術(shù)逡逑對聾啞人手語進(jìn)行識(shí)別,不僅可以優(yōu)化聾啞人的科技館學(xué)習(xí)體驗(yàn),還能夠完善和創(chuàng)新科技館的逡逑學(xué)習(xí)支持服務(wù)體系。同時(shí),如果將手語識(shí)別技術(shù)應(yīng)用在聾啞人的手語教學(xué)中,可以豐富聾啞人逡逑
博士學(xué)位論文逡逑DOCTORAL邋DISSERTATION逡逑語關(guān)鍵詞的時(shí)間分割邊界。在手語關(guān)鍵詞識(shí)別階段,以偽殘差3D網(wǎng)絡(luò)從手語序列中提取逡逑間特征和短時(shí)動(dòng)態(tài)特征:使用融合注意力機(jī)制的可卷積長短時(shí)記憶網(wǎng)絡(luò)對短時(shí)空特征進(jìn)行逡逑,使模型在一系列全局運(yùn)動(dòng)特征中有選擇性地關(guān)注視覺空間和時(shí)間序列中的關(guān)鍵特征。在逡逑的后半段,引入寬殘差模塊對手語關(guān)鍵詞張量進(jìn)行精確分類從而得到整個(gè)連續(xù)手語的識(shí)別逡逑。逡逑1.4.2論文結(jié)構(gòu)逡逑本文是作者在攻讀博士學(xué)位期間,參與科技館環(huán)境下的聾啞人無障礙展教技術(shù)研究的主要逡逑總結(jié)。形成的部分研宄成果己經(jīng)見刊(詳見文末附錄),結(jié)合以上列舉的創(chuàng)新點(diǎn),,本文的結(jié)逡逑排如下:逡逑聾啞人豐語翻遂的.盅|邐I邐^——逡逑.逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP18;G40-057
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 倪訓(xùn)博;趙德斌;高文;姜峰;姚鴻勛;;非特定人手語數(shù)據(jù)生成及其有效性檢測[J];軟件學(xué)報(bào);2010年05期
2 姜峰;高文;姚鴻勛;陳熙霖;;手勢手語力效分析[J];計(jì)算機(jī)學(xué)報(bào);2007年05期
3 姜峰;高文;王春立;姚鴻勛;趙德斌;;非特定人手語識(shí)別進(jìn)展及關(guān)鍵問題研究思路[J];軟件學(xué)報(bào);2007年03期
4 付玉錦,原魁,朱海兵,杜清秀;CAS-Glove型數(shù)據(jù)手套運(yùn)動(dòng)建模與軟件系統(tǒng)開發(fā)[J];系統(tǒng)仿真學(xué)報(bào);2004年04期
5 任海兵,徐光yP,林學(xué)
本文編號(hào):2623866
本文鏈接:http://www.lk138.cn/jiaoyulunwen/xuexiaoguanli/2623866.html
最近更新
教材專著