聾啞人手語(yǔ)識(shí)別關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2020-04-11 17:47
【摘要】:殘障人士這一特殊群體的數(shù)量非常龐大,伴隨著教育需求的日益增長(zhǎng),讓教育發(fā)展的成果更多、更公平地惠及殘障人士是構(gòu)建開(kāi)放融合式現(xiàn)代教育體系的必然趨勢(shì)?萍拣^作為殘障人士非正式學(xué)習(xí)的主要場(chǎng)所,是他們接受教育的重要途徑之一。其中,聽(tīng)力受損及語(yǔ)言殘障人群面臨的交流障礙主要包括獲取展品信息困難和科技館工作人員無(wú)法理解作為聾啞人主要溝通方式的手語(yǔ)。因此,利用新興信息技術(shù)對(duì)手語(yǔ)進(jìn)行識(shí)別有助于聾啞人群與健聽(tīng)人之間進(jìn)行順暢的溝通,對(duì)于構(gòu)建和諧社會(huì)以及完善全民教育體系具有重要的現(xiàn)實(shí)意義。同時(shí),作為人類(lèi)身體最直觀的表達(dá),手語(yǔ)的應(yīng)用有助于人機(jī)交互向更加自然、便捷的方式升級(jí)。因此手語(yǔ)識(shí)別是當(dāng)今人工智能領(lǐng)域的研究熱點(diǎn)。近年來(lái),作為新一波人工智能浪潮的排頭兵,深度學(xué)習(xí)為模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域注入了新的活力。伴隨著Kinect V2等新型體感交互設(shè)備的普及應(yīng)用,手語(yǔ)識(shí)別研究也迎來(lái)了新的契機(jī)。當(dāng)前手語(yǔ)的識(shí)別主要存在以下幾個(gè)具有挑戰(zhàn)性的關(guān)鍵問(wèn)題:(1)聾啞人手語(yǔ)數(shù)據(jù)集的有效性難以保證。一方面,為了使訓(xùn)練的模型能夠適應(yīng)面向非特定人的手語(yǔ)識(shí)別,需要大量采集不同人的演示數(shù)據(jù);另一方面,很少有研究能夠使用真正的聾人數(shù)據(jù)集,在使用規(guī)范手語(yǔ)數(shù)據(jù)的情況下,采集到的數(shù)據(jù)規(guī)模較小、容錯(cuò)能力差,差異性實(shí)際上又被忽略。(2)手語(yǔ)的實(shí)際應(yīng)用場(chǎng)景往往比較復(fù)雜,背景和光照等客觀因素對(duì)算法的識(shí)別效果有較大的干擾。(3)與傳統(tǒng)的手勢(shì)相比,手語(yǔ)序列存在著表意詞豐富、動(dòng)作靈活多變等特點(diǎn),并且嚴(yán)重的肢體遮擋現(xiàn)象也較為常見(jiàn),這就使得設(shè)計(jì)有辨識(shí)性的手語(yǔ)表征較為困難。(4)手語(yǔ)識(shí)別的最終目標(biāo)是實(shí)現(xiàn)連續(xù)手語(yǔ)的識(shí)別,然而,連續(xù)手語(yǔ)的詞與詞之間存在不屬于任何一個(gè)手語(yǔ)詞的過(guò)渡冗余數(shù)據(jù),這會(huì)嚴(yán)重影響連續(xù)手語(yǔ)識(shí)別的精度;谏鲜霰尘,本文緊扣深度學(xué)習(xí)聾啞人手語(yǔ)識(shí)別這一研究立足點(diǎn),對(duì)三維卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)、注意力機(jī)制以及多模式融合等模型進(jìn)行了重點(diǎn)的探索,并基于這些模型具體實(shí)現(xiàn)了動(dòng)態(tài)手語(yǔ)關(guān)鍵詞和連續(xù)手語(yǔ)序列的識(shí)別,取得了一些富有實(shí)際意義的研究成果:1.針對(duì)問(wèn)題(1),本文對(duì)手語(yǔ)識(shí)別方法隨著交互設(shè)備的不斷演變所經(jīng)歷的幾個(gè)階段進(jìn)行了梳理,對(duì)識(shí)別精確度和交互體驗(yàn)等要素綜合考量后,提出了基于計(jì)算機(jī)視覺(jué)和新一代體感交互設(shè)備的手語(yǔ)識(shí)別方案。針對(duì)特殊的光照和背景噪聲干擾等條件,使用Kinect V2傳感器探索出了多模態(tài)同源數(shù)據(jù)采集方案,并構(gòu)建了自主的聾啞人手語(yǔ)公開(kāi)數(shù)據(jù)集。2.針對(duì)問(wèn)題(2),本文提出了一種融合多模態(tài)同源數(shù)據(jù)的三維卷積神經(jīng)網(wǎng)絡(luò)手語(yǔ)識(shí)別方法。該方法借助深層架構(gòu)強(qiáng)大的端到端自主學(xué)習(xí)能力來(lái)取代傳統(tǒng)的人工特征選取;通過(guò)構(gòu)建雙列深度神經(jīng)網(wǎng)絡(luò),分別從紅外圖像和輪廓圖像中逐層抽取和學(xué)習(xí)動(dòng)態(tài)手語(yǔ)中具有區(qū)分性的時(shí)空特征,并利用骨骼數(shù)據(jù)對(duì)兩種圖像數(shù)據(jù)中的上肢運(yùn)動(dòng)軌跡進(jìn)行準(zhǔn)確的定位。最后,采用深度學(xué)習(xí)的融合策略對(duì)兩列子網(wǎng)絡(luò)的分類(lèi)結(jié)果進(jìn)行加權(quán)融合,從而有效避免單列網(wǎng)絡(luò)分類(lèi)器由于數(shù)據(jù)丟失所引起的分類(lèi)錯(cuò)誤,使模型對(duì)背景噪聲和因不同光照條件而產(chǎn)生的干擾具有較高的準(zhǔn)確性。3.針對(duì)問(wèn)題(3),本文提出了一種基于寬殘差和可卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的融合式框架對(duì)手語(yǔ)序列進(jìn)行精確的表征。該框架首先以三維卷積神經(jīng)網(wǎng)絡(luò)作為視頻數(shù)據(jù)的特征提取器,以產(chǎn)生能夠反映手語(yǔ)特點(diǎn)的短時(shí)空特征。而后,以雙向可卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)這些固定長(zhǎng)度的短時(shí)空特征進(jìn)行充分的時(shí)空編碼,進(jìn)一步形成手語(yǔ)的全局關(guān)聯(lián)信息。在模型的后半段,引入堆疊的寬殘差模塊對(duì)特征進(jìn)準(zhǔn)確的分類(lèi),并最終通過(guò)融合策略對(duì)兩種獨(dú)立的數(shù)據(jù)分類(lèi)結(jié)果進(jìn)行融合,從而有效提高了模型對(duì)手語(yǔ)的辨識(shí)能力。4.針對(duì)問(wèn)題(4),文本提出了一種基于可卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)注意力機(jī)制的連續(xù)手語(yǔ)識(shí)別方法。面對(duì)需要處理的連續(xù)手語(yǔ),該方法使用偽三維殘差網(wǎng)絡(luò)結(jié)合平衡鉸鏈損失函數(shù)對(duì)長(zhǎng)序列中的過(guò)渡幀進(jìn)行檢測(cè),判定出手語(yǔ)關(guān)鍵詞的時(shí)間邊界。在手語(yǔ)識(shí)別階段,以偽殘差網(wǎng)絡(luò)從視頻流中提取手語(yǔ)的空間特征和短時(shí)動(dòng)態(tài)特征:使用融合注意力機(jī)制的可卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)短時(shí)空特征進(jìn)行編碼,以充分獲取手語(yǔ)的上下文長(zhǎng)時(shí)空信息;在特征分類(lèi)部分,引入了寬殘差模塊對(duì)空間特征進(jìn)行精確表征從而得到連續(xù)手語(yǔ)的最終識(shí)別結(jié)果。
【圖文】:
圖1.1:聾啞人在場(chǎng)館下進(jìn)行的非正式學(xué)習(xí)示例逡逑手語(yǔ)是聾啞人之間互相溝通以及聾啞人與健聽(tīng)人交流最有利的工具之一,也是聾啞人群獲逡逑取服務(wù)信息從而平等高效參與社會(huì)群體活動(dòng)最重要、最自然的途徑。因此,利用人工智能技術(shù)逡逑對(duì)聾啞人手語(yǔ)進(jìn)行識(shí)別,不僅可以?xún)?yōu)化聾啞人的科技館學(xué)習(xí)體驗(yàn),還能夠完善和創(chuàng)新科技館的逡逑學(xué)習(xí)支持服務(wù)體系。同時(shí),如果將手語(yǔ)識(shí)別技術(shù)應(yīng)用在聾啞人的手語(yǔ)教學(xué)中,可以豐富聾啞人逡逑
博士學(xué)位論文逡逑DOCTORAL邋DISSERTATION逡逑語(yǔ)關(guān)鍵詞的時(shí)間分割邊界。在手語(yǔ)關(guān)鍵詞識(shí)別階段,以偽殘差3D網(wǎng)絡(luò)從手語(yǔ)序列中提取逡逑間特征和短時(shí)動(dòng)態(tài)特征:使用融合注意力機(jī)制的可卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)短時(shí)空特征進(jìn)行逡逑,使模型在一系列全局運(yùn)動(dòng)特征中有選擇性地關(guān)注視覺(jué)空間和時(shí)間序列中的關(guān)鍵特征。在逡逑的后半段,引入寬殘差模塊對(duì)手語(yǔ)關(guān)鍵詞張量進(jìn)行精確分類(lèi)從而得到整個(gè)連續(xù)手語(yǔ)的識(shí)別逡逑。逡逑1.4.2論文結(jié)構(gòu)逡逑本文是作者在攻讀博士學(xué)位期間,參與科技館環(huán)境下的聾啞人無(wú)障礙展教技術(shù)研究的主要逡逑總結(jié)。形成的部分研宄成果己經(jīng)見(jiàn)刊(詳見(jiàn)文末附錄),結(jié)合以上列舉的創(chuàng)新點(diǎn),,本文的結(jié)逡逑排如下:逡逑聾啞人豐語(yǔ)翻遂的.盅|邐I邐^——逡逑.逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP18;G40-057
【圖文】:
圖1.1:聾啞人在場(chǎng)館下進(jìn)行的非正式學(xué)習(xí)示例逡逑手語(yǔ)是聾啞人之間互相溝通以及聾啞人與健聽(tīng)人交流最有利的工具之一,也是聾啞人群獲逡逑取服務(wù)信息從而平等高效參與社會(huì)群體活動(dòng)最重要、最自然的途徑。因此,利用人工智能技術(shù)逡逑對(duì)聾啞人手語(yǔ)進(jìn)行識(shí)別,不僅可以?xún)?yōu)化聾啞人的科技館學(xué)習(xí)體驗(yàn),還能夠完善和創(chuàng)新科技館的逡逑學(xué)習(xí)支持服務(wù)體系。同時(shí),如果將手語(yǔ)識(shí)別技術(shù)應(yīng)用在聾啞人的手語(yǔ)教學(xué)中,可以豐富聾啞人逡逑
博士學(xué)位論文逡逑DOCTORAL邋DISSERTATION逡逑語(yǔ)關(guān)鍵詞的時(shí)間分割邊界。在手語(yǔ)關(guān)鍵詞識(shí)別階段,以偽殘差3D網(wǎng)絡(luò)從手語(yǔ)序列中提取逡逑間特征和短時(shí)動(dòng)態(tài)特征:使用融合注意力機(jī)制的可卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)短時(shí)空特征進(jìn)行逡逑,使模型在一系列全局運(yùn)動(dòng)特征中有選擇性地關(guān)注視覺(jué)空間和時(shí)間序列中的關(guān)鍵特征。在逡逑的后半段,引入寬殘差模塊對(duì)手語(yǔ)關(guān)鍵詞張量進(jìn)行精確分類(lèi)從而得到整個(gè)連續(xù)手語(yǔ)的識(shí)別逡逑。逡逑1.4.2論文結(jié)構(gòu)逡逑本文是作者在攻讀博士學(xué)位期間,參與科技館環(huán)境下的聾啞人無(wú)障礙展教技術(shù)研究的主要逡逑總結(jié)。形成的部分研宄成果己經(jīng)見(jiàn)刊(詳見(jiàn)文末附錄),結(jié)合以上列舉的創(chuàng)新點(diǎn),,本文的結(jié)逡逑排如下:逡逑聾啞人豐語(yǔ)翻遂的.盅|邐I邐^——逡逑.逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP18;G40-057
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 倪訓(xùn)博;趙德斌;高文;姜峰;姚鴻勛;;非特定人手語(yǔ)數(shù)據(jù)生成及其有效性檢測(cè)[J];軟件學(xué)報(bào);2010年05期
2 姜峰;高文;姚鴻勛;陳熙霖;;手勢(shì)手語(yǔ)力效分析[J];計(jì)算機(jī)學(xué)報(bào);2007年05期
3 姜峰;高文;王春立;姚鴻勛;趙德斌;;非特定人手語(yǔ)識(shí)別進(jìn)展及關(guān)鍵問(wèn)題研究思路[J];軟件學(xué)報(bào);2007年03期
4 付玉錦,原魁,朱海兵,杜清秀;CAS-Glove型數(shù)據(jù)手套運(yùn)動(dòng)建模與軟件系統(tǒng)開(kāi)發(fā)[J];系統(tǒng)仿真學(xué)報(bào);2004年04期
5 任海兵,徐光yP,林學(xué)
本文編號(hào):2623866
本文鏈接:http://www.lk138.cn/jiaoyulunwen/xuexiaoguanli/2623866.html
最近更新
教材專(zhuān)著