基于遷移學習的低資源度語音識別聲學建模研究

發(fā)布時間：2020-04-06 10:35

【摘要】：自動語音識別(Automatic Speech Recognition,ASR)能將人類語音經(jīng)過計算機處理為文字的過程,是人與機器更順暢交流的關(guān)鍵技術(shù)。在自動語音識別中,聲學模型的主流框架為深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型(Deep Neural Network Hidden Markov Model,DNN-HMM)。隨著技術(shù)的發(fā)展,在海量語音數(shù)據(jù)加持下的深度神經(jīng)網(wǎng)絡(luò)自動語音識別系統(tǒng)取得了接近人類語音轉(zhuǎn)寫能力的優(yōu)異成績。目前世界上的語言約有7000多種,具有海量語音數(shù)據(jù)的語種僅有英語、漢語普通話等幾種語言,大部分其它的語種由于語音資源采集成本較高,僅有少量的語音資源可供研究,然而在低資源環(huán)境下的深度神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)效果往往表現(xiàn)不佳。隨著社會發(fā)展的需要,將語音識別技術(shù)應(yīng)用于低資源語種的需求越來越大。遷移學習是一種能夠從一種或多種相似的任務(wù)中學習到知識,并利用這些學到的知識快速構(gòu)建其他類似新任務(wù)的方法,稱之為遷移學習。在基于深度神經(jīng)網(wǎng)絡(luò)的語音識別中DNN聲學模型的每一層輸出都是語音特征的深度表示,這種特征表示包含了人類語音的聲學特征共性,通過調(diào)整網(wǎng)絡(luò)參數(shù)很容易遷移為其它語種的聲學模型,這為低資源語音識別能夠通過遷移學習而獲得較強的聲學模型成為可能。為了提升基于深度神經(jīng)網(wǎng)絡(luò)的低資源語音識別聲學模型的性能,本文對聲學模型的遷移進行了若干方面研究。具體內(nèi)容包括:跨語種的聲學模型遷移是否有效;語種之間的相似性對聲學模型遷移的影響;基礎(chǔ)模型的數(shù)據(jù)量對遷移效果的影響;遷移聲學模型的訓練方式;單音素聲學模型能否遷移到三音素聲學模型;大數(shù)據(jù)量多語音共享隱層聲學模型的遷移等。本文用資源豐富的漢語、英語訓練基礎(chǔ)聲學模型,用維吾爾語作為低資源語種開展了各項實驗。實驗結(jié)果表明,遷移學習能夠通過遷移基礎(chǔ)模型來提高低資源語種聲學模型的性能。
【圖文】：

語音識別,人類,貝爾實驗室,說話人

圖 1-1 人機對話流程圖隨著人類計算能力的不斷進步和人類對美好生活的不斷向往，語音識別的很早就被提出，發(fā)展距今已有 60 余載。20 世紀 50 年代，最開始的語音識別聚焦于搭建簡單基于模版匹配的孤立音識別系統(tǒng)。1952 年，AT&T 貝爾實驗室 Davis 等人開發(fā)了 Audrey 系統(tǒng)[音識別以模擬元器件提取元音共振峰頻率變化信息為依據(jù)對特定說話人的

語音識別系統(tǒng),語音識別,資源

圖 1-2 語音識別系統(tǒng)基本框架1.3 低資源語音識別研究現(xiàn)狀目前世界上的語言約有 7000 種左右，使用人口最多的英語、漢語普通話等語音資源優(yōu)先得到了采集，大部分其它的語種由于語音數(shù)據(jù)采集成本較高，目前語音資源較為匱乏[27]。然而，在目前主流的 DNN-HMM 語音識別系統(tǒng)都需要大量的語音數(shù)據(jù)進行訓練，低資源環(huán)境下的 DNN-HMM 語音識別系統(tǒng)由于訓練數(shù)據(jù)不足，聲學模型不能夠充分地進行訓練，導致語音識別效果不如人意。數(shù)據(jù)資源在語音識別系統(tǒng)中有著至關(guān)重要的作用，在語音識別中，語音、標注、字典等資源的不足或缺失都屬于低資源語音識別。近年來，全世界各大研究機構(gòu)開始著重關(guān)注低資源語音識別，在國際上，2011 年初美國 IARPA(Intelligence AdvancedResearch Projects Activity)機構(gòu)開始實行低資源語音識別的 Bable 計劃[28]，該計劃的參與者有 MIT、劍橋、CMU、JHU 等知名語音方面的研究機構(gòu)，主要研究語
【學位授予單位】：新疆大學
【學位級別】：碩士
【學位授予年份】：2019
【分類號】：TN912.34;TP181

【相似文獻】

相關(guān)期刊論文前10條

1 周弘燁;;語音識別大揭秘:計算機如何處理聲音?[J];中國新通信;2019年04期

2 程建軍;胡立志;;關(guān)于深度學習的語音識別應(yīng)用研究[J];科技經(jīng)濟導刊;2019年12期

3 桑亞超;李龍杰;袁傳青;霍慶磊;張樂;;關(guān)于語音識別在空調(diào)上的應(yīng)用與改善[J];日用電器;2019年07期

4 牛洪波;王婉君;劉華楠;;語音識別專利技術(shù)綜述[J];河南科技;2019年24期

5 向暉;;數(shù)字語音識別與合成[J];電子世界;2019年15期

6 姜姝姝;;語音識別64年大突破[J];機器人產(chǎn)業(yè);2016年06期

7 吳俊宇;;語音識別為何“叫好不叫座”?[J];通信世界;2016年16期

8 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期

9 張連仲;;帶著使命感出發(fā)[J];英語學習;2017年01期

10 張凱;;榮威eRX5靜態(tài)體驗 “人性化”語音識別是亮點[J];新能源汽車新聞;2017年01期

相關(guān)會議論文前10條

1 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術(shù)會議論文集[C];2010年

2 于東;賈磊;徐波;;面向語音識別錯誤恢復的澄清式疑問句生成[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

3 邢安昊;黎塔;顏永紅;;利用二重打分方法的激活詞語音識別[A];中國聲學學會第十屆青年學術(shù)會議論文集[C];2013年

4 文成義;何海燕;張玉扶;;基于新型神經(jīng)網(wǎng)絡(luò)的不定人語音識別[A];第二屆全國人機語音通訊學術(shù)會議（NCMMSC1992）論文集[C];1992年

5 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術(shù)會議（NCMMSC1992）論文集[C];1992年

6 潘勝昔;劉加;江金濤;王作英;陸大金;;基于多模式及集成判決的穩(wěn)健電話語音識別算法研究[A];第五屆全國人機語音通訊學術(shù)會議（NCMMSC1998）論文集[C];1998年

7 杜利民;;語音識別中的魯棒性問題[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年

8 宋君;葛余博;;應(yīng)用于魯棒語音識別的置信度加權(quán)特征丟失法[A];第七屆全國人機語音通訊學術(shù)會議（NCMMSC7）論文集[C];2003年

9 張明新;倪宏;陳國平;張東濱;;一種用于并行模型噪聲魯棒語音識別的特征構(gòu)造方法[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年

10 熊軍軍;馬瑞堂;李成榮;;兒童語音識別的研究現(xiàn)狀[A];第九屆全國人機語音通訊學術(shù)會議論文集[C];2007年

相關(guān)重要報紙文章前10條

1 通訊員魏霈侃;從學霸、學者到創(chuàng)業(yè)者的華麗轉(zhuǎn)身[N];中國教育報;2016年

2 特約撰稿人 Lamont Wood 編譯 Charles;語音識別成長起來，并走向移動應(yīng)用[N];計算機世界;2018年

3 本報記者陶力;阿里全資收購先聲互聯(lián) 推動語音識別場景落地[N];21世紀經(jīng)濟報道;2018年

4 洪蕾;阿里研發(fā)高工業(yè)噪聲環(huán)境下語音識別及傳輸技術(shù)[N];中國信息化周報;2018年

5 本報記者郭科;登月早已實現(xiàn)，同期啟動的語音識別還在路上[N];科技日報;2018年

6 本報記者王星平;語音識別商用尷尬應(yīng)用場景垂直化路有多遠[N];中國企業(yè)報;2016年

7 本報記者余建華;從“綠皮車時代”邁入“高鐵時代”[N];人民法院報;2017年

8 陳宗周;機器在聆聽[N];電腦報;2017年

9 本報記者黃旭熊雯琳;云知聲:與巨頭共舞，，成為AI領(lǐng)域BAT的密碼[N];電腦報;2017年

10 本報記者錢一彬;手機“黑科技”為何叫好不叫座[N];人民日報;2017年

相關(guān)博士學位論文前10條

1 屠彥輝;復雜場景下基于深度學習的魯棒性語音識別的研究[D];中國科學技術(shù)大學;2019年

2 賀蘇寧;基于語音識別基元聲學整體結(jié)構(gòu)特征的識別模型研究[D];電子科技大學;2005年

3 陳立偉;基于HMM和ANN的漢語語音識別[D];哈爾濱工程大學;2005年

4 徐金甫;基于特征提取的抗噪聲語音識別研究[D];華南理工大學;2000年

5 寧更新;抗噪聲語音識別新技術(shù)的研究[D];華南理工大學;2006年

6 沈海峰;語音識別中的環(huán)境補償研究[D];北京郵電大學;2006年

7 李小兵;高效簡約的語音識別聲學模型[D];中國科學技術(shù)大學;2006年

8 孫f

本文編號：2616401

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2616401.html

上一篇：基于時序動態(tài)模型的雷達高分辨距離像目標識別研究
下一篇：基于單目視覺的人體三維姿態(tài)估計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于遷移學習的低資源度語音識別聲學建模研究