基于LSTM-CTC的藏語拉薩話語音識別系統(tǒng)

發(fā)布時間：2024-10-03 00:14

　　伴隨著科學技術的發(fā)展,計算機及其它智能設備逐漸得以普及。語音是人與人之間最直接的交流方法,所以人機語音交互一直是相關研究人員研究的熱點。由于DNNs的應用,ASR的性能得到了極大的提高。目前大語種的語音識別已經取得了很好的效果,但對于像藏語這類小語種的識別還較少。但建設一個語音識別系統(tǒng)仍然是一個具有挑戰(zhàn)性的任務,需要各種資源、不同的訓練階段和專業(yè)知識。與傳統(tǒng)基于隱馬爾可夫模型的語音識別相比,端到端語音識別模型結構單一,不需要區(qū)分聲學模型和語言模型,不需要發(fā)音詞典�，F(xiàn)階段端到端的語音識別系統(tǒng)主要有兩種類型:CTC(聯(lián)結時序分類)和Attention模型。本文采用基于LSTM-CTC的端到端方法進行聲學建模,進行藏語拉薩話的語音識別。為了消除預先生成幀標簽的需要,采用聯(lián)結時間分類(CTC)目標函數(shù)來推斷語音和標簽序列之間的對齊。使用WFSTs進行解碼,它能有效的將詞典和語言模型結合到CTC解碼中。文中以音頻的特征參數(shù)作為聲學模型的輸入,輸出為音素序列的概率,最終實現(xiàn)基于LSTM-CTC的藏語語音識別。實驗結果表明,在現(xiàn)已有的藏語數(shù)據(jù)集,基于端到端語音識別結果比傳統(tǒng)的DNN-HMM方法效果好。...

【文章頁數(shù)】：45 頁

【學位級別】：碩士

【部分圖文】：

圖4-2發(fā)音詞典

要根據(jù)藏語發(fā)音特點，選取能夠行標注，這樣以便在模型訓練中音詞典是從詞到音素級別的映射字對應的音素發(fā)音詞典如圖4-2所

圖4-4音素對映關系

圖4-4音素對映關系4.4章節(jié)所描述的解碼方法來生成搜索圖，第一步根據(jù)語言模型來t（語言模型），然后根據(jù)untils.txt來生成T.fst（音素或者字符），txt來生成L.fst（詞典），最后形成綜合搜索圖TLG.fst。步進行特征提取，生成Fbank特....

圖4-9識別文本與原始文本對比

由18.94%下降至18.71%，下降了0.23%。根據(jù)實驗結果可以得出使用CTC技術，在80小時的數(shù)據(jù)集下，效果比較好，隨著網(wǎng)絡層數(shù)的增加，神經元數(shù)目的增加，識別效果會進一步的提升。但是每一層的神經元數(shù)目減少，增加網(wǎng)絡層數(shù)，識別的效果會有所下降。圖4-9為系統(tǒng)識別結果與....

本文編號：4006525

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/xinxigongchenglunwen/4006525.html

上一篇：餐廳場景下服務對話的智能模版提取及話術質量評估研究與實現(xiàn)
下一篇：協(xié)作中繼網(wǎng)絡在同信道干擾下的物理層安全問題研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于LSTM-CTC的藏語拉薩話語音識別系統(tǒng)