基于LSTM-CTC的藏語拉薩話語音識別系統(tǒng)
發(fā)布時(shí)間:2024-10-03 00:14
伴隨著科學(xué)技術(shù)的發(fā)展,計(jì)算機(jī)及其它智能設(shè)備逐漸得以普及。語音是人與人之間最直接的交流方法,所以人機(jī)語音交互一直是相關(guān)研究人員研究的熱點(diǎn)。由于DNNs的應(yīng)用,ASR的性能得到了極大的提高。目前大語種的語音識別已經(jīng)取得了很好的效果,但對于像藏語這類小語種的識別還較少。但建設(shè)一個(gè)語音識別系統(tǒng)仍然是一個(gè)具有挑戰(zhàn)性的任務(wù),需要各種資源、不同的訓(xùn)練階段和專業(yè)知識。與傳統(tǒng)基于隱馬爾可夫模型的語音識別相比,端到端語音識別模型結(jié)構(gòu)單一,不需要區(qū)分聲學(xué)模型和語言模型,不需要發(fā)音詞典。現(xiàn)階段端到端的語音識別系統(tǒng)主要有兩種類型:CTC(聯(lián)結(jié)時(shí)序分類)和Attention模型。本文采用基于LSTM-CTC的端到端方法進(jìn)行聲學(xué)建模,進(jìn)行藏語拉薩話的語音識別。為了消除預(yù)先生成幀標(biāo)簽的需要,采用聯(lián)結(jié)時(shí)間分類(CTC)目標(biāo)函數(shù)來推斷語音和標(biāo)簽序列之間的對齊。使用WFSTs進(jìn)行解碼,它能有效的將詞典和語言模型結(jié)合到CTC解碼中。文中以音頻的特征參數(shù)作為聲學(xué)模型的輸入,輸出為音素序列的概率,最終實(shí)現(xiàn)基于LSTM-CTC的藏語語音識別。實(shí)驗(yàn)結(jié)果表明,在現(xiàn)已有的藏語數(shù)據(jù)集,基于端到端語音識別結(jié)果比傳統(tǒng)的DNN-HMM方法效果好。...
【文章頁數(shù)】:45 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:4006525
【文章頁數(shù)】:45 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4-2發(fā)音詞典
要根據(jù)藏語發(fā)音特點(diǎn),選取能夠行標(biāo)注,這樣以便在模型訓(xùn)練中音詞典是從詞到音素級別的映射字對應(yīng)的音素發(fā)音詞典如圖4-2所
圖4-4音素對映關(guān)系
圖4-4音素對映關(guān)系4.4章節(jié)所描述的解碼方法來生成搜索圖,第一步根據(jù)語言模型來t(語言模型),然后根據(jù)untils.txt來生成T.fst(音素或者字符),txt來生成L.fst(詞典),最后形成綜合搜索圖TLG.fst。步進(jìn)行特征提取,生成Fbank特....
圖4-9識別文本與原始文本對比
由18.94%下降至18.71%,下降了0.23%。根據(jù)實(shí)驗(yàn)結(jié)果可以得出使用CTC技術(shù),在80小時(shí)的數(shù)據(jù)集下,效果比較好,隨著網(wǎng)絡(luò)層數(shù)的增加,神經(jīng)元數(shù)目的增加,識別效果會進(jìn)一步的提升。但是每一層的神經(jīng)元數(shù)目減少,增加網(wǎng)絡(luò)層數(shù),識別的效果會有所下降。圖4-9為系統(tǒng)識別結(jié)果與....
本文編號:4006525
本文鏈接:http://www.lk138.cn/kejilunwen/xinxigongchenglunwen/4006525.html
最近更新
教材專著