中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

基于文本數(shù)據(jù)的端到端語(yǔ)音識(shí)別模型訓(xùn)練數(shù)據(jù)擴(kuò)充方法

發(fā)布時(shí)間:2024-06-02 16:25
  智能化的時(shí)代正在加速到來(lái),語(yǔ)音作為最自然便捷的交流方式,是推動(dòng)生活與工作智能化的重要手段。語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù)是一種將輸入的語(yǔ)音信號(hào)轉(zhuǎn)換為文本,進(jìn)而能理解其內(nèi)容的技術(shù)。近年來(lái),隨著基于序列到序列的通用建模方法的發(fā)展,誕生了端到端的語(yǔ)音識(shí)別模型。與傳統(tǒng)方法相比,端到端語(yǔ)音識(shí)別模型僅包含一個(gè)單獨(dú)的序列模型,可以直接從聲學(xué)特征序列得到識(shí)別的單詞序列,簡(jiǎn)化了語(yǔ)音識(shí)別的過(guò)程。同時(shí)模型不依賴語(yǔ)言模型和發(fā)音詞典,降低了對(duì)專家知識(shí)的要求。然而,端到端語(yǔ)音識(shí)別模型通常需要大量的語(yǔ)音-文本對(duì)來(lái)訓(xùn)練,才能獲得較好的性能。在實(shí)際應(yīng)用中,收集大量配對(duì)數(shù)據(jù)既費(fèi)力又昂貴,導(dǎo)致端到端語(yǔ)音識(shí)別模型經(jīng)常無(wú)法有效識(shí)別罕見(jiàn)詞和專有詞。為此,本文將探討基于文本數(shù)據(jù)的端到端語(yǔ)音識(shí)別模型的訓(xùn)練數(shù)據(jù)擴(kuò)充方法。主要的工作和創(chuàng)新點(diǎn)如下:(1)基于RNN-T(RNN Transducer)的端到端語(yǔ)音識(shí)別模型基于RNN-T的端到端語(yǔ)音識(shí)別模型在優(yōu)化過(guò)程中,能同時(shí)兼顧聲學(xué)信息和語(yǔ)言學(xué)信息,是目前端到端語(yǔ)音識(shí)別領(lǐng)域性能最好的方法。因此,本文使用RNN-T模型搭建端到端語(yǔ)音識(shí)別基線模型...

【文章頁(yè)數(shù)】:63 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2-1預(yù)加重前后的語(yǔ)音信號(hào)頻譜對(duì)比

圖2-1預(yù)加重前后的語(yǔ)音信號(hào)頻譜對(duì)比

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-10-原來(lái)的信號(hào)分布,有效提高聲音信號(hào)的信噪比。一般通過(guò)一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重,其傳遞函數(shù)為()=11(2-1)其中為預(yù)加重系數(shù),0.9<<1.0。設(shè)時(shí)刻的信號(hào)采樣值為(),經(jīng)過(guò)預(yù)加重操作后的信號(hào)()為()=()(1)(2-2)其中取....


圖2-2端點(diǎn)檢測(cè)效果圖

圖2-2端點(diǎn)檢測(cè)效果圖

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-12-2)短時(shí)平均過(guò)零率,即每幀內(nèi)信號(hào)穿過(guò)橫軸的次數(shù)。信號(hào)()的短時(shí)平均過(guò)零率定義為:=|[()][(1)]|()∞=∞(2-8)其中()為符號(hào)函數(shù),即[()]=1,()≥01,()<0(2-9)短時(shí)能量首先可以用來(lái)區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰恳?...



本文編號(hào):3987501

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/xinxigongchenglunwen/3987501.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a5002***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com