不同語音特征對(duì)聲音分類的有效性研究
【文章頁數(shù)】:7 頁
【部分圖文】:
通過構(gòu)建上述LSTM神經(jīng)網(wǎng)絡(luò)模型,提取多個(gè)特征對(duì)40個(gè)說話人進(jìn)行識(shí)別,從表5的實(shí)驗(yàn)結(jié)果可知:特征融合的維度越高對(duì)說話人識(shí)別的效果越好(準(zhǔn)確度>90%);若是簡(jiǎn)單的將1維的聲譜圖特征進(jìn)行融合,其對(duì)說話人識(shí)別的表現(xiàn)差(準(zhǔn)確度<50%),尤其是將spectralFlatness特征進(jìn)行....
LSTM神經(jīng)網(wǎng)絡(luò)包含輸入層、輸出層和若干遞歸隱層,遞歸隱層是由記憶單元組成,每個(gè)記憶單元含有一個(gè)或多個(gè)自連接記憶細(xì)胞來進(jìn)行線性的反饋傳遞,從而加強(qiáng)神經(jīng)元內(nèi)部之間的聯(lián)系[13]。圖1表示LSTM記憶單元的結(jié)構(gòu)圖。LSTM神經(jīng)網(wǎng)絡(luò)引入門的機(jī)制控制信息的累積速度,提供對(duì)記憶單元的寫、讀....
倒譜系數(shù)特征在音頻信號(hào)處理和分類中時(shí)常用到,提取該種特征的一般流程為:先對(duì)語音信號(hào)進(jìn)行分幀、加窗等預(yù)處理,接著對(duì)每一幀信號(hào)進(jìn)行快速傅里葉變換,計(jì)算譜線能量,然后通過濾波器濾波后得到一組系數(shù),最后再進(jìn)行離散余弦變換和倒譜變換得到倒譜系數(shù)特征。提取的流程圖見圖2。本文采用Mel頻率倒....
通過構(gòu)建上述LSTM神經(jīng)網(wǎng)絡(luò)模型,提取單個(gè)特征對(duì)40個(gè)說話人進(jìn)行識(shí)別,從表4的實(shí)驗(yàn)結(jié)果可知:13維的mfcc、gtcc特征及其一階、二階特征對(duì)說話人識(shí)別表現(xiàn)好(準(zhǔn)確度達(dá)80%~100%),而剩下僅有1維的聲譜圖特征對(duì)說話人識(shí)別表現(xiàn)差(準(zhǔn)確度<30%),其中單一的spectralF....
本文編號(hào):4009304
本文鏈接:http://www.lk138.cn/kejilunwen/wltx/4009304.html