中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于深度學習的說話人識別技術應用

發(fā)布時間:2024-05-08 20:38
  隨著信息化時代的不斷推進,人們對系統(tǒng)身份認證可靠性和服務提供個性化的需求不斷提升,基于用戶語音的說話人識別和說話人屬性分類技術迅速成為信號處理領域的研究熱點,F(xiàn)有的基于深度學習方法的說話人識別及說話人屬性分類任務仍然受限于環(huán)境噪聲及信道失配問題,本論文旨在基于深度學習研究具有較高魯棒性的說話人識別和說話人屬性分類系統(tǒng),提升復雜場景下的識別和分類準確率。為了實現(xiàn)上述研究目標,本文對話人識別及說話人屬性分類展開以下研究:針對說話人識別,本論文提出基于殘差網(wǎng)絡及雙向長短時記憶網(wǎng)絡的ResNet-BLSTM網(wǎng)絡結構,使用語譜圖作為網(wǎng)絡輸入,提取出了對于語速魯棒且表征信息更豐富的深度特征。在訓練階段提出了基于改進三元組損失的T-Triplet Loss,嚴格控制特征向量的類內(nèi)聚集及類間分離,使模型在噪聲語料集下也能準確地聚類同說話人語音。最后分別在Voxceleb、LibriSpeech和AISHELL-1三個語料集上開展實驗,并在三個數(shù)據(jù)集上都取得了較為接近的識別等錯誤率,驗證了系統(tǒng)在多種語音環(huán)境下的魯棒性,且更是在噪聲數(shù)據(jù)集Voxceleb上相較于基線系統(tǒng)i-vector/PLDA取得了 6...

【文章頁數(shù)】:94 頁

【學位級別】:碩士

【部分圖文】:

圖2-1?MFCC提取及轉(zhuǎn)置流程圖??1..數(shù)模轉(zhuǎn)換(A/D?conversion)??

圖2-1?MFCC提取及轉(zhuǎn)置流程圖??1..數(shù)模轉(zhuǎn)換(A/D?conversion)??

?電子科技大學碩士學位論文???第二章背景知識與相關理論??2.1語音信號的特征提取??2.1.1梅爾倒頻系數(shù)??MFCC至今仍是最優(yōu)秀的語音特征集之一,其主要優(yōu)點是能夠在短時功率譜??中對聲道進行建模。39維的MFCC特征是現(xiàn)有語音研究中的常用特征,此維數(shù)小??到足夠?qū)W習到音頻....


圖2-2實際頻率與梅爾頻率的映射關系圖??

圖2-2實際頻率與梅爾頻率的映射關系圖??

隨窗:函數(shù)的選擇變化,Hamming窗’??取值為0.46164,Hanning窗取值為0.5。??4.離散傅里葉變換??采用DFT提取頻域中的信息,由公式(2-4)完成時域信號到頻域信號的轉(zhuǎn)換。??耶]=2〇n]e_/27rfc/W?(2-4)??5.梅爾濾波器組??設備的測量....


圖2-3三角濾波器工作原理示意圖??

圖2-3三角濾波器工作原理示意圖??

?電子科技大莩碩土學位論文???接下來使用三角帶通濾波器將頻率信息轉(zhuǎn)換成為人耳接收的模擬債息》首先??對DFT轉(zhuǎn)換的輸出求乎方,這反應了每個頻率的語音功率,稱之為DFT功率譜。??之后使用H角梅爾濾波器組將該能量鐠轉(zhuǎn)換為梅爾功率譜,每個梅爾能養(yǎng)譜槽的??輸出代表其覆蓋的多個頻帶的....


圖2-4?GMM-UBM模型訓練-識別流程圖??

圖2-4?GMM-UBM模型訓練-識別流程圖??

UniversalBackgroundModel,UBM).?[36,37]。UBM?代表了除了?目標說??話人之外的每個人,從本質(zhì)上來說是一個大型的GMM。UBM是通過EM算法對??大量說話人語音訓練出來的獨立于說話人的背景模型,該模型表示了特征向量與??說話人無關的分布g當新....



本文編號:3967790

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/xinxigongchenglunwen/3967790.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶38a22***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com