中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于內容的x-vector文本相關SV研究

發(fā)布時間:2020-12-13 13:40
  x-vector系統將一段不定長的語音通過神經網絡映射成固定維的矢量來表征說話人信息,該系統在文本無關的說話人確認(Speaker verification,SV)任務中取得了優(yōu)異的性能。本文將其應用到文本相關的SV任務中,在x-vector模型選擇上,采用殘差神經網絡以獲得更有區(qū)分性的x-vector;在包含多字符的語句中,對每個字訓練一個殘差神經網絡;在提取過程中,每一字單獨提取一個x-vector并單獨進行說話人判決,最后將多個判決得分進行融合后給出最終的識別結果。實驗是在數據庫RSR2015PartⅢ上進行的,提出的方法在男性和女性測試集上等錯誤率分別有15.34%、19.7%的下降。 

【文章來源】:數據采集與處理. 2020年05期 北大核心

【文章頁數】:8 頁

【部分圖文】:

基于內容的x-vector文本相關SV研究


深度神經網絡示意圖

系統流程圖,系統流程圖,內容,數字


在文本相關的SV中,內容是很重要的一個區(qū)分性信息。前面所述的x?vector系統都是對一段語音進行統一的矢量提取,沒有考慮內容對x?vector的影響。本文針對這種情況采用不同的數字分別訓練殘差神經網絡并分別提取x?vector;趦热莸膞?vector系統包含訓練階段和測試階段,圖2為說話人識別流程圖。在說話人模型注冊階段,首先進行數據預處理:提取訓練語料的30維梅爾頻率倒譜系數(Mel frequency cepstral coefficient,MFCC)特征,并利用端點檢測算法除去靜音幀;再進行語料切分:利用語音識別模型將每條語料切割成若干數字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經能夠獲得很好的語音識別準確率;利用訓練好的深度神經網絡模型分別提取每個數字的x?vector,完成模型的注冊。在測試階段,數據預處理與訓練階段相同,提取注冊語料和測試語料中各數字相應的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA后端信道補償算法獲取各數字的得分,最后將測試語料各數字得分求和平均計算最終得分。圖2中提取x?vector神經網絡首先使用大量數據預訓練得到一個初始網絡,然后用訓練集的每個不同的數字來訓練得到10個與數字相關的神經網絡。由于x?vector是與數字相關的,因此也用訓練集的不同數字的x?vector來單獨訓練LDA、PLDA模型。

殘差圖,殘差,數字,語料


給定一條語料x,基于字的PLDA模型如下與式(5)不同的是,上式所有變量都是針對特定數字d,{μd,Vd,Σd}這些參數都是由其對應數字的歸一化的x?vector訓練,歸一化過程如式(9)所示

【參考文獻】:
期刊論文
[1]基于深度學習的語音識別技術現狀與展望[J]. 戴禮榮,張仕良,黃智穎.  數據采集與處理. 2017(02)



本文編號:2914630

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/xinxigongchenglunwen/2914630.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶40a3a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com