基于內容的x-vector文本相關SV研究
發(fā)布時間:2020-12-13 13:40
x-vector系統(tǒng)將一段不定長的語音通過神經(jīng)網(wǎng)絡映射成固定維的矢量來表征說話人信息,該系統(tǒng)在文本無關的說話人確認(Speaker verification,SV)任務中取得了優(yōu)異的性能。本文將其應用到文本相關的SV任務中,在x-vector模型選擇上,采用殘差神經(jīng)網(wǎng)絡以獲得更有區(qū)分性的x-vector;在包含多字符的語句中,對每個字訓練一個殘差神經(jīng)網(wǎng)絡;在提取過程中,每一字單獨提取一個x-vector并單獨進行說話人判決,最后將多個判決得分進行融合后給出最終的識別結果。實驗是在數(shù)據(jù)庫RSR2015PartⅢ上進行的,提出的方法在男性和女性測試集上等錯誤率分別有15.34%、19.7%的下降。
【文章來源】:數(shù)據(jù)采集與處理. 2020年05期 北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
深度神經(jīng)網(wǎng)絡示意圖
在文本相關的SV中,內容是很重要的一個區(qū)分性信息。前面所述的x?vector系統(tǒng)都是對一段語音進行統(tǒng)一的矢量提取,沒有考慮內容對x?vector的影響。本文針對這種情況采用不同的數(shù)字分別訓練殘差神經(jīng)網(wǎng)絡并分別提取x?vector;趦热莸膞?vector系統(tǒng)包含訓練階段和測試階段,圖2為說話人識別流程圖。在說話人模型注冊階段,首先進行數(shù)據(jù)預處理:提取訓練語料的30維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)特征,并利用端點檢測算法除去靜音幀;再進行語料切分:利用語音識別模型將每條語料切割成若干數(shù)字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經(jīng)能夠獲得很好的語音識別準確率;利用訓練好的深度神經(jīng)網(wǎng)絡模型分別提取每個數(shù)字的x?vector,完成模型的注冊。在測試階段,數(shù)據(jù)預處理與訓練階段相同,提取注冊語料和測試語料中各數(shù)字相應的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA后端信道補償算法獲取各數(shù)字的得分,最后將測試語料各數(shù)字得分求和平均計算最終得分。圖2中提取x?vector神經(jīng)網(wǎng)絡首先使用大量數(shù)據(jù)預訓練得到一個初始網(wǎng)絡,然后用訓練集的每個不同的數(shù)字來訓練得到10個與數(shù)字相關的神經(jīng)網(wǎng)絡。由于x?vector是與數(shù)字相關的,因此也用訓練集的不同數(shù)字的x?vector來單獨訓練LDA、PLDA模型。
給定一條語料x,基于字的PLDA模型如下與式(5)不同的是,上式所有變量都是針對特定數(shù)字d,{μd,Vd,Σd}這些參數(shù)都是由其對應數(shù)字的歸一化的x?vector訓練,歸一化過程如式(9)所示
【參考文獻】:
期刊論文
[1]基于深度學習的語音識別技術現(xiàn)狀與展望[J]. 戴禮榮,張仕良,黃智穎. 數(shù)據(jù)采集與處理. 2017(02)
本文編號:2914630
【文章來源】:數(shù)據(jù)采集與處理. 2020年05期 北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
深度神經(jīng)網(wǎng)絡示意圖
在文本相關的SV中,內容是很重要的一個區(qū)分性信息。前面所述的x?vector系統(tǒng)都是對一段語音進行統(tǒng)一的矢量提取,沒有考慮內容對x?vector的影響。本文針對這種情況采用不同的數(shù)字分別訓練殘差神經(jīng)網(wǎng)絡并分別提取x?vector;趦热莸膞?vector系統(tǒng)包含訓練階段和測試階段,圖2為說話人識別流程圖。在說話人模型注冊階段,首先進行數(shù)據(jù)預處理:提取訓練語料的30維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)特征,并利用端點檢測算法除去靜音幀;再進行語料切分:利用語音識別模型將每條語料切割成若干數(shù)字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經(jīng)能夠獲得很好的語音識別準確率;利用訓練好的深度神經(jīng)網(wǎng)絡模型分別提取每個數(shù)字的x?vector,完成模型的注冊。在測試階段,數(shù)據(jù)預處理與訓練階段相同,提取注冊語料和測試語料中各數(shù)字相應的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA后端信道補償算法獲取各數(shù)字的得分,最后將測試語料各數(shù)字得分求和平均計算最終得分。圖2中提取x?vector神經(jīng)網(wǎng)絡首先使用大量數(shù)據(jù)預訓練得到一個初始網(wǎng)絡,然后用訓練集的每個不同的數(shù)字來訓練得到10個與數(shù)字相關的神經(jīng)網(wǎng)絡。由于x?vector是與數(shù)字相關的,因此也用訓練集的不同數(shù)字的x?vector來單獨訓練LDA、PLDA模型。
給定一條語料x,基于字的PLDA模型如下與式(5)不同的是,上式所有變量都是針對特定數(shù)字d,{μd,Vd,Σd}這些參數(shù)都是由其對應數(shù)字的歸一化的x?vector訓練,歸一化過程如式(9)所示
【參考文獻】:
期刊論文
[1]基于深度學習的語音識別技術現(xiàn)狀與展望[J]. 戴禮榮,張仕良,黃智穎. 數(shù)據(jù)采集與處理. 2017(02)
本文編號:2914630
本文鏈接:http://lk138.cn/kejilunwen/xinxigongchenglunwen/2914630.html