基于內(nèi)容的x-vector文本相關(guān)SV研究
發(fā)布時間:2020-12-13 13:40
x-vector系統(tǒng)將一段不定長的語音通過神經(jīng)網(wǎng)絡(luò)映射成固定維的矢量來表征說話人信息,該系統(tǒng)在文本無關(guān)的說話人確認(rèn)(Speaker verification,SV)任務(wù)中取得了優(yōu)異的性能。本文將其應(yīng)用到文本相關(guān)的SV任務(wù)中,在x-vector模型選擇上,采用殘差神經(jīng)網(wǎng)絡(luò)以獲得更有區(qū)分性的x-vector;在包含多字符的語句中,對每個字訓(xùn)練一個殘差神經(jīng)網(wǎng)絡(luò);在提取過程中,每一字單獨提取一個x-vector并單獨進行說話人判決,最后將多個判決得分進行融合后給出最終的識別結(jié)果。實驗是在數(shù)據(jù)庫RSR2015PartⅢ上進行的,提出的方法在男性和女性測試集上等錯誤率分別有15.34%、19.7%的下降。
【文章來源】:數(shù)據(jù)采集與處理. 2020年05期 北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
深度神經(jīng)網(wǎng)絡(luò)示意圖
在文本相關(guān)的SV中,內(nèi)容是很重要的一個區(qū)分性信息。前面所述的x?vector系統(tǒng)都是對一段語音進行統(tǒng)一的矢量提取,沒有考慮內(nèi)容對x?vector的影響。本文針對這種情況采用不同的數(shù)字分別訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)并分別提取x?vector;趦(nèi)容的x?vector系統(tǒng)包含訓(xùn)練階段和測試階段,圖2為說話人識別流程圖。在說話人模型注冊階段,首先進行數(shù)據(jù)預(yù)處理:提取訓(xùn)練語料的30維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)特征,并利用端點檢測算法除去靜音幀;再進行語料切分:利用語音識別模型將每條語料切割成若干數(shù)字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經(jīng)能夠獲得很好的語音識別準(zhǔn)確率;利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型分別提取每個數(shù)字的x?vector,完成模型的注冊。在測試階段,數(shù)據(jù)預(yù)處理與訓(xùn)練階段相同,提取注冊語料和測試語料中各數(shù)字相應(yīng)的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA后端信道補償算法獲取各數(shù)字的得分,最后將測試語料各數(shù)字得分求和平均計算最終得分。圖2中提取x?vector神經(jīng)網(wǎng)絡(luò)首先使用大量數(shù)據(jù)預(yù)訓(xùn)練得到一個初始網(wǎng)絡(luò),然后用訓(xùn)練集的每個不同的數(shù)字來訓(xùn)練得到10個與數(shù)字相關(guān)的神經(jīng)網(wǎng)絡(luò)。由于x?vector是與數(shù)字相關(guān)的,因此也用訓(xùn)練集的不同數(shù)字的x?vector來單獨訓(xùn)練LDA、PLDA模型。
給定一條語料x,基于字的PLDA模型如下與式(5)不同的是,上式所有變量都是針對特定數(shù)字d,{μd,Vd,Σd}這些參數(shù)都是由其對應(yīng)數(shù)字的歸一化的x?vector訓(xùn)練,歸一化過程如式(9)所示
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望[J]. 戴禮榮,張仕良,黃智穎. 數(shù)據(jù)采集與處理. 2017(02)
本文編號:2914630
【文章來源】:數(shù)據(jù)采集與處理. 2020年05期 北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
深度神經(jīng)網(wǎng)絡(luò)示意圖
在文本相關(guān)的SV中,內(nèi)容是很重要的一個區(qū)分性信息。前面所述的x?vector系統(tǒng)都是對一段語音進行統(tǒng)一的矢量提取,沒有考慮內(nèi)容對x?vector的影響。本文針對這種情況采用不同的數(shù)字分別訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)并分別提取x?vector;趦(nèi)容的x?vector系統(tǒng)包含訓(xùn)練階段和測試階段,圖2為說話人識別流程圖。在說話人模型注冊階段,首先進行數(shù)據(jù)預(yù)處理:提取訓(xùn)練語料的30維梅爾頻率倒譜系數(shù)(Mel frequency cepstral coefficient,MFCC)特征,并利用端點檢測算法除去靜音幀;再進行語料切分:利用語音識別模型將每條語料切割成若干數(shù)字,由于聲音信噪比高,采用高斯混合模型與隱馬爾科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已經(jīng)能夠獲得很好的語音識別準(zhǔn)確率;利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型分別提取每個數(shù)字的x?vector,完成模型的注冊。在測試階段,數(shù)據(jù)預(yù)處理與訓(xùn)練階段相同,提取注冊語料和測試語料中各數(shù)字相應(yīng)的x?vector,使用線性判別式分析(Linear discriminant analysis,LDA)、PLDA后端信道補償算法獲取各數(shù)字的得分,最后將測試語料各數(shù)字得分求和平均計算最終得分。圖2中提取x?vector神經(jīng)網(wǎng)絡(luò)首先使用大量數(shù)據(jù)預(yù)訓(xùn)練得到一個初始網(wǎng)絡(luò),然后用訓(xùn)練集的每個不同的數(shù)字來訓(xùn)練得到10個與數(shù)字相關(guān)的神經(jīng)網(wǎng)絡(luò)。由于x?vector是與數(shù)字相關(guān)的,因此也用訓(xùn)練集的不同數(shù)字的x?vector來單獨訓(xùn)練LDA、PLDA模型。
給定一條語料x,基于字的PLDA模型如下與式(5)不同的是,上式所有變量都是針對特定數(shù)字d,{μd,Vd,Σd}這些參數(shù)都是由其對應(yīng)數(shù)字的歸一化的x?vector訓(xùn)練,歸一化過程如式(9)所示
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望[J]. 戴禮榮,張仕良,黃智穎. 數(shù)據(jù)采集與處理. 2017(02)
本文編號:2914630
本文鏈接:http://www.lk138.cn/kejilunwen/xinxigongchenglunwen/2914630.html
最近更新
教材專著