基于內(nèi)容的x-vector文本相關(guān)SV研究

發(fā)布時(shí)間：2020-12-13 13:40

　　x-vector系統(tǒng)將一段不定長的語音通過神經(jīng)網(wǎng)絡(luò)映射成固定維的矢量來表征說話人信息,該系統(tǒng)在文本無關(guān)的說話人確認(rèn)（Speaker verification,SV）任務(wù)中取得了優(yōu)異的性能。本文將其應(yīng)用到文本相關(guān)的SV任務(wù)中,在x-vector模型選擇上,采用殘差神經(jīng)網(wǎng)絡(luò)以獲得更有區(qū)分性的x-vector;在包含多字符的語句中,對每個(gè)字訓(xùn)練一個(gè)殘差神經(jīng)網(wǎng)絡(luò);在提取過程中,每一字單獨(dú)提取一個(gè)x-vector并單獨(dú)進(jìn)行說話人判決,最后將多個(gè)判決得分進(jìn)行融合后給出最終的識別結(jié)果。實(shí)驗(yàn)是在數(shù)據(jù)庫RSR2015PartⅢ上進(jìn)行的,提出的方法在男性和女性測試集上等錯(cuò)誤率分別有15.34%、19.7%的下降。

【文章來源】：數(shù)據(jù)采集與處理. 2020年05期北大核心

【文章頁數(shù)】：8 頁

【部分圖文】：

深度神經(jīng)網(wǎng)絡(luò)示意圖

系統(tǒng)流程圖,系統(tǒng)流程圖,內(nèi)容,數(shù)字

在文本相關(guān)的SV中，內(nèi)容是很重要的一個(gè)區(qū)分性信息。前面所述的x?vector系統(tǒng)都是對一段語音進(jìn)行統(tǒng)一的矢量提取，沒有考慮內(nèi)容對x?vector的影響。本文針對這種情況采用不同的數(shù)字分別訓(xùn)練殘差神經(jīng)網(wǎng)絡(luò)并分別提取x?vector。基于內(nèi)容的x?vector系統(tǒng)包含訓(xùn)練階段和測試階段，圖2為說話人識別流程圖。在說話人模型注冊階段，首先進(jìn)行數(shù)據(jù)預(yù)處理：提取訓(xùn)練語料的30維梅爾頻率倒譜系數(shù)（Mel frequency cepstral coefficient,MFCC）特征，并利用端點(diǎn)檢測算法除去靜音幀；再進(jìn)行語料切分：利用語音識別模型將每條語料切割成若干數(shù)字，由于聲音信噪比高，采用高斯混合模型與隱馬爾科夫模型（Gaussian mixture models and hidden markov model,GMM?HMM）模型已經(jīng)能夠獲得很好的語音識別準(zhǔn)確率；利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型分別提取每個(gè)數(shù)字的x?vector，完成模型的注冊。在測試階段，數(shù)據(jù)預(yù)處理與訓(xùn)練階段相同，提取注冊語料和測試語料中各數(shù)字相應(yīng)的x?vector，使用線性判別式分析（Linear discriminant analysis,LDA）、PLDA后端信道補(bǔ)償算法獲取各數(shù)字的得分，最后將測試語料各數(shù)字得分求和平均計(jì)算最終得分。圖2中提取x?vector神經(jīng)網(wǎng)絡(luò)首先使用大量數(shù)據(jù)預(yù)訓(xùn)練得到一個(gè)初始網(wǎng)絡(luò)，然后用訓(xùn)練集的每個(gè)不同的數(shù)字來訓(xùn)練得到10個(gè)與數(shù)字相關(guān)的神經(jīng)網(wǎng)絡(luò)。由于x?vector是與數(shù)字相關(guān)的，因此也用訓(xùn)練集的不同數(shù)字的x?vector來單獨(dú)訓(xùn)練LDA、PLDA模型。

殘差圖,殘差,數(shù)字,語料

給定一條語料x，基于字的PLDA模型如下與式（5）不同的是，上式所有變量都是針對特定數(shù)字d，{μd,Vd,Σd}這些參數(shù)都是由其對應(yīng)數(shù)字的歸一化的x?vector訓(xùn)練，歸一化過程如式（9）所示

【參考文獻(xiàn)】：
期刊論文
[1]基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望[J]. 戴禮榮,張仕良,黃智穎. 數(shù)據(jù)采集與處理. 2017(02)

本文編號：2914630

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/xinxigongchenglunwen/2914630.html

上一篇：大規(guī)模物聯(lián)網(wǎng)設(shè)備組織信息的發(fā)現(xiàn)與提取
下一篇：NFV環(huán)境下服務(wù)功能鏈資源優(yōu)化部署方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于內(nèi)容的x-vector文本相關(guān)SV研究