基于生成對抗網(wǎng)絡(luò)的語音增強方法的研究

發(fā)布時間：2020-04-05 20:47

【摘要】：語音增強的目的是消除語音信號中的背景噪聲與環(huán)境干擾,來改善提高污染語音的質(zhì)量,盡最大可能提取出純凈的沒有被污染的語音,多運用在語音識別系統(tǒng)、通信系統(tǒng)中,有非常重要的作用。但是由于環(huán)境的多樣化,噪聲的不穩(wěn)定性和隨機性,并且基本不可能得到所有樣本數(shù)據(jù),在實際應用中,這些方法很難取得較好的效果。另外,傳統(tǒng)的增強方法會對語音信號進行一些分布性的假設(shè),不準確的假設(shè)會使增強后的語音與純凈語音信號差別比較大,語音的失真度相對比較高,結(jié)果就導致語音的可懂度不高,質(zhì)量下降。針對這些問題,本文研究基于生成對抗網(wǎng)絡(luò)的語音增強方法。生成對抗網(wǎng)絡(luò)屬于生成式模型,采用零和博弈的思想讓生成器和判別器進行對抗訓練。它的生成器不需要對數(shù)據(jù)的分布做任何假設(shè),最大的優(yōu)勢在于能夠?qū)W習任何分布下的真實數(shù)據(jù),并生成相似分布的數(shù)據(jù)。此外,生成對抗網(wǎng)絡(luò)多采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搭建,不僅可以提高模型的泛化能力,還可以加速網(wǎng)絡(luò)的對抗訓練速度,具有非常大的優(yōu)勢。本文的主要工作包括以下兩個方面:(1)生成對抗網(wǎng)絡(luò)損失函數(shù)的選擇和網(wǎng)絡(luò)模型的性能緊密相關(guān)。通過分析原始生成對抗網(wǎng)絡(luò)的損失函數(shù)在模型訓練過程中面臨的問題,選擇最小二乘損失函數(shù)。針對利用生成器重構(gòu)出的語音信號質(zhì)量不高的問題,改進了最小二乘損失函數(shù)。在生成器的損失函數(shù)中引入L1范數(shù),并用超參數(shù)ρ來控制L1正則化影響的權(quán)重系數(shù),并通過實驗得出最優(yōu)值。針對語音信號的特點,在改進的基礎(chǔ)上搭建了基于語音增強的判別器和生成器的網(wǎng)絡(luò)結(jié)構(gòu),訓練并測試模型的性能。通過與傳統(tǒng)的語音增強算法進行比較,得出基于生成對抗網(wǎng)絡(luò)的語音增強效果好于傳統(tǒng)的語音增強算法。(2)本文在深度卷積生成對抗網(wǎng)絡(luò)的基礎(chǔ)上,針對模型在訓練過程中收斂速度慢、梯度消失等問題,對生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)進行改進。基于條件生成對抗網(wǎng)絡(luò),將判別器抽取的高維抽象特征作為生成器的條件信息,與高斯噪聲一同輸入到生成器,構(gòu)建條件生成對抗網(wǎng)絡(luò)模型。最后通過跟改進前的基于生成對抗網(wǎng)絡(luò)的語音增強算法進行對比分析,發(fā)現(xiàn)生成對抗網(wǎng)絡(luò)能夠獲得更好的增強效果,增強后的語音質(zhì)量得到了提升,也增加了算法的穩(wěn)定性和泛化能力。
【圖文】：

函數(shù)對,函數(shù),梯度,最小二乘函數(shù)

圖4.1 Sigmod 函數(shù)和 Least Square 函數(shù)對比圖發(fā)現(xiàn)，，sigmod 函數(shù)僅在 0 中心左右的區(qū)間上有梯度幾乎不變化。而最小二乘函數(shù)的梯度只有在取有足夠的梯度，因此，最小二乘損失函數(shù)在 GAN 度會更加快。

損失函數(shù),交叉熵,判別器

數(shù)會將這些樣本拉向決策邊界，如圖 4.3 所示，可以更好的利用模型樣本對模型進行訓練，收斂速度快，且不會出現(xiàn)梯度消失的問題。圖4.2 交叉熵損失函數(shù)圖4.3 最小二乘損失函數(shù)基于這一觀察，我們選擇最小二乘生成對抗網(wǎng)絡(luò)（LSGAN）。判別器的損失函數(shù)如式(4-7)所示，生成器的損失函數(shù)如式(4-8)所示。( )( )( ( ))( )( ( ))2 2~ ~1 1min2 2data zLSGAN x P x z P zDV D E D xb E D G z a = + (4-7)( )( )( ( ))2~1min2zLSGAN z P zGV G E D G z c = (4-8)上式中，通過最小化判別器的損失函數(shù)，使真實數(shù)據(jù)被編碼為 a，生成數(shù)據(jù)被編碼為 b。通過最小化生成器的損失函數(shù)，使得到生成的數(shù)據(jù)能夠混淆判別器，同時被
【學位授予單位】：西安電子科技大學
【學位級別】：碩士
【學位授予年份】：2019
【分類號】：TN912.35;TP183

【相似文獻】

相關(guān)期刊論文前10條

1 劉鵬;;基于深度學習的語音增強方法研究[J];智能計算機與應用;2019年05期

2 石玲;;基于計算機聲卡的譜相減語音增強系統(tǒng)分析[J];信息與電腦(理論版);2010年02期

3 孫濤;;基于計算機聲卡的譜相減語音增強系統(tǒng)分析[J];南昌教育學院學報;2010年05期

4 張曉雷;;基于深度學習的語音增強簡述[J];網(wǎng)絡(luò)新媒體技術(shù);2019年02期

5 李璐君;屈丹;;一種基于組合深層模型的語音增強方法[J];信息工程大學學報;2018年04期

6 袁文浩;婁迎曦;梁春燕;夏斌;;利用生成噪聲提高語音增強方法的泛化能力[J];電子學報;2019年04期

7 陰法明;唐於烽;;基于深度置信網(wǎng)絡(luò)的語音增強算法[J];電子器件;2018年05期

8 余華;唐於烽;趙力;;基于改進深度置信網(wǎng)絡(luò)的語音增強算法[J];數(shù)據(jù)采集與處理;2018年05期

9 薛慧君;李盛;路國華;張楊;焦騰;王健琪;荊西京;;提升小波用于非接觸語音增強算法的研究[J];醫(yī)療衛(wèi)生裝備;2013年05期

10 胡海波;劉柏森;許銀;;基于小波變換的語音增強研究[J];黑龍江工程學院學報(自然科學版);2011年01期

相關(guān)會議論文前10條

1 王世偉;胡笑滸;鄭成詩;李曉東;;一種改進的基于能量差語音增強算法[A];中國聲學學會第九屆青年學術(shù)會議論文集[C];2011年

2 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語音增強算法[A];中國聲學學會2003年青年學術(shù)會議[CYCA'03]論文集[C];2003年

3 閻兆立;杜利民;;維納后濾波語音增強算法研究[A];中國聲學學會2005年青年學術(shù)會議[CYCA'05]論文集[C];2005年

4 童峰;許肖梅;洪青陽;;一種帶階數(shù)估計的語音增強算法[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年

5 袁榕嶸;吳鳴;楊軍;;雙麥克風語音增強快速算法[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術(shù)會議論文集[C];2010年

6 國雁萌;;一種極低信噪比條件下的語音增強方法[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年

7 李海峰;韓紀慶;鄭鐵然;;元音、輔音粗判自適應電話語音增強方法[A];第七屆全國人機語音通訊學術(shù)會議（NCMMSC7）論文集[C];2003年

8 高登峰;楊波;郭東岳;;基于深度神經(jīng)網(wǎng)絡(luò)的地空通話語音增強方法[A];第一屆空中交通管理系統(tǒng)技術(shù)學術(shù)年會論文集[C];2018年

9 樓廈廈;鄭成詩;李曉東;;濾波器權(quán)值約束對自適應零限波束形成語音增強算法魯棒性影響分析[A];中國聲學學會2007年青年學術(shù)會議論文集（上）[C];2007年

10 任玉寶;;基于聯(lián)合字典學習的語音增強算法[A];中國聲學學會水聲學分會2019年學術(shù)會議論文集[C];2019年

相關(guān)重要報紙文章前3條

1 ;NMS Sonata Ⅲ/Studio Sound級語音增強系統(tǒng)話音更清晰[N];中國計算機報;2003年

2 本報記者馬楠;NMS市場目標轉(zhuǎn)向無線服務提供商[N];通信產(chǎn)業(yè)報;2001年

3 ;VoIP服務不只是便宜的通話[N];網(wǎng)絡(luò)世界;2002年

相關(guān)博士學位論文前10條

1 江文斌;面向復雜場景的極低碼率語音編解碼和語音增強關(guān)鍵技術(shù)研究[D];上海交通大學;2018年

2 高天;復雜環(huán)境下基于深度學習的語音信號預處理方法研究[D];中國科學技術(shù)大學;2018年

3 童仁杰;基于信號稀疏特性的語音增強算法研究[D];中國科學技術(shù)大學;2018年

4 王青;基于深層神經(jīng)網(wǎng)絡(luò)的多目標學習和融合的語音增強研究[D];中國科學技術(shù)大學;2018年

5 王冬霞;麥克風陣列語音增強的若干方法研究[D];大連理工大學;2007年

6 歐世峰;變換域語音增強算法的研究[D];吉林大學;2008年

7 孫琦;基于子空間的低計算復雜度語音增強算法研究[D];吉林大學;2017年

8 夏丙寅;面向移動通信的單通道語音增強方法研究[D];北京工業(yè)大學;2014年

9 姚峰英;語音增強系統(tǒng)的研究與實現(xiàn)[D];中國科學院上海冶金研究所;2001年

10 張龍;有監(jiān)督學習條件下的單通道語音增強算法研究[D];中國科學技術(shù)大學;2017年

相關(guān)碩士學位論文前10條

1 李nQ;單聲道語音增強關(guān)鍵技術(shù)研究[D];重慶郵電大學;2019年

2 吳曉華;基于聽覺感知加權(quán)的時域語音增強算法研究[D];南京航空航天大學;2019年

3 Guernaz Zineddine;電話和語音識別系統(tǒng)的語音增強[D];哈爾濱工業(yè)大學;2019年

4 葉富強;基于主觀聽覺反饋的機器學習語音增強模型優(yōu)化研究[D];哈爾濱工業(yè)大學;2019年

5 余國修;麥克風陣列語音增強算法研究[D];西安電子科技大學;2019年

6 張鶴鳴;基于深度學習的語音增強方法研究[D];大連理工大學;2019年

7 孫桂琪;基于相空間重構(gòu)的語音增強方法研究[D];青島大學;2019年

8 吳衛(wèi)鵬;基于改進譜減的語音增強算法研究[D];南京郵電大學;2019年

9 張文瑞;基于生成對抗網(wǎng)絡(luò)的語音增強方法的研究[D];西安電子科技大學;2019年

10 霍陸陸;基于自適應噪聲相消的語音增強系統(tǒng)研究[D];西安電子科技大學;2019年

本文編號：2615512

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2615512.html

上一篇：海洋水色水溫掃描儀輻射基準漂移規(guī)律研究
下一篇：基于機器學習的城域網(wǎng)流量預測與業(yè)務重構(gòu)技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于生成對抗網(wǎng)絡(luò)的語音增強方法的研究