基于噪聲基的語音增強方法及其魯棒性問題的研究
本文選題:語音增強 切入點:噪聲基 出處:《中國科學技術大學》2017年碩士論文
【摘要】:在語音通信過程中,由于受到背景噪聲和混響的干擾,導致語音的可懂度下降和聽感變差。因此在語音通信中,通常需要使用語音增強技術。傳統(tǒng)語音增強方法中,基于無監(jiān)督學習的語音增強方法存在不合理的假設限制了其性能,近年來隨著語音數據規(guī)模的增大和硬件性能的提高,基于深層神經網絡的語音增強方法展現了相對無監(jiān)督學習方法的極大優(yōu)勢。首先,我們介紹了基于深層神經網絡的語音增強方法。但是傳統(tǒng)基于深層神經網絡的語音增強方法在收集真實噪聲的時候,無法在覆蓋度方面對噪聲進行度量和控制,也就是說,這類方法側重于數據規(guī)模,并沒有對數據進行細致的分析。在數據量較大之后,噪聲數據通常存在較大的冗余。此外,對于一般實驗者來說,獲取真實噪聲通常需要支付較高的成本。針對以上問題,我們提出了基于噪聲基的深層神經網絡語音增強方法,并針對噪聲魯棒性問題開展了系統(tǒng)性的研究。其次,考慮到噪聲的多樣性和緊湊性,我們提出了一種基于噪聲基的深層神經網絡語音增強方法。因為神經網絡的輸入和輸出及學習均是在幀這一級別進行,這給我們在更小的單元上深入分析噪聲的語譜結構帶來了可能。因此,首先我們驗證了基于深層神經網絡的語音增強方法的對噪聲學習的原理。通過合理地構造一組完備的具有表征性和區(qū)分性的噪聲基,在不使用任何真實噪聲訓練的條件下,基于噪聲基的深層神經網絡語音增強的方法能夠獲得與傳統(tǒng)使用真實噪聲的方法相當的性能,同時證明了這組噪聲基和真實噪聲存在互補性。再次,為了在有限的訓練數據規(guī)模的條件下,讓每句語音組合到更多的噪聲基,同時為了讓噪聲基覆蓋到類型更豐富的真實噪聲,我們提出了一種基于噪聲基并結合線性組合的噪聲信號的構造方法。首先,我們介紹了通過噪聲基的線性組合可以覆蓋到更多噪聲類型的原理。其次,根據這一原理,通過將基于噪聲基并結合線性組合的噪聲信號直接作為訓練噪聲,可以進一步提升噪聲基的性能。然后,針對窄帶噪聲這一細分類型進行定制,可以獲得比50種真實噪聲更好的性能。此外,噪聲基比真實噪聲訓練效率提高了一倍。最后,使用基于漸進學習的語音增強方法和基于多信息源融合的語音增強方法這兩種新的框架,在豐富的訓練集外的窄帶/寬帶噪聲類型和訓練集外的語音上驗證了我們的結論,即在不使用任何真實噪聲訓練的條件下,噪聲基在新的框架下仍然能夠獲得與傳統(tǒng)使用真實噪聲的方法相當的性能,展現了噪聲基對豐富類型集外噪聲的泛化能力。
[Abstract]:In the process of speech communication, due to background noise and reverberation, the intelligibility of speech decreases and the sense of hearing becomes worse. Therefore, speech enhancement technology is usually used in speech communication. The performance of speech enhancement based on unsupervised learning is limited by unreasonable assumptions. In recent years, with the increase of the scale of speech data and the improvement of hardware performance, The speech enhancement method based on the deep neural network shows the great advantage of the unsupervised learning method. First of all, We introduce the speech enhancement method based on deep neural network, but the traditional speech enhancement method based on deep neural network can not measure and control the noise in terms of coverage when collecting real noise. This approach focuses on the size of the data and does not provide a detailed analysis of the data. After a large amount of data, the noise data is usually redundant. In addition, for the general experimenter, To obtain real noise, we usually pay a high cost. To solve the above problems, we propose a speech enhancement method based on deep neural networks based on noise basis, and carry out systematic research on noise robustness. Secondly, Considering the diversity and compactness of noise, we propose a speech enhancement method based on noise basis for deep neural networks, because the input, output and learning of neural networks are carried out at the frame level. This makes it possible for us to further analyze the spectral structure of noise on smaller units. First of all, we verify the principle of noise learning in speech enhancement based on deep neural network. By constructing a complete set of representative and discriminative noise bases reasonably, we do not use any real noise training condition. The speech enhancement method of deep neural network based on noise base can achieve the same performance as the traditional method of using real noise. It also proves that the noise base and the real noise are complementary. In order to combine each sentence into more noise bases under the condition of limited training data scale, and to cover the noise base to more types of real noise, We propose a method of constructing noise signals based on noise base and linear combination. Firstly, we introduce the principle that the linear combination of noise bases can cover more noise types. Secondly, according to this principle, The performance of the noise base can be further improved by taking the noise signal based on the noise base and combining the linear combination directly as the training noise. You can get better performance than 50 kinds of real noise. In addition, the noise base is twice as efficient as the real noise training. Finally, Two new frameworks, progressive learning based speech enhancement method and multi-source fusion based speech enhancement method, are used to verify our conclusion on the narrowband / wideband noise types outside the rich training set and the speech outside the training set. That is, without using any real noise training, the noise base can still achieve the same performance as the traditional method of using real noise under the new framework, which shows the generalization ability of the noise base to the off-set noise of rich types.
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TN912.3
【相似文獻】
相關期刊論文 前10條
1 李倩,王讓定,陳金兒;基于改進閾值的小波域語音增強算法[J];寧波大學學報(理工版);2005年03期
2 胡光銳,虞曉;基于二階前向結構和信息最大理論的語音增強算法[J];上海交通大學學報;2000年07期
3 姚峰英,張敏;用于語音增強的高頻信噪比度量[J];聲學學報;2002年05期
4 彭煊,劉金福,王炳錫;基于獨立分量分析的語音增強[J];信號處理;2002年05期
5 王金明,張雄偉;一種基于自適應模糊濾波的語音增強方法[J];解放軍理工大學學報(自然科學版);2003年01期
6 楊匯軍,鄭海英,王立紅;語音增強方法的研究[J];遼寧工學院學報;2003年05期
7 徐爽,韓芳芳,鄭德忠;基于閾值的小波域語音增強新算法[J];傳感技術學報;2004年01期
8 孫新德;一種改進的語音增強方法及實現[J];鄭州航空工業(yè)管理學院學報(社會科學版);2005年04期
9 錢國青;趙鶴鳴;;基于改進譜減算法的語音增強新方法[J];計算機工程與應用;2005年35期
10 王晶,傅豐林,張運偉;語音增強算法綜述[J];聲學與電子工程;2005年01期
相關會議論文 前10條
1 陳凱;俞蒙槐;胡上序;付強;;語音增強系統(tǒng)性能評測方法綜述[A];第四屆全國人機語音通訊學術會議論文集[C];1996年
2 王建波;林本浩;田春明;劉睿;;語音增強及其相關技術研究[A];2009通信理論與技術新發(fā)展——第十四屆全國青年通信學術會議論文集[C];2009年
3 徐舒;孫洪;;基于融合迭代的語音增強方法[A];第十四屆全國信號處理學術年會(CCSP-2009)論文集[C];2009年
4 牛剛;任新智;吳國慶;;諧波能量匯集度在語音增強中的應用[A];第六屆全國信息獲取與處理學術會議論文集(2)[C];2008年
5 國雁萌;;一種極低信噪比條件下的語音增強方法[A];第六屆全國人機語音通訊學術會議論文集[C];2001年
6 江峰;李曉東;;適用于抑制非平穩(wěn)背景噪聲的語音增強算法[A];中國聲學學會2003年青年學術會議[CYCA'03]論文集[C];2003年
7 閻兆立;杜利民;;維納后濾波語音增強算法研究[A];中國聲學學會2005年青年學術會議[CYCA'05]論文集[C];2005年
8 劉淑華;胡強;覃團發(fā);萬海斌;;語音增強算法的研究[A];2005通信理論與技術新進展——第十屆全國青年通信學術會議論文集[C];2005年
9 魏臻;張景達;陸陽;;嵌入式系統(tǒng)中語音增強改進算法的研究[A];2007'中國儀器儀表與測控技術交流大會論文集(一)[C];2007年
10 楊威明;;基于閾值的小波變換語音增強方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
相關博士學位論文 前10條
1 張龍;有監(jiān)督學習條件下的單通道語音增強算法研究[D];中國科學技術大學;2017年
2 歐世峰;變換域語音增強算法的研究[D];吉林大學;2008年
3 尹偉;基于模型的語音增強方法及質量評估研究[D];武漢大學;2009年
4 王海艷;基于統(tǒng)計模型的語音增強算法研究[D];吉林大學;2011年
5 方瑜;語音增強相關問題研究[D];北京郵電大學;2012年
6 姚峰英;語音增強系統(tǒng)的研究與實現[D];中國科學院上海冶金研究所;2001年
7 夏丙寅;面向移動通信的單通道語音增強方法研究[D];北京工業(yè)大學;2014年
8 徐勇;基于深層神經網絡的語音增強方法研究[D];中國科學技術大學;2015年
9 陶智;低信噪比環(huán)境下語音增強的研究[D];蘇州大學;2011年
10 王娜;基于小波變換與約束方差噪聲譜估計的語音增強算法研究[D];燕山大學;2011年
相關碩士學位論文 前10條
1 肖佩霖;雙通道語音增強系統(tǒng)設計與實現[D];哈爾濱工業(yè)大學;2011年
2 陳成斌;針對于家居環(huán)境的語音增強系統(tǒng)的研究與開發(fā)[D];華南理工大學;2015年
3 魏有權;基于噪聲估計的語音增強算法研究[D];昆明理工大學;2015年
4 胡勇;麥克風陣列語音增強算法研究[D];電子科技大學;2014年
5 曹后斌;有色背景噪聲環(huán)境下語音增強系統(tǒng)的設計與實現[D];電子科技大學;2014年
6 馬小惠;陣列語音增強在車載環(huán)境中的應用[D];大連理工大學;2015年
7 李達;無線聲學傳感器網絡中分布式語音增強方法研究[D];大連理工大學;2015年
8 高珍珍;基于梅爾頻譜域HMM的語音增強方法研究[D];北京工業(yè)大學;2015年
9 宋環(huán)宇;全數字助聽器語音增強算法研究[D];哈爾濱工業(yè)大學;2014年
10 王永杰;基于麥克風陣列的語音增強算法研究[D];西安電子科技大學;2014年
,本文編號:1655574
本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/1655574.html