端到端自動(dòng)語(yǔ)音識(shí)別技術(shù)研究
發(fā)布時(shí)間:2020-12-14 00:11
語(yǔ)言作為人們?cè)谌穗H交往中最主要的溝通途徑,將來(lái)必然會(huì)成為人機(jī)交互與共融的重要橋梁。自動(dòng)語(yǔ)音識(shí)別(ASR)可以表述為通過(guò)計(jì)算機(jī)將人類(lèi)語(yǔ)音信號(hào)轉(zhuǎn)錄為書(shū)面形式的文字輸出的過(guò)程,而早自20世紀(jì)70年代以來(lái),自動(dòng)語(yǔ)音識(shí)別問(wèn)題就一直是機(jī)器學(xué)習(xí)界的一個(gè)重要研究課題。發(fā)展到現(xiàn)在,盡管傳統(tǒng)的自動(dòng)語(yǔ)音識(shí)別技術(shù)仍在被使用,但是解決了傳統(tǒng)框架識(shí)別過(guò)程繁瑣、難于優(yōu)化等問(wèn)題的基于深度神經(jīng)網(wǎng)絡(luò)的端到端模型在自動(dòng)語(yǔ)音識(shí)別領(lǐng)域正逐漸成為研究熱點(diǎn)與發(fā)展方向。在此背景下,本課題立足于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)框架,對(duì)端到端的語(yǔ)音識(shí)別技術(shù)進(jìn)行研究。首先,分析當(dāng)前兩種主流端到端自動(dòng)語(yǔ)音識(shí)別模型—CTC和基于注意力機(jī)制的模型,總結(jié)了二者存在的問(wèn)題:1.CTC對(duì)輸出單元之間作了相互獨(dú)立性假設(shè),但事實(shí)上這對(duì)上下文緊密相關(guān)的語(yǔ)音識(shí)別是并不合理的;2.注意力機(jī)制下允許不規(guī)則的輸入輸出對(duì)齊,但是通常語(yǔ)音識(shí)別卻具有嚴(yán)格單調(diào)對(duì)應(yīng)的輸入輸出。因此,本文提出了一種結(jié)合了CTC與注意力機(jī)制的端到端自動(dòng)語(yǔ)音識(shí)別模型,并在開(kāi)源英文語(yǔ)音數(shù)據(jù)集Librispeech識(shí)別任務(wù)上驗(yàn)證了模型的有效改進(jìn)。其次,本文提出了一種新型編碼-解碼結(jié)構(gòu)的端到端自動(dòng)語(yǔ)音識(shí)別模型,基于循...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-2典型的傳統(tǒng)ASR框架??-
現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)建立在統(tǒng)計(jì)原理的基礎(chǔ)上,由Baker?(1975)和Jelinek??(1976)的工作開(kāi)創(chuàng),一種source-channel數(shù)學(xué)模型或生成統(tǒng)計(jì)模型通常用于_??表述語(yǔ)音識(shí)別問(wèn)題。如圖2-1所示,說(shuō)話者的思想決定了通過(guò)他/她的文本生成??器傳遞的源文字序列W。源文本W是通過(guò)一個(gè)復(fù)雜的溝通通道,該通道由說(shuō)話者??的發(fā)音器官組成,以產(chǎn)生語(yǔ)音波形和語(yǔ)音識(shí)別器的語(yǔ)音信號(hào)處理部件。最后,??語(yǔ)音解碼器將聲學(xué)信號(hào)X解碼為單詞序列W,其在理想情況下W十分接近近原始??單詞序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??圖2-1語(yǔ)音識(shí)別系統(tǒng)的一種source-channel模型[3Q]??典型的實(shí)用語(yǔ)音識(shí)別系統(tǒng)由圖2-2的虛線框中所示的基本組件組成。應(yīng)用??程序以解碼器為接口來(lái)獲得識(shí)別結(jié)果,結(jié)果又可用于調(diào)節(jié)系統(tǒng)中其他組件。聲??學(xué)模型包括有關(guān)聲學(xué)、語(yǔ)音、麥克風(fēng)和周?chē)h(huán)境變化、說(shuō)話者之間的性別和方??言差異等所有與發(fā)出的語(yǔ)音信號(hào)相關(guān)的的認(rèn)知表示。語(yǔ)言模型是指系統(tǒng)對(duì)可能??構(gòu)成的單詞、哪些詞屬于高頻詞、以及詞匯以什么順序出現(xiàn)等與文本信息相關(guān)??的認(rèn)知。對(duì)于用戶(hù)希望表達(dá)的語(yǔ)義和意愿,語(yǔ)言模型也可能是有必要去實(shí)現(xiàn)的。??在自動(dòng)語(yǔ)音識(shí)別中存在許多不確定性
’?:??圖2-2語(yǔ)音識(shí)別系統(tǒng)的基本結(jié)構(gòu)框架[3n??如圖2-2所示,語(yǔ)音信號(hào)在信號(hào)處理模塊中處理,該信號(hào)處理模塊提取解??碼模塊需要的顯著特征向量。根據(jù)輸入特征向量,解碼器使用聲學(xué)和語(yǔ)言模型??來(lái)生成具有最大后驗(yàn)概率的單詞序列。在此框架中,解碼器還為Adaptation組??件提供其所需的信息來(lái)修改聲學(xué)或語(yǔ)言模型,從而可以獲得性能提升。??2.?2語(yǔ)音信號(hào)特征提取??特征提取是傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的一個(gè)重要部分。特征提取的目的是壓縮輸??入信號(hào)(矢量)的幅度,而不會(huì)對(duì)語(yǔ)音信號(hào)的功率造成任何損害。有多種常用??的特征提取技術(shù)。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??圖2-3特征提取流程圖[32]??圖2-3表示了特征提取流程。在此,從一側(cè)輸入連續(xù)語(yǔ)音信號(hào)用于加窗過(guò)??程。在窗口化過(guò)程中
【參考文獻(xiàn)】:
博士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型研究[D]. 張仕良.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):2915435
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-2典型的傳統(tǒng)ASR框架??-
現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)建立在統(tǒng)計(jì)原理的基礎(chǔ)上,由Baker?(1975)和Jelinek??(1976)的工作開(kāi)創(chuàng),一種source-channel數(shù)學(xué)模型或生成統(tǒng)計(jì)模型通常用于_??表述語(yǔ)音識(shí)別問(wèn)題。如圖2-1所示,說(shuō)話者的思想決定了通過(guò)他/她的文本生成??器傳遞的源文字序列W。源文本W是通過(guò)一個(gè)復(fù)雜的溝通通道,該通道由說(shuō)話者??的發(fā)音器官組成,以產(chǎn)生語(yǔ)音波形和語(yǔ)音識(shí)別器的語(yǔ)音信號(hào)處理部件。最后,??語(yǔ)音解碼器將聲學(xué)信號(hào)X解碼為單詞序列W,其在理想情況下W十分接近近原始??單詞序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??圖2-1語(yǔ)音識(shí)別系統(tǒng)的一種source-channel模型[3Q]??典型的實(shí)用語(yǔ)音識(shí)別系統(tǒng)由圖2-2的虛線框中所示的基本組件組成。應(yīng)用??程序以解碼器為接口來(lái)獲得識(shí)別結(jié)果,結(jié)果又可用于調(diào)節(jié)系統(tǒng)中其他組件。聲??學(xué)模型包括有關(guān)聲學(xué)、語(yǔ)音、麥克風(fēng)和周?chē)h(huán)境變化、說(shuō)話者之間的性別和方??言差異等所有與發(fā)出的語(yǔ)音信號(hào)相關(guān)的的認(rèn)知表示。語(yǔ)言模型是指系統(tǒng)對(duì)可能??構(gòu)成的單詞、哪些詞屬于高頻詞、以及詞匯以什么順序出現(xiàn)等與文本信息相關(guān)??的認(rèn)知。對(duì)于用戶(hù)希望表達(dá)的語(yǔ)義和意愿,語(yǔ)言模型也可能是有必要去實(shí)現(xiàn)的。??在自動(dòng)語(yǔ)音識(shí)別中存在許多不確定性
’?:??圖2-2語(yǔ)音識(shí)別系統(tǒng)的基本結(jié)構(gòu)框架[3n??如圖2-2所示,語(yǔ)音信號(hào)在信號(hào)處理模塊中處理,該信號(hào)處理模塊提取解??碼模塊需要的顯著特征向量。根據(jù)輸入特征向量,解碼器使用聲學(xué)和語(yǔ)言模型??來(lái)生成具有最大后驗(yàn)概率的單詞序列。在此框架中,解碼器還為Adaptation組??件提供其所需的信息來(lái)修改聲學(xué)或語(yǔ)言模型,從而可以獲得性能提升。??2.?2語(yǔ)音信號(hào)特征提取??特征提取是傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的一個(gè)重要部分。特征提取的目的是壓縮輸??入信號(hào)(矢量)的幅度,而不會(huì)對(duì)語(yǔ)音信號(hào)的功率造成任何損害。有多種常用??的特征提取技術(shù)。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??圖2-3特征提取流程圖[32]??圖2-3表示了特征提取流程。在此,從一側(cè)輸入連續(xù)語(yǔ)音信號(hào)用于加窗過(guò)??程。在窗口化過(guò)程中
【參考文獻(xiàn)】:
博士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型研究[D]. 張仕良.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):2915435
本文鏈接:http://www.lk138.cn/kejilunwen/xinxigongchenglunwen/2915435.html
最近更新
教材專(zhuān)著