端到端自動語音識別技術研究

發(fā)布時間：2020-12-14 00:11

　　語言作為人們在人際交往中最主要的溝通途徑,將來必然會成為人機交互與共融的重要橋梁。自動語音識別（ASR）可以表述為通過計算機將人類語音信號轉錄為書面形式的文字輸出的過程,而早自20世紀70年代以來,自動語音識別問題就一直是機器學習界的一個重要研究課題。發(fā)展到現(xiàn)在,盡管傳統(tǒng)的自動語音識別技術仍在被使用,但是解決了傳統(tǒng)框架識別過程繁瑣、難于優(yōu)化等問題的基于深度神經(jīng)網(wǎng)絡的端到端模型在自動語音識別領域正逐漸成為研究熱點與發(fā)展方向。在此背景下,本課題立足于深度神經(jīng)網(wǎng)絡結構框架,對端到端的語音識別技術進行研究。首先,分析當前兩種主流端到端自動語音識別模型—CTC和基于注意力機制的模型,總結了二者存在的問題:1.CTC對輸出單元之間作了相互獨立性假設,但事實上這對上下文緊密相關的語音識別是并不合理的;2.注意力機制下允許不規(guī)則的輸入輸出對齊,但是通常語音識別卻具有嚴格單調對應的輸入輸出。因此,本文提出了一種結合了CTC與注意力機制的端到端自動語音識別模型,并在開源英文語音數(shù)據(jù)集Librispeech識別任務上驗證了模型的有效改進。其次,本文提出了一種新型編碼-解碼結構的端到端自動語音識別模型,基于循...

【文章來源】：北京郵電大學北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：71 頁

【學位級別】：碩士

【部分圖文】：

端到端自動語音識別技術研究

圖１－２典型的傳統(tǒng)ＡＳＲ框架??－

模型圖,語音識別系統(tǒng),模型,說話者

現(xiàn)代語音識別系統(tǒng)建立在統(tǒng)計原理的基礎上，由Ｂａｋｅｒ?（１９７５）和Ｊｅｌｉｎｅｋ??（１９７６）的工作開創(chuàng)，一種ｓｏｕｒｃｅ－ｃｈａｎｎｅｌ數(shù)學模型或生成統(tǒng)計模型通常用于＿??表述語音識別問題。如圖２－１所示，說話者的思想決定了通過他／她的文本生成??器傳遞的源文字序列Ｗ。源文本Ｗ是通過一個復雜的溝通通道，該通道由說話者??的發(fā)音器官組成，以產生語音波形和語音識別器的語音信號處理部件。最后，??語音解碼器將聲學信號Ｘ解碼為單詞序列Ｗ，其在理想情況下Ｗ十分接近近原始??單詞序列Ｗ。??Ｃｏｍｍｕｎｉｃａｔｉｏｎ?Ｃｈａｎｎｅｌ???ｉ?——；?ｉｊ??；??Ｔｅｘｔ?ｎＬ?Ｓｐｅｅｃｈ?一＊Ｓｉｇｎａｌ?：、?Ｓｐｅｅｃｈ??Ｇｅｎｅｒａｔｏｒ?Ｇｅｎｅｒａｔｏｒ?；?’?Ｐｒｏｃｅｓｓｉｎｇ?ｉ?’?Ｄｅｃｏｄｅｒ????：?１?ｉ??二Ｊ：??ｉｆ?＾??ｗ：???ｕ??＂；ｘ?ｉ?ｗ??Ｓｐｅｅｃｈ?Ｒｅｃｏｇｎｉｚｅｒ??圖２－１語音識別系統(tǒng)的一種ｓｏｕｒｃｅ－ｃｈａｎｎｅｌ模型［３Ｑ］??典型的實用語音識別系統(tǒng)由圖２－２的虛線框中所示的基本組件組成。應用??程序以解碼器為接口來獲得識別結果，結果又可用于調節(jié)系統(tǒng)中其他組件。聲??學模型包括有關聲學、語音、麥克風和周圍環(huán)境變化、說話者之間的性別和方??言差異等所有與發(fā)出的語音信號相關的的認知表示。語言模型是指系統(tǒng)對可能??構成的單詞、哪些詞屬于高頻詞、以及詞匯以什么順序出現(xiàn)等與文本信息相關??的認知。對于用戶希望表達的語義和意愿，語言模型也可能是有必要去實現(xiàn)的。??在自動語音識別中存在許多不確定性

流程圖,特征提取,流程圖

’?：??圖２－２語音識別系統(tǒng)的基本結構框架［３ｎ??如圖２－２所示，語音信號在信號處理模塊中處理，該信號處理模塊提取解??碼模塊需要的顯著特征向量。根據(jù)輸入特征向量，解碼器使用聲學和語言模型??來生成具有最大后驗概率的單詞序列。在此框架中，解碼器還為Ａｄａｐｔａｔｉｏｎ組??件提供其所需的信息來修改聲學或語言模型，從而可以獲得性能提升。??２．?２語音信號特征提取??特征提取是傳統(tǒng)語音識別系統(tǒng)的一個重要部分。特征提取的目的是壓縮輸??入信號（矢量）的幅度，而不會對語音信號的功率造成任何損害。有多種常用??的特征提取技術。??Ｃｏｎｔｉｎｕｏｕｓ?Ｓｐｅｅｃｈ?Ｗｋｉｄｏｗｉｉ＾?Ｄｉｓｃｒｅｔｅ??一一一一一、ｆ?……＇???Ｆｒａｍｅｓ?Ｔｒａｎｓｆｏｒｍ？ｒ??Ｍａｇｎｉｔｕｄｅ??Ｓｐｅｃｔｒｕｍ??—?—．．．．．．?Ｍｅ，?Ｍｅｌ??乂ｅｌ?Ｉｎｖｅｒｓｅ?Ｌ〇ｊｊ?Ｆｒｅｑｕｅｎｃｙ??Ｃｅｐｓｔｒｕｍ?ＤＦＴ?Ｗａｒｐｉｎｇ???一一、．?Ｓｐｅｃｔｒｕｍ?．??圖２－３特征提取流程圖［３２］??圖２－３表示了特征提取流程。在此，從一側輸入連續(xù)語音信號用于加窗過??程。在窗口化過程中

【參考文獻】：
博士論文
[1]基于深度神經(jīng)網(wǎng)絡的語音識別模型研究[D]. 張仕良.中國科學技術大學 2017

本文編號：2915435

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/xinxigongchenglunwen/2915435.html

上一篇：無線光通信混合調制解調技術研究
下一篇：5GHz無線頻段的復合數(shù)字陣列天線噪聲抑制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

端到端自動語音識別技術研究