国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

當前位置:主頁 > 科技論文 > 信息工程論文 >

端到端自動語音識別技術研究

發(fā)布時間:2020-12-14 00:11
  語言作為人們在人際交往中最主要的溝通途徑,將來必然會成為人機交互與共融的重要橋梁。自動語音識別(ASR)可以表述為通過計算機將人類語音信號轉(zhuǎn)錄為書面形式的文字輸出的過程,而早自20世紀70年代以來,自動語音識別問題就一直是機器學習界的一個重要研究課題。發(fā)展到現(xiàn)在,盡管傳統(tǒng)的自動語音識別技術仍在被使用,但是解決了傳統(tǒng)框架識別過程繁瑣、難于優(yōu)化等問題的基于深度神經(jīng)網(wǎng)絡的端到端模型在自動語音識別領域正逐漸成為研究熱點與發(fā)展方向。在此背景下,本課題立足于深度神經(jīng)網(wǎng)絡結構框架,對端到端的語音識別技術進行研究。首先,分析當前兩種主流端到端自動語音識別模型—CTC和基于注意力機制的模型,總結了二者存在的問題:1.CTC對輸出單元之間作了相互獨立性假設,但事實上這對上下文緊密相關的語音識別是并不合理的;2.注意力機制下允許不規(guī)則的輸入輸出對齊,但是通常語音識別卻具有嚴格單調(diào)對應的輸入輸出。因此,本文提出了一種結合了CTC與注意力機制的端到端自動語音識別模型,并在開源英文語音數(shù)據(jù)集Librispeech識別任務上驗證了模型的有效改進。其次,本文提出了一種新型編碼-解碼結構的端到端自動語音識別模型,基于循... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:71 頁

【學位級別】:碩士

【部分圖文】:

端到端自動語音識別技術研究


圖1-2典型的傳統(tǒng)ASR框架??-

模型圖,語音識別系統(tǒng),模型,說話者


現(xiàn)代語音識別系統(tǒng)建立在統(tǒng)計原理的基礎上,由Baker?(1975)和Jelinek??(1976)的工作開創(chuàng),一種source-channel數(shù)學模型或生成統(tǒng)計模型通常用于_??表述語音識別問題。如圖2-1所示,說話者的思想決定了通過他/她的文本生成??器傳遞的源文字序列W。源文本W是通過一個復雜的溝通通道,該通道由說話者??的發(fā)音器官組成,以產(chǎn)生語音波形和語音識別器的語音信號處理部件。最后,??語音解碼器將聲學信號X解碼為單詞序列W,其在理想情況下W十分接近近原始??單詞序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??圖2-1語音識別系統(tǒng)的一種source-channel模型[3Q]??典型的實用語音識別系統(tǒng)由圖2-2的虛線框中所示的基本組件組成。應用??程序以解碼器為接口來獲得識別結果,結果又可用于調(diào)節(jié)系統(tǒng)中其他組件。聲??學模型包括有關聲學、語音、麥克風和周圍環(huán)境變化、說話者之間的性別和方??言差異等所有與發(fā)出的語音信號相關的的認知表示。語言模型是指系統(tǒng)對可能??構成的單詞、哪些詞屬于高頻詞、以及詞匯以什么順序出現(xiàn)等與文本信息相關??的認知。對于用戶希望表達的語義和意愿,語言模型也可能是有必要去實現(xiàn)的。??在自動語音識別中存在許多不確定性

流程圖,特征提取,流程圖


’?:??圖2-2語音識別系統(tǒng)的基本結構框架[3n??如圖2-2所示,語音信號在信號處理模塊中處理,該信號處理模塊提取解??碼模塊需要的顯著特征向量。根據(jù)輸入特征向量,解碼器使用聲學和語言模型??來生成具有最大后驗概率的單詞序列。在此框架中,解碼器還為Adaptation組??件提供其所需的信息來修改聲學或語言模型,從而可以獲得性能提升。??2.?2語音信號特征提取??特征提取是傳統(tǒng)語音識別系統(tǒng)的一個重要部分。特征提取的目的是壓縮輸??入信號(矢量)的幅度,而不會對語音信號的功率造成任何損害。有多種常用??的特征提取技術。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??圖2-3特征提取流程圖[32]??圖2-3表示了特征提取流程。在此,從一側輸入連續(xù)語音信號用于加窗過??程。在窗口化過程中

【參考文獻】:
博士論文
[1]基于深度神經(jīng)網(wǎng)絡的語音識別模型研究[D]. 張仕良.中國科學技術大學 2017



本文編號:2915435

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/kejilunwen/xinxigongchenglunwen/2915435.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶55643***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
91麻豆视频一区| 男女吃鸡巴实操视频| 欧美4k电影一区二区| 欧美日韩影院三| 婷婷五月天亚洲午夜av| 不卡的日韩小黄片| 麻豆精选淫水合集高清| 91在线人妻观看| 美女张开腿让男人日的视频 | 古装草b视频| 18调教在线观看视频| 一区二楼三区免费在线观看乱码| 亚洲自拍1区2区| 在线观看成人欧美日韩国产| av偷拍中文| 台湾AV后入| 日本精品一二三| 天天摸天天操天天插天天干| 色五月成人AV| 久久久久久四虎人妻性爱免费视频| 色诱亚洲综合视频| 98久久久欧美| 婷婷丁香五月深爱憿情网国产| 百度一下久久精品久久久久| 荣昌政府食堂大厨手都炒麻了| 一区av中文字幕| 亚洲视频第二十六页| 精久精品| 日韩人妻视频| 国产日韩欧美新999| www..com啪啪啪啪啪| 99在线看视频| 亚洲综合一区/二区| 看美女曰逼| h文nP欧美在线| 日本有码在线一极视频| av在线黄激情| 天天综合一区二区日韩| 欧美美女网站全黄| 日韩精彩无码| 九七视频一区|