中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

發(fā)布時間:2015-02-12 20:21

摘 要:

摘 要:對語音數(shù)據(jù)庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對語料庫進(jìn)行統(tǒng)計的方法一直是目前語音分析和語音技術(shù)的主流;同時,語音的基礎(chǔ)研究,也很少使用實驗室語音進(jìn)行定性分析,而趨向采用大量自然語料的定量統(tǒng)計分析,所以語音數(shù)據(jù)庫的標(biāo)注顯得尤為重要。

關(guān)鍵詞:

關(guān)鍵詞:語料庫 語音 標(biāo)注 數(shù)據(jù)庫

  漢語方言在各個地方是應(yīng)用比較廣泛的語言,它在發(fā)音、韻律、詞匯及其詞的形態(tài)變化、組織句子結(jié)構(gòu)、文章的構(gòu)成等許多方面都具有各自獨特的特性。漢語方言語音數(shù)據(jù)庫建設(shè)是漢語方言研究不可缺少的部分。隨著對漢語方言研究的深入,比如機(jī)器翻譯、語音合成、語音識別、文字識別、智能檢索等研究,漢語方言各個特性的量化描述需求越來越大。正是漢語方言語音數(shù)據(jù)庫,為漢語方言研究提供了確鑿的數(shù)據(jù)。國內(nèi)各種普通話語音數(shù)據(jù)庫有很大的進(jìn)步,并逐漸成熟。漢語方言語音數(shù)據(jù)庫還是寥寥無幾,而且大多數(shù)的研究是從語言學(xué)的角度定性分析和解析,其主要目的是為了語言的共時研究、語言學(xué)研究以及民族學(xué)研究等等,而從聲學(xué)和物理學(xué)的角度定量分析和解析的研究則比較少。所以,漢語方言語音數(shù)據(jù)庫建設(shè)和研究,有它的歷史價值和使用價值。

  然而,建立漢語方言語音數(shù)據(jù)庫關(guān)鍵的一個環(huán)節(jié)就是數(shù)據(jù)庫的標(biāo)注。對語音庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對語料庫進(jìn)行統(tǒng)計的方法一直是目前語音分析和語音技術(shù)的主流;同時,語音的基礎(chǔ)研究,也很少使用實驗室語音進(jìn)行定性分析,而趨向采用大量自然語料的定量統(tǒng)計分析,所以語音庫標(biāo)注也越來越受到人們的關(guān)注。但是,語音庫的標(biāo)注過程并不是人們所想象的那么簡單,這本身就是一項研究工作。

     根據(jù)編碼標(biāo)注的復(fù)雜程度,可將語音數(shù)據(jù)庫的標(biāo)注細(xì)分為以下幾種情況:加任何處理的純文本語料庫;經(jīng)過格式屬性標(biāo)注的語料庫,如對段落、字體、字號進(jìn)行標(biāo)注;對識別信息進(jìn)行標(biāo)注,如作者、體裁、語域,以及詞性標(biāo)注;特殊標(biāo)記,如錯誤附碼。


1 語料庫的加工處理

1.1 語料庫加工處理的原理

  并不是說把大量電子文本簡單堆放在一起就建成了語料庫,一個語料庫的設(shè)計和建成總是代表某一具體領(lǐng)域的語言應(yīng)用或滿足相應(yīng)的研究目的。一個計算機(jī)語料庫的功能主要和下面三個因素密切相關(guān),即庫的規(guī)模、語料的分布和語料的加工深度。因為庫容量的大小直接影響到統(tǒng)計結(jié)果的可靠性,語料分布的考慮則關(guān)系到統(tǒng)計結(jié)果的適用范圍,而加工深度則決定了該語料庫能為自然語言處理提供什么樣的知識。

  語料庫的應(yīng)用越來越廣泛。90年代開始語料庫的應(yīng)用進(jìn)入了蓬勃發(fā)展的階段。如在機(jī)器翻譯、語音合成與語音識別、智能搜索方面的應(yīng)用。這些應(yīng)用是離不開對語料庫的處理和分析,基本處理和分析過程包括以下幾個步驟:語音處理,指音段分析,主要用于語音識別和語音合成。正字處理指對文本中各種非文字符號、標(biāo)點、大小寫問題等進(jìn)行處理和歧義消除。形態(tài)處理,即詞性指定和標(biāo)注碼。句法處理和語用處理,對語篇進(jìn)行語義指定和意義解釋。圖1表示出了語料庫的加工過程。

 

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

 


  為了從原始語料中得到有用的語言知識庫,必須對語料庫進(jìn)行加工。按需要對語料庫的加工可以從不同層次、不同深度兩個方面來分析。單語料庫的加工有:詞性標(biāo)注、詞匯語義標(biāo)注、句法標(biāo)注等。

  在對大規(guī)模語料的切分和標(biāo)注過程中,可以采用兩種方法:人工標(biāo)注和自動處理。自動處理的優(yōu)勢在于它處理速度快、效率高、可以保持較好的一致性。但由于自然語言中存在著大量的歧義現(xiàn)象,而計算機(jī)自動排歧的知識不完備致使自動處理結(jié)果會有許多錯誤,如:將交集型和組合型字段切錯,不能正確地選擇合適的詞類標(biāo)記等,從而降低了處理的準(zhǔn)確度。而人工標(biāo)注正好相反。如果參與工作的人的語言學(xué)知識比較豐富,又有一定的知識背景,能在切分和標(biāo)注過程中依據(jù)上下文信息做出準(zhǔn)確的判斷,那就很少發(fā)生歧義字段切錯或詞類標(biāo)記標(biāo)錯的現(xiàn)象。但在大規(guī)模語料的處理過程中,由于各人對一些概念的認(rèn)識水平存在差異,即使是同一個人,在不同的階段某些認(rèn)識和觀點也會發(fā)生變化,這樣不可避免的會使切分和標(biāo)注結(jié)果出現(xiàn)許多不一致現(xiàn)象。而且純粹由人來標(biāo)注,效率不高,其處理時間也太長。

  經(jīng)過標(biāo)注和附碼的語料庫使得語料庫數(shù)據(jù)分析更加系統(tǒng)精確,也便于對特殊數(shù)據(jù)信息的提取和處理。但是,不經(jīng)任何人工介入的生語料庫同樣具有獨特的價值。在語料庫建設(shè)中,一般是保持一個干凈的生語料庫,而把經(jīng)過標(biāo)注和句法分析的語料另存為一個子語料庫或者獨立的版本。

1.2 錄音的加工

  一般采集的只是生語料,還要對其進(jìn)行加工,才能成為真正的方言音庫。生語料需要的加工的步驟為:

  第一,除錄制語音中的首尾噪聲。

  第二,去除錄音中的靜音部分, 靜音我們定義為:安靜的條件是信號低于-38dB、長于140ms;聲音的條件為高于-34dB,語音長于25ms的信號。

  第三,丟棄錄音格式不對的語音。比如采樣率誤用為8kHZ。語音保存為sfs等其他非wav文件格式等。

  第四,丟棄錄音質(zhì)量不高的語音。主要涉及:說話人呼吸氣,環(huán)境噪聲,語速過快,,與提問無關(guān)的話,不是要錄的方言,帶有明顯其他方言口音。

  第五,寬音位標(biāo)注。要求標(biāo)注的寬音位有:元音,擦音,塞音,閉塞(靜音或背景噪聲),元音前響音,元音間響音,元音后響音。這里的響音是指發(fā)音時氣流從口腔或鼻腔順利流通。

  第六,確認(rèn)每句話的實際所屬方言。判斷是否受其他方言的影響,那種方言是何種方言。

  第七,對錄下的方言進(jìn)行詳細(xì)的語音標(biāo)注(按國際音標(biāo)或其他公認(rèn)音標(biāo)標(biāo)注)。

  第八,經(jīng)過上述處理,對整個語音庫進(jìn)行語音學(xué)及聲學(xué)統(tǒng)計分析。

  此外,還需要對語音信號進(jìn)行端點檢測。端點檢測算法不是實時運行的,而是從wav文件中獲取語音采樣,將其分幀并計算短時能量和過零率參數(shù),然后檢測。這種工作方式被稱為離線處理方法,而實時的處理方法是在線的。圖2是無錫話“桌子”的端點檢測圖樣。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究


圖2 無錫話“桌子”的端點檢測(從上到下依次為:原始語音信號、短時能量、過零率)


2 語音數(shù)據(jù)庫的標(biāo)注

2.1 詞性的標(biāo)注

  詞性標(biāo)注是語料庫加工的基本層次。要進(jìn)行詞性標(biāo)注有標(biāo)注集。如何確定標(biāo)注集?Penn Treebank提供了以下幾點原則:一是可恢復(fù)性,從標(biāo)注符號能恢復(fù)原詞;二是一致性,一隊詞中的兩個不能不同類,即一個屬于異類,另一個屬于另一類;三是句法功能,是一個詞的詞性能正確反映它的句法功能;四是不明確性,某一詞的詞性不明確時可以給出多個標(biāo)記。

  詞性標(biāo)注可以看成是從一種符號串到另一種符號串的映射過程,這種過程通過言語模型(言語模型,是指語言學(xué)信息及其處理的形式化)方法實現(xiàn)。

  詞類標(biāo)注的作用就是消除句子中詞的語法兼類。能屬于多種詞類的詞,在實際的語言環(huán)境中只屬于一種詞類,那么在詞類標(biāo)注中指出其實際環(huán)境的正確類型。詞類的正確標(biāo)注是后續(xù)句法標(biāo)注乃至語義標(biāo)注的前提。詞性標(biāo)注的自動實現(xiàn)是目前語料庫加工的基本步驟。詞性標(biāo)注系統(tǒng)有TAGGIT、Brill的方法、Constraint Grammar System、CLAWS、VOLSUNGA、Xtract等。

  常見的詞性標(biāo)注方法有以下幾種:基于規(guī)則的方法、基于統(tǒng)計的方法、基于統(tǒng)計和規(guī)則相結(jié)合的方法(隱馬爾可夫模型和Brill方法相結(jié)合的方法)、應(yīng)用神經(jīng)網(wǎng)絡(luò)方法、應(yīng)用決策歸納示例學(xué)習(xí)方法。

2.2 音段的標(biāo)注

  音段標(biāo)注是為每一個音段增加用國際音標(biāo)來表示的音段名稱。國際音標(biāo)IPA是國際通用的標(biāo)點符號。國際音標(biāo)是以羅馬字母為基礎(chǔ),再加上一些其他字母組成,但它不能通過計算機(jī)鍵盤輸入。為此國際上研究了一種與IPA對應(yīng)的計算機(jī)可讀的語音學(xué)符號SAMPA。在1987-1989年,SAMPA首先用于歐洲語言間的通信,如丹麥語、德語、意大利語、法語和英語,F(xiàn)在已經(jīng)擴(kuò)展到許多語言。并在語言學(xué)標(biāo)記的機(jī)器可讀標(biāo)準(zhǔn)方面開展了非常好的國際合作。SAMPA將IPA映射到ASCII碼的33~127范圍內(nèi)。與編碼一起指導(dǎo)語言的語音標(biāo)記。

  從圖3,可以看出語音中的靜音和語音、聲母和韻母可以通過短時能量和短時平均幅度區(qū)分出來。清音段信號隨機(jī)性較強(qiáng),頻頻穿過零點,所以短時過零率較高。而濁音段的過零率要低一些。短時能量和短時平均幅度也包含有清音和濁音的判別信息。


  

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究


圖3 沭陽話“上課”的時域波形圖和過零率圖

(分析工具為SFSWin1.30和Speech Analyzer2.4)

(橫軸都為時間,上圖縱軸為振幅,下圖縱軸為過零率)


2.3 韻律的標(biāo)注



本文編號:14527

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/14527.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9e06e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com