漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

發(fā)布時間：2015-02-12 20:21

摘　要：

摘　要：對語音數(shù)據(jù)庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對語料庫進(jìn)行統(tǒng)計的方法一直是目前語音分析和語音技術(shù)的主流；同時，語音的基礎(chǔ)研究，也很少使用實驗室語音進(jìn)行定性分析，而趨向采用大量自然語料的定量統(tǒng)計分析，所以語音數(shù)據(jù)庫的標(biāo)注顯得尤為重要。

關(guān)鍵詞：

關(guān)鍵詞：語料庫　語音　標(biāo)注　數(shù)據(jù)庫

　　漢語方言在各個地方是應(yīng)用比較廣泛的語言，它在發(fā)音、韻律、詞匯及其詞的形態(tài)變化、組織句子結(jié)構(gòu)、文章的構(gòu)成等許多方面都具有各自獨特的特性。漢語方言語音數(shù)據(jù)庫建設(shè)是漢語方言研究不可缺少的部分。隨著對漢語方言研究的深入，比如機(jī)器翻譯、語音合成、語音識別、文字識別、智能檢索等研究，漢語方言各個特性的量化描述需求越來越大。正是漢語方言語音數(shù)據(jù)庫，為漢語方言研究提供了確鑿的數(shù)據(jù)。國內(nèi)各種普通話語音數(shù)據(jù)庫有很大的進(jìn)步，并逐漸成熟。漢語方言語音數(shù)據(jù)庫還是寥寥無幾，而且大多數(shù)的研究是從語言學(xué)的角度定性分析和解析，其主要目的是為了語言的共時研究、語言學(xué)研究以及民族學(xué)研究等等，而從聲學(xué)和物理學(xué)的角度定量分析和解析的研究則比較少。所以，漢語方言語音數(shù)據(jù)庫建設(shè)和研究，有它的歷史價值和使用價值。

　　然而，建立漢語方言語音數(shù)據(jù)庫關(guān)鍵的一個環(huán)節(jié)就是數(shù)據(jù)庫的標(biāo)注。對語音庫進(jìn)行標(biāo)注的目的是為語言工程和與語音研究提供可靠的數(shù)據(jù)。對語料庫進(jìn)行統(tǒng)計的方法一直是目前語音分析和語音技術(shù)的主流；同時，語音的基礎(chǔ)研究，也很少使用實驗室語音進(jìn)行定性分析，而趨向采用大量自然語料的定量統(tǒng)計分析，所以語音庫標(biāo)注也越來越受到人們的關(guān)注。但是，語音庫的標(biāo)注過程并不是人們所想象的那么簡單，這本身就是一項研究工作。

根據(jù)編碼標(biāo)注的復(fù)雜程度，可將語音數(shù)據(jù)庫的標(biāo)注細(xì)分為以下幾種情況：加任何處理的純文本語料庫；經(jīng)過格式屬性標(biāo)注的語料庫，如對段落、字體、字號進(jìn)行標(biāo)注；對識別信息進(jìn)行標(biāo)注，如作者、體裁、語域，以及詞性標(biāo)注；特殊標(biāo)記，如錯誤附碼。

1　語料庫的加工處理

1.1　語料庫加工處理的原理

　　并不是說把大量電子文本簡單堆放在一起就建成了語料庫，一個語料庫的設(shè)計和建成總是代表某一具體領(lǐng)域的語言應(yīng)用或滿足相應(yīng)的研究目的。一個計算機(jī)語料庫的功能主要和下面三個因素密切相關(guān)，即庫的規(guī)模、語料的分布和語料的加工深度。因為庫容量的大小直接影響到統(tǒng)計結(jié)果的可靠性，語料分布的考慮則關(guān)系到統(tǒng)計結(jié)果的適用范圍，而加工深度則決定了該語料庫能為自然語言處理提供什么樣的知識。

　　語料庫的應(yīng)用越來越廣泛。90年代開始語料庫的應(yīng)用進(jìn)入了蓬勃發(fā)展的階段。如在機(jī)器翻譯、語音合成與語音識別、智能搜索方面的應(yīng)用。這些應(yīng)用是離不開對語料庫的處理和分析，基本處理和分析過程包括以下幾個步驟：語音處理，指音段分析，主要用于語音識別和語音合成。正字處理指對文本中各種非文字符號、標(biāo)點、大小寫問題等進(jìn)行處理和歧義消除。形態(tài)處理，即詞性指定和標(biāo)注碼。句法處理和語用處理，對語篇進(jìn)行語義指定和意義解釋。圖1表示出了語料庫的加工過程。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

　　為了從原始語料中得到有用的語言知識庫，必須對語料庫進(jìn)行加工。按需要對語料庫的加工可以從不同層次、不同深度兩個方面來分析。單語料庫的加工有：詞性標(biāo)注、詞匯語義標(biāo)注、句法標(biāo)注等。

　　在對大規(guī)模語料的切分和標(biāo)注過程中，可以采用兩種方法：人工標(biāo)注和自動處理。自動處理的優(yōu)勢在于它處理速度快、效率高、可以保持較好的一致性。但由于自然語言中存在著大量的歧義現(xiàn)象，而計算機(jī)自動排歧的知識不完備致使自動處理結(jié)果會有許多錯誤，如：將交集型和組合型字段切錯，不能正確地選擇合適的詞類標(biāo)記等，從而降低了處理的準(zhǔn)確度。而人工標(biāo)注正好相反。如果參與工作的人的語言學(xué)知識比較豐富，又有一定的知識背景，能在切分和標(biāo)注過程中依據(jù)上下文信息做出準(zhǔn)確的判斷，那就很少發(fā)生歧義字段切錯或詞類標(biāo)記標(biāo)錯的現(xiàn)象。但在大規(guī)模語料的處理過程中，由于各人對一些概念的認(rèn)識水平存在差異，即使是同一個人，在不同的階段某些認(rèn)識和觀點也會發(fā)生變化，這樣不可避免的會使切分和標(biāo)注結(jié)果出現(xiàn)許多不一致現(xiàn)象。而且純粹由人來標(biāo)注，效率不高，其處理時間也太長。

　　經(jīng)過標(biāo)注和附碼的語料庫使得語料庫數(shù)據(jù)分析更加系統(tǒng)精確，也便于對特殊數(shù)據(jù)信息的提取和處理。但是，不經(jīng)任何人工介入的生語料庫同樣具有獨特的價值。在語料庫建設(shè)中，一般是保持一個干凈的生語料庫，而把經(jīng)過標(biāo)注和句法分析的語料另存為一個子語料庫或者獨立的版本。

1.2　錄音的加工

　　一般采集的只是生語料，還要對其進(jìn)行加工，才能成為真正的方言音庫。生語料需要的加工的步驟為：

　　第一，除錄制語音中的首尾噪聲。

　　第二，去除錄音中的靜音部分, 靜音我們定義為：安靜的條件是信號低于-38dB、長于140ms；聲音的條件為高于-34dB，語音長于25ms的信號。

　　第三，丟棄錄音格式不對的語音。比如采樣率誤用為8kHZ。語音保存為sfs等其他非wav文件格式等。

　　第四，丟棄錄音質(zhì)量不高的語音。主要涉及：說話人呼吸氣，環(huán)境噪聲，語速過快，，與提問無關(guān)的話，不是要錄的方言，帶有明顯其他方言口音。

　　第五，寬音位標(biāo)注。要求標(biāo)注的寬音位有：元音，擦音，塞音，閉塞（靜音或背景噪聲），元音前響音，元音間響音，元音后響音。這里的響音是指發(fā)音時氣流從口腔或鼻腔順利流通。

　　第六，確認(rèn)每句話的實際所屬方言。判斷是否受其他方言的影響，那種方言是何種方言。

　　第七，對錄下的方言進(jìn)行詳細(xì)的語音標(biāo)注（按國際音標(biāo)或其他公認(rèn)音標(biāo)標(biāo)注）。

　　第八，經(jīng)過上述處理，對整個語音庫進(jìn)行語音學(xué)及聲學(xué)統(tǒng)計分析。

　　此外，還需要對語音信號進(jìn)行端點檢測。端點檢測算法不是實時運行的，而是從wav文件中獲取語音采樣，將其分幀并計算短時能量和過零率參數(shù)，然后檢測。這種工作方式被稱為離線處理方法，而實時的處理方法是在線的。圖2是無錫話“桌子”的端點檢測圖樣。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

圖2　無錫話“桌子”的端點檢測（從上到下依次為：原始語音信號、短時能量、過零率）

2　語音數(shù)據(jù)庫的標(biāo)注

2.1　詞性的標(biāo)注

　　詞性標(biāo)注是語料庫加工的基本層次。要進(jìn)行詞性標(biāo)注有標(biāo)注集。如何確定標(biāo)注集？Penn Treebank提供了以下幾點原則：一是可恢復(fù)性,從標(biāo)注符號能恢復(fù)原詞；二是一致性，一隊詞中的兩個不能不同類，即一個屬于異類，另一個屬于另一類；三是句法功能,是一個詞的詞性能正確反映它的句法功能；四是不明確性，某一詞的詞性不明確時可以給出多個標(biāo)記。

　　詞性標(biāo)注可以看成是從一種符號串到另一種符號串的映射過程，這種過程通過言語模型（言語模型，是指語言學(xué)信息及其處理的形式化）方法實現(xiàn)。

　　詞類標(biāo)注的作用就是消除句子中詞的語法兼類。能屬于多種詞類的詞，在實際的語言環(huán)境中只屬于一種詞類，那么在詞類標(biāo)注中指出其實際環(huán)境的正確類型。詞類的正確標(biāo)注是后續(xù)句法標(biāo)注乃至語義標(biāo)注的前提。詞性標(biāo)注的自動實現(xiàn)是目前語料庫加工的基本步驟。詞性標(biāo)注系統(tǒng)有TAGGIT、Brill的方法、Constraint Grammar System、CLAWS、VOLSUNGA、Xtract等。

　　常見的詞性標(biāo)注方法有以下幾種：基于規(guī)則的方法、基于統(tǒng)計的方法、基于統(tǒng)計和規(guī)則相結(jié)合的方法（隱馬爾可夫模型和Brill方法相結(jié)合的方法）、應(yīng)用神經(jīng)網(wǎng)絡(luò)方法、應(yīng)用決策歸納示例學(xué)習(xí)方法。

2.2　音段的標(biāo)注

　　音段標(biāo)注是為每一個音段增加用國際音標(biāo)來表示的音段名稱。國際音標(biāo)IPA是國際通用的標(biāo)點符號。國際音標(biāo)是以羅馬字母為基礎(chǔ)，再加上一些其他字母組成，但它不能通過計算機(jī)鍵盤輸入。為此國際上研究了一種與IPA對應(yīng)的計算機(jī)可讀的語音學(xué)符號SAMPA。在1987-1989年，SAMPA首先用于歐洲語言間的通信，如丹麥語、德語、意大利語、法語和英語�，F(xiàn)在已經(jīng)擴(kuò)展到許多語言。并在語言學(xué)標(biāo)記的機(jī)器可讀標(biāo)準(zhǔn)方面開展了非常好的國際合作。SAMPA將IPA映射到ASCII碼的33～127范圍內(nèi)。與編碼一起指導(dǎo)語言的語音標(biāo)記。

　　從圖3，可以看出語音中的靜音和語音、聲母和韻母可以通過短時能量和短時平均幅度區(qū)分出來。清音段信號隨機(jī)性較強(qiáng)，頻頻穿過零點，所以短時過零率較高。而濁音段的過零率要低一些。短時能量和短時平均幅度也包含有清音和濁音的判別信息。

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究

圖3　沭陽話“上課”的時域波形圖和過零率圖

（分析工具為SFSWin1.30和Speech Analyzer2.4）

(橫軸都為時間，上圖縱軸為振幅，下圖縱軸為過零率)

2.3　韻律的標(biāo)注

本文編號：14527

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/jisuanjikexuelunwen/14527.html

上一篇：京石武基站動環(huán)監(jiān)控系統(tǒng)應(yīng)用及故障處理
下一篇：基于計算機(jī)輔助的臨床護(hù)理體系建立分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

漢語方言語音數(shù)據(jù)庫的標(biāo)注研究