西里爾蒙古文—漢文機器翻譯系統(tǒng)的實現(xiàn)
發(fā)布時間:2024-05-20 21:54
多民族語言機器翻譯的研究對維護我國民族地區(qū)的社會穩(wěn)定和接受兄弟民族的先進技術(shù)、加強各民族交流、傳承并發(fā)展民族文化等都具有極為重要的意義。西里爾蒙古文-漢文機器翻譯研究面臨語言類型跨度大、語言現(xiàn)象復雜、語言資源缺乏、少數(shù)民族語言信息處理基礎(chǔ)技術(shù)薄弱等問題。其中復雜形態(tài)語言機器翻譯建模、資源缺乏語言的機器翻譯等問題也是機器翻譯研究本身面臨的重要學科問題。本文利用收集整理的多語言語言資源、知識資源及開源工具搭建了蒙漢統(tǒng)計機器翻譯平臺。在該研究中,為了提高基于統(tǒng)計的西里爾蒙古文-漢文機器翻譯的性能和解決譯文中出現(xiàn)的大量的未登錄詞,本文從以下幾個方面進行了研究和實驗:(1)建立近22萬余句對的西里爾蒙古文-漢語雙語語料庫,在建立雙語語料庫的具體過程中擬定了西里爾蒙古文-漢語雙語語料庫建設(shè)標準。(2)建立西里爾蒙古語語料庫的預處理步驟:如編碼統(tǒng)一轉(zhuǎn)換為UTF-8格式,縮略語轉(zhuǎn)寫,大小寫轉(zhuǎn)換等。(3)通過加入蒙-漢人名詞典、地名詞典及拼寫數(shù)詞、時間詞的正則表達式規(guī)則來識別與翻譯對命名實體進行有效的翻譯。(4)對蒙古語格附加成分、復數(shù)詞綴、領(lǐng)屬附屬附加成分的雙重格進行詳細分析,并進行粗粒度切分。其中命...
【文章頁數(shù)】:129 頁
【學位級別】:博士
【部分圖文】:
本文編號:3979173
【文章頁數(shù)】:129 頁
【學位級別】:博士
【部分圖文】:
圖2-1雙語語料庫的語料組成
侶對巧迎讀在而肯閱讀理解化沒饑利難,適合制化連梢料巧的時,W巧vk化川古文灰化,盡化囊括丫進來。??農(nóng)性和巧衡他語料化當"文學巧和非文學類。我們不僅收化/n皮書和?些雜文W及它們的譯文還"U巧,小說,新聞,電術(shù),產(chǎn)品說明巧各個領(lǐng)巧的巧巧巧料巧。??翻降存儲資料、翻彈文巧、巧典、山....
圖25西里爾蒙古文的構(gòu)詞構(gòu)形特點
我們品然化該對詞語進行形態(tài)分析,因為我們不Ilf能存儲巧-個??可能存在的巧。如巧不算派生巧巧綴,那么一個絮古巧的?個動巧至少有1710??種變化形式63?64?(西巧爾蒙古文中,扣部分虛詞也能成為巧綴拼.氣在詞干么后,??所W么派生史多種變化形式);如果把派化后綴加起來,那么從....
圖3一數(shù)詞單位對比圖
?巧;巧叫誠絮命打義化W別???建簡中數(shù)詞W-??巧的規(guī)則紅L合而成,比如"xopuH?rypaB"(二十^)。在機器??翻彈111,前兩種數(shù)乂變化形乂迎過簡中.的I化配和映射就ii":A實現(xiàn)識別和翻譯,??似足葵古文安合數(shù)巧的構(gòu)成規(guī)排復雜《巧,需巧合圳.的整排.歸納分巧實視K翻....
圖3一5蒙文人名直譯漢文人名
本文編號:3979173
本文鏈接:http://www.lk138.cn/shoufeilunwen/rwkxbs/3979173.html