中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

計(jì)算語(yǔ)言學(xué)文科能學(xué)嗎_大數(shù)據(jù)環(huán)境下計(jì)算語(yǔ)言學(xué)的超學(xué)科研究

發(fā)布時(shí)間:2016-10-14 08:15

  本文關(guān)鍵詞:計(jì)算語(yǔ)言學(xué)的超學(xué)科研究,由筆耕文化傳播整理發(fā)布。


您現(xiàn)在的位置 :首頁(yè) > 特色專(zhuān)欄 > 馮志偉

大數(shù)據(jù)環(huán)境下計(jì)算語(yǔ)言學(xué)的超學(xué)科研究

日期:2016-01-26  作者:馮志偉  來(lái)源:愛(ài)思英語(yǔ)

 本文由馮志偉授權(quán)愛(ài)思英語(yǔ)發(fā)布,轉(zhuǎn)載請(qǐng)注明出處和作者



馮志偉.jpg

                                                                                                 馮志偉攝于大連海事大學(xué)

大數(shù)據(jù)環(huán)境下計(jì)算語(yǔ)言學(xué)的超學(xué)科研究

-計(jì)算語(yǔ)言學(xué)超學(xué)科研究之七

馮志偉

我們欣喜地看到,在新的21世紀(jì),上世紀(jì)90年代開(kāi)始的這種大數(shù)據(jù)環(huán)境下的、基于統(tǒng)計(jì)的超學(xué)科研究進(jìn)一步以驚人的步伐加快了它的發(fā)展速度。這樣的加速發(fā)展在很大的程度上受到下面三種彼此協(xié)同的趨勢(shì)的推動(dòng)(馮志偉 2013)。

首先是建立帶標(biāo)記語(yǔ)料庫(kù)的趨勢(shì)。在語(yǔ)言數(shù)據(jù)聯(lián)盟和其他相關(guān)機(jī)構(gòu)的幫助下,計(jì)算語(yǔ)言學(xué)研究者可以獲得口語(yǔ)和書(shū)面語(yǔ)的大規(guī)模的海量語(yǔ)料。在這些海量語(yǔ)料中還包括一些帶有句法、語(yǔ)義和語(yǔ)用等不同層次的標(biāo)記的語(yǔ)料,其中蘊(yùn)藏著豐富的語(yǔ)言知識(shí)。這些帶標(biāo)記的語(yǔ)言資源大大地推動(dòng)了人們使用有監(jiān)督的機(jī)器學(xué)習(xí)方法(supervised machine learning)來(lái)處理那些在傳統(tǒng)上非常復(fù)雜的自動(dòng)句法分析和自動(dòng)語(yǔ)義分析等問(wèn)題,并且也推動(dòng)了有競(jìng)爭(zhēng)性的評(píng)測(cè)機(jī)制的建立。

第二是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的趨勢(shì)。在大數(shù)據(jù)的環(huán)境下,對(duì)于機(jī)器學(xué)習(xí)的日益增長(zhǎng)的重視,導(dǎo)致了計(jì)算語(yǔ)言學(xué)研究者與統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究者更加頻繁地交互,彼此之間互相切磋,互相影響。統(tǒng)計(jì)機(jī)器學(xué)習(xí)成為了計(jì)算語(yǔ)言學(xué)超學(xué)科研究的重要內(nèi)容。

第三是高性能計(jì)算機(jī)系統(tǒng)發(fā)展的趨勢(shì)。在大數(shù)據(jù)環(huán)境下,高性能計(jì)算機(jī)系統(tǒng)的廣泛應(yīng)用,為機(jī)器學(xué)習(xí)系統(tǒng)的大規(guī)模訓(xùn)練和效能發(fā)揮提供了有利的條件,而這些在上一個(gè)世紀(jì)是難以想象的。

最近,大規(guī)模的無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法(unsupervised machine learning)得到了重新關(guān)注。在機(jī)器翻譯和文本主題模擬等領(lǐng)域中統(tǒng)計(jì)方法的進(jìn)步,說(shuō)明了除了使用帶標(biāo)注的語(yǔ)料庫(kù)之外,也可以訓(xùn)練完全沒(méi)有標(biāo)注過(guò)的語(yǔ)料庫(kù)來(lái)構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng),這樣的系統(tǒng)也可以得到有效的應(yīng)用。

在大數(shù)據(jù)環(huán)境下的計(jì)算語(yǔ)言學(xué)研究中,圍繞著超學(xué)科的問(wèn)題,學(xué)者們的看法不盡相同:有的學(xué)者極力排斥語(yǔ)言學(xué),而有的學(xué)者則強(qiáng)調(diào)語(yǔ)言學(xué)的重要性。這些不同學(xué)術(shù)思想撞擊出燦爛的火花,照亮了我們的雙眼,使我們對(duì)于超學(xué)科的重要性看得更加清楚了。我們認(rèn)為,計(jì)算語(yǔ)言學(xué)的超學(xué)科研究對(duì)于計(jì)算語(yǔ)言學(xué)的發(fā)展具有導(dǎo)向性的作用,一旦脫離了超學(xué)科研究的軌道,將會(huì)使計(jì)算語(yǔ)言學(xué)的研究走向歧途。

面對(duì)基于統(tǒng)計(jì)的超學(xué)科研究方法取得的輝煌的成績(jī),有的學(xué)者在成績(jī)面前飄飄然起來(lái),他們過(guò)分地夸大統(tǒng)計(jì)方法的作用,看不起基于規(guī)則的方法。在一次自然語(yǔ)言處理評(píng)測(cè)討論會(huì)上,,美國(guó)IBM公司語(yǔ)音研究組的Jelinek竟然大言不慚地對(duì)與會(huì)者說(shuō):“每當(dāng)一個(gè)語(yǔ)言學(xué)家離開(kāi)我們的研究組的時(shí)候,語(yǔ)音識(shí)別率就會(huì)提高一步。”(Jurafsky & Martin 2005馮志偉 孫樂(lè)譯)。Jelinek把從事超學(xué)科研究的語(yǔ)言學(xué)家,貶低到了一錢(qián)不值的程度,采取了嗤之以鼻的態(tài)度,他得意忘形,試圖改變計(jì)算語(yǔ)言學(xué)的超學(xué)科性質(zhì),使計(jì)算語(yǔ)言學(xué)研究脫離超學(xué)科的軌道。我們認(rèn)為,這是一種錯(cuò)誤的傾向,將會(huì)使計(jì)算語(yǔ)言學(xué)走向歧途(馮志偉 2012)。

與Jelinek不同,美國(guó)計(jì)算語(yǔ)言學(xué)家Kenneth Church卻主張?jiān)诓捎么髷?shù)據(jù)和統(tǒng)計(jì)方法的同時(shí),還應(yīng)當(dāng)加強(qiáng)語(yǔ)言學(xué)的學(xué)習(xí)。他在2007年發(fā)表了一篇文章叫做《鐘擺擺得太遠(yuǎn)了》(Church 2007),敘述了他的認(rèn)識(shí)發(fā)展過(guò)程。在這篇文章中, Church回顧了上世紀(jì)90年代他和一些志同道合的青年學(xué)者在國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)中創(chuàng)建一個(gè)“數(shù)據(jù)研究興趣組”的情形。他說(shuō),“當(dāng)時(shí)我們出于實(shí)用主義的考慮,背叛了自己老師的理性主義方法的立場(chǎng),專(zhuān)門(mén)建立一個(gè)興趣小組來(lái)研究數(shù)據(jù)。我們認(rèn)為,既然現(xiàn)在語(yǔ)言數(shù)據(jù)可以輕而易舉地得到,為什么不可以拿過(guò)來(lái)利用一下呢?與其高不成低不就,不如順?biāo)浦,做一些?jiǎn)單易行的事情,率先摘取那些大樹(shù)上低枝頭的唾手可得的果實(shí)。”他們采取的技術(shù)路線是以語(yǔ)言數(shù)據(jù)為基礎(chǔ)的經(jīng)驗(yàn)主義方法,也就是本文中描述的基于統(tǒng)計(jì)的超學(xué)科方法。

當(dāng)時(shí)他們只是想在國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)眾多的興趣組中取得一席之地,并沒(méi)有更大的野心。可是,過(guò)了幾年之后,就進(jìn)入了大數(shù)據(jù)的時(shí)代,他們倡導(dǎo)的這種基于統(tǒng)計(jì)的超學(xué)科方法不僅復(fù)蘇了,而且取得了很大的成功,以至于成為了計(jì)算語(yǔ)言學(xué)的標(biāo)準(zhǔn)方法和主流方法。他們使用這樣的超學(xué)科方法,率先摘取那些大樹(shù)低枝頭上的唾手可得的果實(shí),取得了輝煌的成就,確實(shí)具有先見(jiàn)之明。

如果當(dāng)時(shí)Church等人緊隨在他們的老師之后,亦步亦趨地不敢越雷池一步,把自己局限在基于規(guī)則方法的狹小天地之中,沒(méi)有毅然決然的勇氣采用大數(shù)據(jù)和基于統(tǒng)計(jì)方法來(lái)補(bǔ)充基于規(guī)則方法的不足,估計(jì)就不會(huì)有今天這樣輝煌的成就。

然而,在這樣的成就面前,他們并沒(méi)有像Jelinek那樣躊躇滿(mǎn)志,Church清醒地認(rèn)識(shí)到,當(dāng)前這個(gè)基于統(tǒng)計(jì)方法的“鐘擺”已經(jīng)“擺得太遠(yuǎn)了”。他問(wèn)道:“如果那些低枝頭上的果實(shí)都被摘完之后,誰(shuí)去摘那些處于大樹(shù)的高枝頭上的果實(shí)呢?究竟怎樣去摘呢?”他認(rèn)為,應(yīng)當(dāng)依靠深層的語(yǔ)言學(xué)知識(shí)去摘取。Church要他的學(xué)生們認(rèn)真地學(xué)習(xí)語(yǔ)言學(xué)的知識(shí),深入研究語(yǔ)言學(xué)中的規(guī)律和各種規(guī)則,把語(yǔ)言學(xué)規(guī)則融合到統(tǒng)計(jì)方法中去,進(jìn)行名副其實(shí)的超學(xué)科研究,才有可能進(jìn)一步摘取高枝頭上的果實(shí)。

Church與Jelinek都在計(jì)算語(yǔ)言學(xué)研究中采用了統(tǒng)計(jì)方法,并且取得了卓越的成就,可是他們對(duì)于超學(xué)科研究的主張卻是截然不同的。這些不同主張引導(dǎo)學(xué)者們對(duì)于計(jì)算語(yǔ)言學(xué)超學(xué)科研究的問(wèn)題進(jìn)行更加深入、更加富于理論意義的思考。

與Church的主張相呼應(yīng),計(jì)算語(yǔ)言學(xué)家Lori Levin在2009年的歐洲計(jì)算語(yǔ)言學(xué)會(huì)(EACL2009)的專(zhuān)題討論上也提出了一個(gè)發(fā)人深省的建議。他建議計(jì)算語(yǔ)言學(xué)要關(guān)注語(yǔ)言學(xué)的基礎(chǔ)研究,在國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)里設(shè)置一個(gè)語(yǔ)言學(xué)專(zhuān)委會(huì)。Levin指出,從本質(zhì)說(shuō)來(lái),在當(dāng)前的自然語(yǔ)言處理工程里,已經(jīng)把語(yǔ)言學(xué)置于非常次要的地位了,大家整天考慮的幾乎都是程序技術(shù)或者算法問(wèn)題,很少關(guān)注自然語(yǔ)言處理工程背景后面隱藏著的語(yǔ)言學(xué)問(wèn)題,計(jì)算語(yǔ)言學(xué)事實(shí)上已經(jīng)成為了沒(méi)有語(yǔ)言學(xué)支持的語(yǔ)言學(xué)科,在計(jì)算語(yǔ)言學(xué)研究中,語(yǔ)言學(xué)在整體上是缺位的!在當(dāng)前的計(jì)算語(yǔ)言學(xué)超學(xué)科研究中,語(yǔ)言學(xué)已經(jīng)失去了它應(yīng)有的位置。

Levin的這個(gè)建議一石激起千層浪,在計(jì)算語(yǔ)言學(xué)界引起了熱烈的討論。其中特別值得我們注意的是Shuly Wintner的意見(jiàn)。她發(fā)表了一篇題為《什么是自然語(yǔ)言工程的科學(xué)支撐?》的文章(Wintner 2009),強(qiáng)烈地呼吁“語(yǔ)言學(xué)重新返回到計(jì)算語(yǔ)言學(xué)中”。

國(guó)際計(jì)算語(yǔ)言學(xué)界的這些討論涉及到深刻的方法論問(wèn)題,值得我們高度關(guān)注。我們不同意Jelinek的錯(cuò)誤主張。我們認(rèn)為,在計(jì)算語(yǔ)言學(xué)研究中,應(yīng)當(dāng)把基于規(guī)則的方法和基于統(tǒng)計(jì)的方法結(jié)合起來(lái),把語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)緊密地結(jié)合在一起,取長(zhǎng)補(bǔ)短,相得益彰,這樣的研究才算得上是真正的超學(xué)科研究。

我們高興地看到,在超學(xué)科思想的指導(dǎo)下,在基于統(tǒng)計(jì)的方法中更加自覺(jué)地引入了語(yǔ)言學(xué)信息,我們將其歸納為如下兩個(gè)方面。

首先,在統(tǒng)計(jì)機(jī)器翻譯中提出了基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型,這種模型把語(yǔ)言學(xué)中的短語(yǔ)作為翻譯的原子單元。在短語(yǔ)翻譯表中,短語(yǔ)之間是一一映射的,也可能存在調(diào)序。短語(yǔ)翻譯表可以從詞對(duì)齊中通過(guò)機(jī)器學(xué)習(xí)而自動(dòng)地得到,與詞對(duì)齊一致的所有短語(yǔ)偶對(duì)都被添加到短語(yǔ)翻譯表中。在擴(kuò)展原始的翻譯模型時(shí),還引入了額外的模型組件,這些組件包括:雙向翻譯概率、詞匯化加權(quán)、詞懲罰和短語(yǔ)懲罰(馮志偉 2013)。

其次,為了在基于統(tǒng)計(jì)的方法中引入語(yǔ)言學(xué)信息,在統(tǒng)計(jì)機(jī)器翻譯中,還提出了整合語(yǔ)言學(xué)知識(shí)的問(wèn)題,其中包括利用句法標(biāo)注的語(yǔ)言學(xué)信息來(lái)提高統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量,在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中,融入字母翻譯、詞匯翻譯和句子結(jié)構(gòu)等語(yǔ)言學(xué)知識(shí)。如果源語(yǔ)言和目標(biāo)語(yǔ)言在詞序方面差別明顯,還可以使用基于句法的方法來(lái)調(diào)序。當(dāng)處理句法樹(shù)的重構(gòu)時(shí),可以使用子結(jié)點(diǎn)調(diào)序限制來(lái)降低計(jì)算的復(fù)雜性,也可以使用重排序 (re-ranking) 方法,在挑選最佳翻譯時(shí)利用語(yǔ)言的句法特征,檢查輸入和輸出的一致性,等等(馮志偉 2013)。

由此可見(jiàn),在基于統(tǒng)計(jì)的方法中引入語(yǔ)言學(xué)信息,可以彌補(bǔ)統(tǒng)計(jì)方法的不足,使基于統(tǒng)計(jì)的方法如虎添翼。因此,在大數(shù)據(jù)環(huán)境下,把基于統(tǒng)計(jì)的方法與基于規(guī)則的方法緊密地結(jié)合起來(lái),是計(jì)算語(yǔ)言學(xué)超學(xué)科研究的關(guān)鍵。計(jì)算語(yǔ)言學(xué)的超學(xué)科研究有著令人鼓舞的光輝前景。

 

 

    語(yǔ)言學(xué)在現(xiàn)代認(rèn)知科學(xué)、自然語(yǔ)言處理中有著重要的地位。由于語(yǔ)言現(xiàn)象的復(fù)雜性,研究領(lǐng)域?qū)⒄Z(yǔ)言學(xué)分為不同的學(xué)科,而現(xiàn)代科學(xué)技術(shù)的發(fā)展使語(yǔ)言學(xué)中跨越學(xué)科界限的研究成為必然,研究方法也從單一層面、單一維度發(fā)展到多層次、多維度。語(yǔ)言學(xué)的超學(xué)科命題并不摒棄語(yǔ)言學(xué)的各學(xué)科,而是以一門(mén)學(xué)科的深入知識(shí)作為基本結(jié)構(gòu)基礎(chǔ),每個(gè)相關(guān)學(xué)科都會(huì)貢獻(xiàn)自己的基礎(chǔ)知識(shí),進(jìn)而創(chuàng)造出新的行為模式,推進(jìn)語(yǔ)言學(xué)的發(fā)展。


  本文關(guān)鍵詞:計(jì)算語(yǔ)言學(xué)的超學(xué)科研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):139995

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/jiaoyulunwen/xuekejiaoyulunwen/139995.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)3a992***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com