大數(shù)據(jù)時(shí)代的漢語(yǔ)語(yǔ)言學(xué)研究
本文關(guān)鍵詞:大數(shù)據(jù)時(shí)代的漢語(yǔ)語(yǔ)言學(xué)研究,由筆耕文化傳播整理發(fā)布。
第36卷第5期詹衛(wèi)東:大數(shù)據(jù)時(shí)代的漢語(yǔ)語(yǔ)言學(xué)研究
才能給出報(bào)告,而基于用戶查詢記錄的大數(shù)據(jù)方法則可以做到每天都發(fā)布流感態(tài)勢(shì)報(bào)告①。這項(xiàng)研究(Nature)雜志成果發(fā)表在2009年2月份的《自然》
[3]上。
大數(shù)據(jù)處理的魅力不僅體現(xiàn)在上述典型的數(shù)據(jù)
而且也開(kāi)始在一些人文社會(huì)科學(xué)計(jì)算和分析領(lǐng)域,
研究領(lǐng)域初試啼聲。比如基于維基百科(Wikipe-dia)②的大規(guī)模文本分析來(lái)從某些特定角度展示人就是一個(gè)有代表性的例類歷史變遷的宏觀面貌,
[4]
子。研究人員利用一臺(tái)有4000個(gè)CPU,內(nèi)存為
1264TB(1TB=1000GB,即10字節(jié))的超級(jí)計(jì)算機(jī)對(duì)400萬(wàn)篇以英語(yǔ)寫(xiě)的百科文章進(jìn)行處理,提取其中
NLU)。這個(gè)語(yǔ)言(NaturalLanguageUnderstanding,
任務(wù)的實(shí)質(zhì)是希望找到從語(yǔ)言的形式映射到語(yǔ)言的
人類的自然語(yǔ)言意義的機(jī)械方法。如果把“理解”
看做是人類智能行為的主要特征,那么,自然語(yǔ)言理
解顯然屬于人工智能的研究范疇,即探求作為高級(jí)智能的人的語(yǔ)言行為在多大程度上可以機(jī)械化。作為一個(gè)誕生在僅僅半個(gè)世紀(jì)前的相當(dāng)新的研
NLU所經(jīng)歷的發(fā)展過(guò)程稱得上是跌宕起伏。究領(lǐng)域,
而伴隨其間的,可以說(shuō)正是在NLU不同發(fā)展階段人
———“自然語(yǔ)言”們對(duì)于其處理對(duì)象的不同理解。NLU脫胎于機(jī)器翻譯(MachineTransla-眾所周知,
tion,MT)。上世紀(jì)中葉,自動(dòng)計(jì)算裝置在二戰(zhàn)中破刺激著正在重建新譯密碼的威力在戰(zhàn)后繼續(xù)發(fā)酵,
世界的人們的想象力。用剛問(wèn)世不久的電子計(jì)算機(jī)把一種自然語(yǔ)言翻譯成另一種自然語(yǔ)言順理成章地也被看做是密碼破譯的過(guò)程。MT從想法到能實(shí)際運(yùn)行的演示系統(tǒng),只用了短短五年時(shí)間(1949-1954)。然而,由美國(guó)Georgetown大學(xué)和IBM聯(lián)合研制的第一個(gè)MT系統(tǒng)只是在媒體宣傳和爭(zhēng)取政府資助上獲得了實(shí)實(shí)在在的成功,真正能夠服務(wù)于社會(huì)解決翻譯問(wèn)題的MT系統(tǒng)并沒(méi)有像其研制者所宣1966年發(fā)布的稱的那樣在三五年內(nèi)就問(wèn)世。相反,
著名的ALPAC⑤報(bào)告終結(jié)了MT的頭一個(gè)十年熱潮。人們開(kāi)始透過(guò)計(jì)算機(jī)難以逾越的翻譯障礙反思人類自然語(yǔ)言本身的性質(zhì)。翻譯不再僅僅被簡(jiǎn)單地看做是密碼破譯的信息處理過(guò)程,自然語(yǔ)言也不僅僅是一串單詞的序列。如何讓計(jì)算機(jī)真正“理解”人類的自然語(yǔ)言,語(yǔ)言的層次結(jié)構(gòu)該如何分析,如何從形式結(jié)構(gòu)映射到意義表示……等等理論問(wèn)題開(kāi)始引起來(lái)自計(jì)算機(jī)科學(xué)、數(shù)學(xué)、語(yǔ)言學(xué)等跨學(xué)科研究人
——計(jì)算語(yǔ)言學(xué)也正是員的深思,新興的交叉學(xué)科—在這個(gè)背景中走上歷史舞臺(tái)的。20世紀(jì)七八十年
代,各種分析自然語(yǔ)言的形式理論和計(jì)算方法如雨后春筍般涌現(xiàn),其中著名的如基于概念依存圖(Con-ceptDependencyGraph)的知識(shí)表示方法與腳本理論
地點(diǎn)信息,并通過(guò)統(tǒng)計(jì)每篇文章中的情感的日期、
計(jì)算某個(gè)特定年份的情感指數(shù)(取值從極負(fù)面到詞,
極正面分為200級(jí)),用這種方法計(jì)算了1800-2012年間212年的情感指數(shù),并將計(jì)算結(jié)果用212張疊加的世界地圖來(lái)表示,即以地圖上不同地點(diǎn)標(biāo)記不同顏色來(lái)反映當(dāng)?shù)卦谀硞(gè)特定年份的情感指數(shù)。這212張按年疊加帶有顏色變化的世界地圖以可視化(Visualization)的方式在網(wǎng)頁(yè)上呈現(xiàn)③,在某種程度上,可以說(shuō)是直接把一幅“風(fēng)云際會(huì)、斗轉(zhuǎn)星移”的世界史動(dòng)態(tài)畫(huà)卷鋪展在了讀者面前④。
,“大數(shù)據(jù)”毫無(wú)疑問(wèn)已經(jīng)給這個(gè)時(shí)代打下了鮮
明的印記,身處其中,無(wú)論是否愿意,都將受其影響。就科學(xué)研究而言,,有的學(xué)科因?yàn)橹苯由婕按髷?shù)據(jù)分析而已經(jīng)發(fā)生顯著的變化,比如計(jì)算機(jī)科學(xué)與語(yǔ)言——計(jì)算語(yǔ)言學(xué)在近十年來(lái)的發(fā)展,學(xué)的交叉學(xué)科—
就是這樣的例證。下面不妨快速掃描一下這門(mén)年輕的學(xué)科近半個(gè)世紀(jì)的發(fā)展歷程,以更深刻地體會(huì)“大數(shù)據(jù)”對(duì)一個(gè)學(xué)科所帶來(lái)的沖擊和影響。漢語(yǔ)語(yǔ)言學(xué)未來(lái)的進(jìn)程或可從中有所借鑒。
二
來(lái)自計(jì)算語(yǔ)言學(xué)的啟示
計(jì)算語(yǔ)言學(xué)(ComputationalLinguistics)從其應(yīng)
就是讓計(jì)算機(jī)能夠“理解”人類的自然用目標(biāo)來(lái)說(shuō),
①
Google流感趨勢(shì)網(wǎng)站(http://www.google.org/flutrends/us/#US)將流感狀態(tài)分為“極輕、輕、中等、重、極重”五級(jí),并以五種
顏色區(qū)分,在Google地圖上標(biāo)記每個(gè)地區(qū)的流感狀態(tài)。http://www.wikipedia.org/有285種語(yǔ)言,超過(guò)2200萬(wàn)篇文章。https://www.youtube.com/watch?v=KmCQVIVpzWg
需要說(shuō)明的是,盡管上述這些大數(shù)據(jù)計(jì)算的例子確有震撼效果,但客觀而言,大數(shù)據(jù)計(jì)算無(wú)論在實(shí)際應(yīng)用還是科學(xué)研究中,都還在初期探索階段,基于大數(shù)據(jù)得到的結(jié)論有的已經(jīng)可以直接指導(dǎo)人們的社會(huì)實(shí)踐,但也有不少還只是起到一定的參考作用,并不能取代傳統(tǒng)的方法。ALPAC是美國(guó)國(guó)會(huì)為調(diào)查MT而成立的“自動(dòng)語(yǔ)言處理咨詢委員會(huì)”的英文名首字母縮寫(xiě)。
②③④
⑤
71
本文關(guān)鍵詞:大數(shù)據(jù)時(shí)代的漢語(yǔ)語(yǔ)言學(xué)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):146393
本文鏈接:http://www.lk138.cn/wenyilunwen/yuyanyishu/146393.html