中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

英語(yǔ)寫(xiě)作自動(dòng)評(píng)改功能探究

發(fā)布時(shí)間:2015-02-12 18:06

摘 要:

摘 要:利用計(jì)算機(jī)科學(xué)并結(jié)合數(shù)學(xué)算法對(duì)英語(yǔ)語(yǔ)法規(guī)則進(jìn)行分析,對(duì)于英語(yǔ)語(yǔ)法中的謂語(yǔ)動(dòng)詞部分的自動(dòng)評(píng)改做出了相應(yīng)的研究,并實(shí)現(xiàn)了英語(yǔ)作文自動(dòng)評(píng)改平臺(tái)。此系統(tǒng)主要包含兩個(gè)方面:一是對(duì)作文中的單詞的拼寫(xiě)的自動(dòng)評(píng)改及反饋;二是對(duì)英語(yǔ)作文的謂語(yǔ)部分的自動(dòng)檢測(cè)。經(jīng)測(cè)試,該系統(tǒng)可完成上述兩大功能,實(shí)現(xiàn)作文的自動(dòng)評(píng)改并反饋出錯(cuò)誤信息,對(duì)于其它語(yǔ)法現(xiàn)象的自動(dòng)評(píng)改和自動(dòng)檢錯(cuò)還有待完善。對(duì)于以英語(yǔ)作為第二語(yǔ)言學(xué)習(xí)的教學(xué)工作,該系統(tǒng)的研究和實(shí)現(xiàn)將在寫(xiě)作方面起到重要作用。

關(guān)鍵詞:

關(guān)鍵詞:計(jì)算機(jī)輔助學(xué)習(xí) 自動(dòng)評(píng)改 自然語(yǔ)言處理 語(yǔ)法錯(cuò)誤

1 研究背景

     英語(yǔ)自動(dòng)作文評(píng)分領(lǐng)域的開(kāi)拓者是Page,他在1966年開(kāi)發(fā)了Project Essay Grader(PEG)系統(tǒng),目的就是為了使大規(guī)模作文評(píng)分更加實(shí)際而高效。但該系統(tǒng)是通過(guò)文章的淺層語(yǔ)言學(xué)形式特征的分析對(duì)作文進(jìn)行評(píng)分,沒(méi)有觸及文章結(jié)構(gòu)或者內(nèi)容,這使得該領(lǐng)域的研究在上世紀(jì)90年代之前基本處于停滯狀態(tài)。

     1990年,美國(guó)教育考試中心(Educational Testing Service簡(jiǎn)寫(xiě)為ETS)開(kāi)始研發(fā)Educational Testing Service I(ETS I)。雖然這個(gè)系統(tǒng)還沒(méi)有考慮內(nèi)容方面,且只能用來(lái)評(píng)測(cè)20個(gè)詞以下的短句子,但它已更多地依靠對(duì)文章質(zhì)量的直接測(cè)量進(jìn)行評(píng)分。

     另一條研究路線是由Larkey & Croft在1998年開(kāi)辟的。她們所研發(fā)的系統(tǒng)是基于文本分類(lèi)技術(shù)(Text Categorization Techniques簡(jiǎn)稱(chēng)為T(mén)CT)、文本復(fù)雜性特征、以及線性回歸方法。類(lèi)似的還有Rudner and Liang建立的基于統(tǒng)計(jì)分析的Bayesian Essay Test Scoring System(BETSY)系統(tǒng)。

    國(guó)外目前較為完善的自動(dòng)評(píng)分系統(tǒng)為E-rater( Eleclectic Essay Rater),是由美國(guó)教育測(cè)試服務(wù)中心(Educational Testing Centre)的Burstein博士及其研究小組利用自然語(yǔ)言處理(NLP)與信息擷取技術(shù)(IR,Information Retrieval)研究開(kāi)發(fā)的一種英文在線測(cè)評(píng)英語(yǔ)寫(xiě)作能力的計(jì)算機(jī)程序。自1999年起,用該技術(shù)測(cè)評(píng)GMAT應(yīng)試者的作文總量已逾60萬(wàn)篇,經(jīng)與常規(guī)人工批閱作文的結(jié)果比較,評(píng)分的準(zhǔn)確率超過(guò)97%,F(xiàn)在,美國(guó)研究生管理專(zhuān)業(yè)委員會(huì)(GMAC)已經(jīng)認(rèn)為E—Rater電子軟件判分相對(duì)于傳統(tǒng)的由教師閱讀判分更有效。

  國(guó)內(nèi)自動(dòng)作文評(píng)分研究尚處于起步階段,梁茂成首先從自動(dòng)作文評(píng)分領(lǐng)域進(jìn)行初步的探索。他以提取淺層文本特征為主,結(jié)合針對(duì)內(nèi)容的潛在語(yǔ)義分析,進(jìn)行線性回歸,得到了與人工評(píng)分較高的相關(guān)度。但由于其分析均以淺層特征的統(tǒng)計(jì)分析為主,以及樣本數(shù)量、范圍的局限性,其評(píng)分模型與實(shí)用系統(tǒng)尚存在一定的距離。目前,在國(guó)內(nèi)從事作文自動(dòng)評(píng)分研究的主要還有文秋芳教授主持的基于學(xué)習(xí)者語(yǔ)料庫(kù)的英語(yǔ)作文訓(xùn)練評(píng)估系統(tǒng)項(xiàng)目和荀恩東博士主持的非母語(yǔ)寫(xiě)作水平計(jì)算機(jī)自動(dòng)評(píng)測(cè)技術(shù)研究項(xiàng)目。由于非母語(yǔ)寫(xiě)作的特殊性,采用深層次的文本特征分析難度很大。其中較成熟的產(chǎn)品有冰果英語(yǔ)智能作文評(píng)閱系統(tǒng),它是浙江大學(xué)團(tuán)隊(duì)攜手中外人工智能專(zhuān)家隊(duì)伍,經(jīng)過(guò)多年自主研發(fā),推出的個(gè)性化智能化互動(dòng)網(wǎng)絡(luò)英語(yǔ)學(xué)習(xí)系統(tǒng)。此外,南京大學(xué)高思丹等對(duì)主觀試題的計(jì)算機(jī)自動(dòng)批改技術(shù)做了綜述;湘潭大學(xué)李輝陽(yáng)等提出了帶權(quán)匹配技術(shù)進(jìn)行簡(jiǎn)單論述的正誤判定。


2 英語(yǔ)寫(xiě)作自動(dòng)評(píng)改平臺(tái)研究

  目前國(guó)內(nèi)外的英語(yǔ)寫(xiě)作自動(dòng)“評(píng)改”系統(tǒng)均是以英語(yǔ)作文自動(dòng)評(píng)分為目的進(jìn)行研究及開(kāi)發(fā)的,其主要方法是利用了計(jì)算機(jī)的高速計(jì)算能力,根據(jù)文章之間的相似程度給出分?jǐn)?shù)。這種方法對(duì)于以母語(yǔ)為英語(yǔ)的學(xué)習(xí)者來(lái)說(shuō),類(lèi)似E-rater的軟件系統(tǒng)能夠客觀的給出一個(gè)分?jǐn)?shù),并反映出寫(xiě)作者的實(shí)際寫(xiě)作水平。然而對(duì)于母語(yǔ)為非英語(yǔ)的學(xué)習(xí)者來(lái)說(shuō),需要系統(tǒng)提供反饋及建議,能夠幫助非英語(yǔ)為母語(yǔ)的國(guó)家的學(xué)生來(lái)更好的學(xué)習(xí)英語(yǔ)。

2.1 設(shè)計(jì)思路

  本研究首先針對(duì)實(shí)現(xiàn)以下兩個(gè)功能:?jiǎn)卧~的自動(dòng)評(píng)改和基本英語(yǔ)語(yǔ)法的自動(dòng)檢測(cè)。對(duì)于單詞的自動(dòng)評(píng)改部分,其技術(shù)已比較成熟。但由于這些英語(yǔ)單詞軟件作為商業(yè)軟件,其源代碼嚴(yán)格保密,本研究決定采用“基于多重索引模型的詞典近似匹配算法”進(jìn)行實(shí)現(xiàn)。

  對(duì)于基本英語(yǔ)語(yǔ)法自動(dòng)檢測(cè)與分析部分,目前國(guó)內(nèi)外還沒(méi)有相應(yīng)的系統(tǒng)出現(xiàn),其設(shè)計(jì)也屬于空白,而現(xiàn)有的此類(lèi)系統(tǒng)只是給出分?jǐn)?shù),并不能給出錯(cuò)誤所在。為了能實(shí)現(xiàn)語(yǔ)法錯(cuò)誤的反饋,本文采用BF算法對(duì)其進(jìn)行實(shí)現(xiàn)。

2.2 近似詞典匹配算法

  最簡(jiǎn)單的計(jì)算模式P的近似匹配的方法就是對(duì)背景詞典的每一個(gè)單詞w,計(jì)算P與w的編輯距離ed(P,w),從而確定P的所有近似匹配結(jié)果。有研究者對(duì)Wagner和Fischer提出的動(dòng)態(tài)規(guī)劃算法進(jìn)行了改進(jìn),但由于背景詞典一般都比較大,即便采用目前最好的計(jì)算編輯距離的算法,計(jì)算背景詞典中每一個(gè)單詞Ⅳ與P的編輯距離,從而確定P的近似匹配結(jié)果集也是不現(xiàn)實(shí)的。為了解決這個(gè)問(wèn)題,研究者采用了兩階段匹配策略,將詞典近似匹配過(guò)程分為兩個(gè)階段:粗匹配階段和細(xì)匹配階段。在粗匹配階段通過(guò)一定策略過(guò)濾掉大部分不可能成為匹配結(jié)果的詞典單詞,使背景詞典中只有少部分單詞成為候選匹配結(jié)果;細(xì)匹配階段對(duì)第一階段產(chǎn)生的候選匹配結(jié)果集中的每一個(gè)單詞W,計(jì)算w與用戶輸入模式P的編輯距離,從而確定最終的詞典近似匹配結(jié)果集合R。由于細(xì)匹配階段中速度較慢,因此兩階段匹配策略的速度很大程度上取決于粗匹配階段產(chǎn)生的候選匹配結(jié)果數(shù)量。

  N-gram索引是一個(gè)倒排索引,索引項(xiàng)為詞典單詞中所有連續(xù)N個(gè)字符的集合,索引項(xiàng)g的倒排鏈?zhǔn)窃~典中所有包含g的單詞的ID集合。對(duì)于輸入模式P,只有P中出現(xiàn)的N-gram對(duì)應(yīng)倒排鏈中的單詞才有可能成為最終匹配結(jié)果,因此細(xì)匹配階段只需要對(duì)這些單詞分別計(jì)算與P的編輯距離,即可得到最終的近似匹配結(jié)果集合。一般來(lái)說(shuō),采用N-gram索引后粗匹配階段產(chǎn)生的候選匹配結(jié)果數(shù)量遠(yuǎn)遠(yuǎn)小于詞典單詞的總數(shù),因此N—gram索引可以提高詞典近似匹配的速度。自動(dòng)機(jī)理論也逐步應(yīng)用到詞典的近似匹配領(lǐng)域,Oflazer提出的確定性有窮狀態(tài)識(shí)別器(deterministic finite-state recognizer,F(xiàn)SR)就是其中一種基于自動(dòng)機(jī)的詞典近似匹配算法。Oflazer將背景詞典D視為字母表三上的正則語(yǔ)言,F(xiàn)SR就是識(shí)別D中所有單詞的有窮狀態(tài)自動(dòng)機(jī)。

  詞典近似匹配算法的速度很大程度上取決于粗匹配階段產(chǎn)生的候選匹配結(jié)果數(shù)量,粗匹配階段過(guò)濾掉的與輸入模式P不可能相似的詞典單詞越多,在細(xì)匹配階段需要計(jì)算編輯距離的單詞數(shù)量就越少,近似匹配速度就越快;贜—gram索引模型的近似匹配算法,N值的確定是關(guān)鍵.N值太大,可能會(huì)導(dǎo)致個(gè)別與輸入模式P近似匹配的詞典單詞不能輸出;N值太小會(huì)導(dǎo)致個(gè)別索引鏈特別長(zhǎng),從而導(dǎo)致匹配速度下降。傳統(tǒng)的N—gram索引模型很難在匹配速度和匹配效果中找到最佳折衷。另外,傳統(tǒng)N—gram索引模型對(duì)詞典所有單詞建立同一種索引,也是導(dǎo)致倒排鏈較長(zhǎng)的主要原因。為了使粗匹配階段過(guò)濾掉盡可能多的詞典單詞,提高近似匹配速度,文本提出了一種基于詞典多重索引模型的近似匹配算法。        

2.3 BF算法

  BF(Brute Force)算法核心思想是:首先S[1]和T[1]比較(S是主串,T是子串),若相等,則再比較S[2]和T[2],一直到T[M]為止;若S[1]和T[1]不等,則T向 右移動(dòng)一個(gè)字符的位置,再依次進(jìn)行比較。如果存在k,1≤k≤N,且S[k+1…k+M]=T[1…M],則匹配成功;否則失敗。該算法最壞情況下要進(jìn)行 M*(N-M+1)次比較,時(shí)間復(fù)雜度為O(M*N)。   


3 具體設(shè)計(jì)與檢驗(yàn)

3.1 單詞的自動(dòng)評(píng)改

  本文利用“BNC最常用15000詞匯排序 BNC(British National corpus)”作為英語(yǔ)單詞的準(zhǔn)確單詞數(shù)據(jù)庫(kù),對(duì)15000個(gè)單詞進(jìn)行正確的匹配。因?yàn)閱卧~量較大,導(dǎo)致對(duì)一個(gè)單詞的模式匹配時(shí)間過(guò)長(zhǎng),影響用戶使用,對(duì)計(jì)算機(jī)要求計(jì)算速度很高。所以,本文用三重索引進(jìn)行數(shù)據(jù)庫(kù)的優(yōu)化。步驟如下:

  Step 1: 分割單詞庫(kù)

  先用程序?qū)ⅰ癇NC最常用15000詞匯排序 BNC(British National corpus)”單詞格式進(jìn)行修改,修改為純單詞形式。

  Step2: 創(chuàng)建索引表

  因?yàn)楸疚挠萌?jí)索引來(lái)進(jìn)行單詞的查找。索引建立了三級(jí)索引目錄表進(jìn)行單詞查找。

  Step3: 組建單詞數(shù)據(jù)庫(kù)

  我們將一般單詞分為兩類(lèi)。一是單詞字母數(shù)大于3。對(duì)這類(lèi)單詞就進(jìn)行一級(jí)查找,找到二級(jí)表目名;再進(jìn)行二級(jí)查找,找到三級(jí)表目名;最后進(jìn)行相應(yīng)的數(shù)據(jù)庫(kù)查找。二是單詞字母數(shù)小于3。因?yàn)楸疚挠萌?jí)索引來(lái)進(jìn)行單詞處理,所以單詞字母數(shù)小于3的單詞添加到三級(jí)表目中會(huì)出現(xiàn)錯(cuò)誤。所以,我們建立次三級(jí)表ThirdClass_A----ThirdClass_Z作為中間級(jí)別表。

  Step 4: 查詢(xún)單詞

  對(duì)每個(gè)單詞進(jìn)行分割,先判斷組成單詞的字母?jìng)(gè)數(shù)。將單詞分為兩類(lèi),分別進(jìn)行查找。

3.2 基本英語(yǔ)語(yǔ)法的自動(dòng)評(píng)改

  由于本系統(tǒng)面向的是中學(xué)生英語(yǔ)作文以及大學(xué)cet-4或者cet-6的水平的英語(yǔ)作文,又由于英語(yǔ)語(yǔ)法涉及內(nèi)容十分豐富與復(fù)雜,所以我們僅對(duì)進(jìn)行英語(yǔ)語(yǔ)法中謂語(yǔ)動(dòng)詞部分的相關(guān)自動(dòng)檢測(cè)。但是,一旦謂語(yǔ)動(dòng)詞部分的檢測(cè)能夠成功,那么其他部分(例如主語(yǔ)、賓語(yǔ))等部分的檢測(cè)都能夠通過(guò)相類(lèi)似的方法手段獲得成功。

  由于英語(yǔ)語(yǔ)法涉及內(nèi)容很多,而且十分復(fù)雜。所以,本研究只是對(duì)英語(yǔ)中基本的語(yǔ)法進(jìn)行自動(dòng)評(píng)改。

  英語(yǔ)謂語(yǔ)動(dòng)詞涉及到動(dòng)詞的時(shí)態(tài)問(wèn)題,形式問(wèn)題,搭配問(wèn)題,以及搭配中的動(dòng)詞這類(lèi)問(wèn)題。

  以“He advises me to drink more water!边@句話為例,其中出現(xiàn)動(dòng)詞advises 、drink。

  3.2.1 時(shí)態(tài)問(wèn)題



本文編號(hào):14585

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/14585.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7cd5a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com