中國(guó)大學(xué)生英語(yǔ)作文相似度檢測(cè)系統(tǒng)的研究與設(shè)計(jì)
本文關(guān)鍵詞: 作文評(píng)分 相似度檢測(cè) 停用詞 語(yǔ)義信息 聚類(lèi) 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:隨著自然語(yǔ)言技術(shù)的發(fā)展,越來(lái)越多高校在英語(yǔ)作文的教學(xué)過(guò)程中使用科技化的手段提高教學(xué)效率,英語(yǔ)作文的自動(dòng)評(píng)分技術(shù)應(yīng)運(yùn)而生。國(guó)內(nèi)現(xiàn)階段有句酷、冰果等作文自動(dòng)評(píng)分系統(tǒng),但是這些系統(tǒng)中關(guān)于作文相似度檢測(cè)的算法缺乏深度和針對(duì)性。而國(guó)外的相似度檢測(cè)研究主要集中在對(duì)論文和代碼這一類(lèi)長(zhǎng)文本的檢測(cè)。因此,本文的主要研究?jī)?nèi)容通過(guò)改進(jìn)和提出更具有針對(duì)性的相似度檢測(cè)算法,最終開(kāi)發(fā)出一款符合當(dāng)代大學(xué)生英語(yǔ)寫(xiě)作特點(diǎn)的英語(yǔ)作文相似度檢測(cè)系統(tǒng)。為了實(shí)現(xiàn)該目標(biāo),本文首先調(diào)研了中國(guó)大學(xué)生英語(yǔ)寫(xiě)作的特點(diǎn),根據(jù)特點(diǎn)對(duì)英語(yǔ)作文進(jìn)行分類(lèi),再針對(duì)不同類(lèi)別的作文進(jìn)行研究。針對(duì)單詞量在60及以上的長(zhǎng)作文,作者通過(guò)改進(jìn)TCUSS聚類(lèi)算法,設(shè)計(jì)了一種基于WordNet語(yǔ)義聚類(lèi)的作文相似度算法。對(duì)于單詞量在60以下的短作文,本文在驗(yàn)證了英語(yǔ)停用詞的穩(wěn)定性后,設(shè)計(jì)了一種全新的基于停用詞的作文相似度檢測(cè)算法。之后,本文基于新算法,設(shè)計(jì)并實(shí)現(xiàn)了計(jì)算機(jī)輔助批閱系統(tǒng)中的英語(yǔ)作文相似度檢測(cè)系統(tǒng)。最后,本文收集了一定量的語(yǔ)料樣本,分別對(duì)上述兩種算法以及整體的英語(yǔ)作文相似度檢測(cè)系統(tǒng)的效果進(jìn)行了驗(yàn)證,并與K-means算法實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,驗(yàn)證了系統(tǒng)的優(yōu)越性。本文提出的英語(yǔ)作文相似度檢測(cè)算法,對(duì)大學(xué)英語(yǔ)寫(xiě)作教學(xué)和練習(xí)有很強(qiáng)的針對(duì)性。驗(yàn)證后發(fā)現(xiàn),算法整體的正確率、召回率和F1測(cè)度都優(yōu)于目前常用的相似度檢測(cè)算法。最后相似度檢測(cè)系統(tǒng)的設(shè)計(jì)采取了異步調(diào)用的方式,可滿(mǎn)足計(jì)算機(jī)輔助批閱系統(tǒng)的大規(guī)模運(yùn)用需求。
[Abstract]:With the development of natural language technology, more and more colleges and universities use scientific and technological means to improve teaching efficiency in the process of English composition teaching. Ice fruit and other composition automatic scoring system. But the similarity detection algorithms in these systems are lack of depth and pertinence, and the research of similarity detection abroad mainly focuses on the detection of long texts such as papers and codes. The main research content of this paper is to improve and propose a more targeted similarity detection algorithm. In order to achieve this goal, this paper first investigates the characteristics of Chinese college students' English writing. This paper classifies English compositions according to their characteristics, and then studies different types of compositions. For long compositions with a single word size of 60 or more, the author improves the TCUSS clustering algorithm. This paper designs a composition similarity algorithm based on WordNet semantic clustering. For short compositions with less than 60 words, this paper verifies the stability of English stop words. This paper designs a new similarity detection algorithm based on stop word. Then, based on the new algorithm, this paper designs and implements the English composition similarity detection system in the computer-aided marking system. Finally. In this paper, we collect a certain number of corpus samples, and verify the effectiveness of the two algorithms and the overall English composition similarity detection system, and compare the results with the K-means algorithm. The similarity detection algorithm proposed in this paper has strong pertinence for college English writing teaching and practice. After verification, it is found that the algorithm is correct as a whole. The recall rate and F1 measure are superior to the commonly used similarity detection algorithms. Finally, the similarity detection system is designed by asynchronous call, which can meet the needs of large-scale application of computer-aided marking system.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:H319.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 吳思竹;錢(qián)慶;胡鐵軍;李丹亞;李軍蓮;洪娜;;詞形還原方法及實(shí)現(xiàn)工具比較分析[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2012年03期
2 吳啟明;易云飛;;文本聚類(lèi)綜述[J];河池學(xué)院學(xué)報(bào);2008年02期
3 葛詩(shī)利;陳瀟瀟;;國(guó)外自動(dòng)作文評(píng)分技術(shù)研究[J];外語(yǔ)電化教學(xué);2007年05期
4 梁茂成;文秋芳;;國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J];外語(yǔ)電化教學(xué);2007年05期
5 鄭文;;大學(xué)英語(yǔ)寫(xiě)作中的篇章雷同現(xiàn)象分析[J];成都大學(xué)學(xué)報(bào)(教育科學(xué)版);2007年08期
6 文秋芳;;“作文內(nèi)容”的構(gòu)念效度研究——運(yùn)用結(jié)構(gòu)方程模型軟件AMOS 5的嘗試[J];外語(yǔ)研究;2007年03期
7 孫爽;章勇;;一種基于語(yǔ)義相似度的文本聚類(lèi)算法[J];南京航空航天大學(xué)學(xué)報(bào);2006年06期
8 李繼鋒,劉群;基于N-Gram模型的高速漢字編碼識(shí)別系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2004年03期
9 濮建忠;中國(guó)學(xué)生英語(yǔ)動(dòng)詞語(yǔ)法和詞匯型式使用特點(diǎn)初探[J];現(xiàn)代外語(yǔ);2000年01期
相關(guān)博士學(xué)位論文 前1條
1 葛詩(shī)利;面向大學(xué)英語(yǔ)教學(xué)的通用計(jì)算機(jī)作文評(píng)分和反饋方法研究[D];北京語(yǔ)言大學(xué);2008年
相關(guān)碩士學(xué)位論文 前3條
1 張思琪;基于WordNet的語(yǔ)義相似度計(jì)算方法的研究與應(yīng)用[D];北京交通大學(xué);2016年
2 劉令強(qiáng);短文本相似度的關(guān)鍵技術(shù)研究[D];廣西師范大學(xué);2016年
3 華秀麗;文本抄襲檢測(cè)方法研究[D];蘇州大學(xué);2012年
,本文編號(hào):1446443
本文鏈接:http://www.lk138.cn/waiyulunwen/yingyulunwen/1446443.html