中國大學(xué)生英語作文相似度檢測系統(tǒng)的研究與設(shè)計
本文關(guān)鍵詞: 作文評分 相似度檢測 停用詞 語義信息 聚類 出處:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著自然語言技術(shù)的發(fā)展,越來越多高校在英語作文的教學(xué)過程中使用科技化的手段提高教學(xué)效率,英語作文的自動評分技術(shù)應(yīng)運(yùn)而生。國內(nèi)現(xiàn)階段有句酷、冰果等作文自動評分系統(tǒng),但是這些系統(tǒng)中關(guān)于作文相似度檢測的算法缺乏深度和針對性。而國外的相似度檢測研究主要集中在對論文和代碼這一類長文本的檢測。因此,本文的主要研究內(nèi)容通過改進(jìn)和提出更具有針對性的相似度檢測算法,最終開發(fā)出一款符合當(dāng)代大學(xué)生英語寫作特點的英語作文相似度檢測系統(tǒng)。為了實現(xiàn)該目標(biāo),本文首先調(diào)研了中國大學(xué)生英語寫作的特點,根據(jù)特點對英語作文進(jìn)行分類,再針對不同類別的作文進(jìn)行研究。針對單詞量在60及以上的長作文,作者通過改進(jìn)TCUSS聚類算法,設(shè)計了一種基于WordNet語義聚類的作文相似度算法。對于單詞量在60以下的短作文,本文在驗證了英語停用詞的穩(wěn)定性后,設(shè)計了一種全新的基于停用詞的作文相似度檢測算法。之后,本文基于新算法,設(shè)計并實現(xiàn)了計算機(jī)輔助批閱系統(tǒng)中的英語作文相似度檢測系統(tǒng)。最后,本文收集了一定量的語料樣本,分別對上述兩種算法以及整體的英語作文相似度檢測系統(tǒng)的效果進(jìn)行了驗證,并與K-means算法實驗結(jié)果進(jìn)行對比,驗證了系統(tǒng)的優(yōu)越性。本文提出的英語作文相似度檢測算法,對大學(xué)英語寫作教學(xué)和練習(xí)有很強(qiáng)的針對性。驗證后發(fā)現(xiàn),算法整體的正確率、召回率和F1測度都優(yōu)于目前常用的相似度檢測算法。最后相似度檢測系統(tǒng)的設(shè)計采取了異步調(diào)用的方式,可滿足計算機(jī)輔助批閱系統(tǒng)的大規(guī)模運(yùn)用需求。
[Abstract]:With the development of natural language technology, more and more colleges and universities use scientific and technological means to improve teaching efficiency in the process of English composition teaching. Ice fruit and other composition automatic scoring system. But the similarity detection algorithms in these systems are lack of depth and pertinence, and the research of similarity detection abroad mainly focuses on the detection of long texts such as papers and codes. The main research content of this paper is to improve and propose a more targeted similarity detection algorithm. In order to achieve this goal, this paper first investigates the characteristics of Chinese college students' English writing. This paper classifies English compositions according to their characteristics, and then studies different types of compositions. For long compositions with a single word size of 60 or more, the author improves the TCUSS clustering algorithm. This paper designs a composition similarity algorithm based on WordNet semantic clustering. For short compositions with less than 60 words, this paper verifies the stability of English stop words. This paper designs a new similarity detection algorithm based on stop word. Then, based on the new algorithm, this paper designs and implements the English composition similarity detection system in the computer-aided marking system. Finally. In this paper, we collect a certain number of corpus samples, and verify the effectiveness of the two algorithms and the overall English composition similarity detection system, and compare the results with the K-means algorithm. The similarity detection algorithm proposed in this paper has strong pertinence for college English writing teaching and practice. After verification, it is found that the algorithm is correct as a whole. The recall rate and F1 measure are superior to the commonly used similarity detection algorithms. Finally, the similarity detection system is designed by asynchronous call, which can meet the needs of large-scale application of computer-aided marking system.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:H319.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 吳思竹;錢慶;胡鐵軍;李丹亞;李軍蓮;洪娜;;詞形還原方法及實現(xiàn)工具比較分析[J];現(xiàn)代圖書情報技術(shù);2012年03期
2 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報;2008年02期
3 葛詩利;陳瀟瀟;;國外自動作文評分技術(shù)研究[J];外語電化教學(xué);2007年05期
4 梁茂成;文秋芳;;國外作文自動評分系統(tǒng)評述及啟示[J];外語電化教學(xué);2007年05期
5 鄭文;;大學(xué)英語寫作中的篇章雷同現(xiàn)象分析[J];成都大學(xué)學(xué)報(教育科學(xué)版);2007年08期
6 文秋芳;;“作文內(nèi)容”的構(gòu)念效度研究——運(yùn)用結(jié)構(gòu)方程模型軟件AMOS 5的嘗試[J];外語研究;2007年03期
7 孫爽;章勇;;一種基于語義相似度的文本聚類算法[J];南京航空航天大學(xué)學(xué)報;2006年06期
8 李繼鋒,劉群;基于N-Gram模型的高速漢字編碼識別系統(tǒng)[J];計算機(jī)工程與應(yīng)用;2004年03期
9 濮建忠;中國學(xué)生英語動詞語法和詞匯型式使用特點初探[J];現(xiàn)代外語;2000年01期
相關(guān)博士學(xué)位論文 前1條
1 葛詩利;面向大學(xué)英語教學(xué)的通用計算機(jī)作文評分和反饋方法研究[D];北京語言大學(xué);2008年
相關(guān)碩士學(xué)位論文 前3條
1 張思琪;基于WordNet的語義相似度計算方法的研究與應(yīng)用[D];北京交通大學(xué);2016年
2 劉令強(qiáng);短文本相似度的關(guān)鍵技術(shù)研究[D];廣西師范大學(xué);2016年
3 華秀麗;文本抄襲檢測方法研究[D];蘇州大學(xué);2012年
,本文編號:1446443
本文鏈接:http://www.lk138.cn/waiyulunwen/yingyulunwen/1446443.html