中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

基于MapReduce模型文本分類算法的研究

發(fā)布時(shí)間:2018-10-18 16:41
【摘要】:隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和信息量的不斷增加,集中式環(huán)境文本分類不能滿足現(xiàn)有的需要,因此在分布式環(huán)境下對(duì)大規(guī)模數(shù)據(jù)處理成為當(dāng)前IT行業(yè)關(guān)注的焦點(diǎn)。無論是在廣告投放,還是在信息檢索等領(lǐng)域,都需要對(duì)大規(guī)模數(shù)據(jù)處理進(jìn)行文本分類,因此研究云計(jì)算環(huán)境下的大規(guī)模數(shù)據(jù)文本分類就成為了焦點(diǎn)。本文就在Hadoop系統(tǒng)平臺(tái)下,以文本分類為前提,以本文設(shè)計(jì)的倒排索引樹結(jié)構(gòu)為基礎(chǔ),對(duì)文本分類算法及其增量算法進(jìn)行了以下研究。 綜上所述:本文的主要研究成果、貢獻(xiàn)和創(chuàng)新點(diǎn)可概括以下幾點(diǎn): 1.為了滿足特征選擇方法的計(jì)算速度和文本分類KNN、Bayes等算法以及文本向量維度分布稀松性,本文給出了倒排索引樹結(jié)構(gòu),并在云平臺(tái)上將倒排索引樹結(jié)構(gòu)并行化。 2.結(jié)合倒排索引樹的結(jié)構(gòu)和文本分類算法,給出了海量數(shù)據(jù)的倒排索引樹構(gòu)建算法及其剪枝策略,同時(shí)也給出了增量倒排索引樹算法以及增量倒排索引樹并行化設(shè)計(jì)。 3.基于倒排索引樹結(jié)構(gòu),設(shè)計(jì)了K-means增量分類算法,并給出了Hadoop平臺(tái)下該算法分類的并行化設(shè)計(jì)。 4.根據(jù)倒排索引樹結(jié)構(gòu),提出了云計(jì)算hadoop平臺(tái)下基于倒排索引樹的樸素貝葉斯分類算法,并給出了該算法的三種改進(jìn)方法,分別有采用TFIDF權(quán)重加權(quán)的,互信息加權(quán)的,期望交叉熵加權(quán)的樸素貝葉斯文本分類算法,同時(shí)也給出了基于倒排索引樹的局部樸素貝葉斯文本分類算法。 5.搭建hadoop集群進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證了倒排索引樹結(jié)構(gòu)及其文本分類改進(jìn)算法的分類準(zhǔn)確率,召回率和分類性能。
[Abstract]:With the continuous expansion of the network scale and the increase of the amount of information, the centralized environment text classification can not meet the existing needs, so large-scale data processing in the distributed environment has become the focus of attention in the current IT industry. It is necessary to classify the large-scale data processing in the field of advertising and information retrieval, so the research of large-scale data text classification in cloud computing environment has become the focus. In this paper, based on the inverted index tree structure designed in this paper, the text classification algorithm and its incremental algorithm are studied on the basis of text classification based on Hadoop system. To sum up: the main research results, contributions and innovations can be summarized as follows: 1. In order to satisfy the computation speed of feature selection method, text classification KNN,Bayes algorithm and text vector dimension distribution looseness, the inverted index tree structure is presented in this paper, and the inverted index tree structure is parallelized on cloud platform. 2. Combined with the structure of inverted index tree and text classification algorithm, this paper presents an inverted index tree construction algorithm and pruning strategy for massive data. At the same time, the incremental inverted index tree algorithm and the parallel design of incremental inverted index tree are presented. Based on the inverted index tree structure, the K-means incremental classification algorithm is designed, and the parallel design of the algorithm classification based on Hadoop platform is given. 4. According to inverted index tree structure, a naive Bayesian classification algorithm based on inverted index tree in cloud computing hadoop platform is proposed, and three improved methods are given, which are weighted by TFIDF weight and weighted by mutual information. A naive Bayesian text classification algorithm with expected cross-entropy weighted is proposed. At the same time, a local naive Bayesian text classification algorithm based on inverted index tree is presented. The hadoop cluster was built for experimental analysis to verify the classification accuracy recall rate and classification performance of the inverted index tree structure and its improved text classification algorithm.
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張玉芳;陳小莉;熊忠陽;;基于信息增益的特征詞權(quán)重調(diào)整算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年35期

2 秦鋒;任詩流;程澤凱;羅慧;;基于屬性加權(quán)的樸素貝葉斯分類算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年06期

3 唐亮;段建國;許洪波;梁玲;;基于互信息最大化的特征選擇算法及應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2008年13期

4 鄧維斌;王國胤;王燕;;基于Rough Set的加權(quán)樸素貝葉斯分類算法[J];計(jì)算機(jī)科學(xué);2007年02期

5 向小軍;高陽;商琳;楊育彬;;基于Hadoop平臺(tái)的海量文本分類的并行化[J];計(jì)算機(jī)科學(xué);2011年10期

6 張玉芳;彭時(shí)名;呂佳;;基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期

7 李學(xué)明;李海瑞;薛亮;何光軍;;基于信息增益與信息熵的TFIDF算法[J];計(jì)算機(jī)工程;2012年08期

8 鄧維斌;黃蜀江;周玉敏;;基于條件信息熵的自主式樸素貝葉斯分類算法[J];計(jì)算機(jī)應(yīng)用;2007年04期

9 周敏;周繼鵬;丁光華;;PSL:針對(duì)大規(guī)模數(shù)據(jù)應(yīng)用的并行Slope One算法[J];科學(xué)技術(shù)與工程;2010年03期

10 冀素琴;石洪波;衛(wèi)潔;;基于Map Reduce的Bagging貝葉斯文本分類[J];計(jì)算機(jī)工程;2012年16期

相關(guān)碩士學(xué)位論文 前5條

1 李原;中文文本分類中分詞和特征選擇方法研究[D];吉林大學(xué);2011年

2 劉叢山;基于Hadoop的文本分類研究[D];上海交通大學(xué);2012年

3 王新麗;中文文本分類系統(tǒng)的研究與實(shí)現(xiàn)[D];天津大學(xué);2007年

4 李軍華;云計(jì)算及若干數(shù)據(jù)挖掘算法的MapReduce化研究[D];電子科技大學(xué);2010年

5 喬鴻欣;基于MapReduce的KNN分類算法的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2012年



本文編號(hào):2279728

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/wenyilunwen/guanggaoshejilunwen/2279728.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b8c67***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com