基于Hadoop云計(jì)算平臺的K-Means聚類算法研究
本文選題:Hadoop 切入點(diǎn):云計(jì)算 出處:《哈爾濱理工大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:聚類分析作為數(shù)據(jù)挖掘技術(shù)最熱門的研究方向之一,一直倍受廣大研究學(xué)者與開發(fā)人員的青睞。聚類可以將用戶輸入的原始數(shù)據(jù)對象分成數(shù)個類簇,算法的目標(biāo)就是相同類簇內(nèi)的數(shù)據(jù)對象間相似程度較高,不同類簇內(nèi)的數(shù)據(jù)對象間相似程度較低。隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及人工智能的發(fā)展,Web端產(chǎn)生的信息量越來越龐大,如何高效穩(wěn)定地對超大規(guī)模數(shù)據(jù)進(jìn)行聚類分析成為了一個全新的研究課題。Hadoop分布式云計(jì)算平臺的興起,使利用多個計(jì)算節(jié)點(diǎn)進(jìn)行并行計(jì)算去解決傳統(tǒng)串行算法的性能問題成為可能。本文深入研究Hadoop分布式云計(jì)算平臺和聚類算法等相關(guān)技術(shù)。設(shè)計(jì)并實(shí)現(xiàn)一套基于Hadoop平臺的聚類分析系統(tǒng)。系統(tǒng)共分為三層架構(gòu),分別為底層驅(qū)動層、中間邏輯層以及對外服務(wù)層。文中詳細(xì)闡述系統(tǒng)的設(shè)計(jì)思想及具體實(shí)現(xiàn)過程,旨在將聚類分析具體操作在內(nèi)部進(jìn)行高度封裝,并對外暴露簡單操作接口,使具體算法實(shí)現(xiàn)對用戶透明,穩(wěn)定高效地執(zhí)行聚類分析。通過深入分析K-Means算法中存在的問題,設(shè)計(jì)基于Hadoop分布式平臺的改進(jìn)方案。使用本文實(shí)現(xiàn)的聚類分析系統(tǒng)配置實(shí)驗(yàn)環(huán)境,分別從并行隨機(jī)采樣、樣本距離計(jì)算并行化以及數(shù)據(jù)對象聚類過程并行化三個方向優(yōu)化算法執(zhí)行過程,同時對改進(jìn)的K-Means并行算法流程進(jìn)行了詳細(xì)描述。最后分別從收斂速度、正確率、初始化采樣速率和集群環(huán)境下加速比四個方向?qū)Ω倪M(jìn)的K-Means并行算法進(jìn)行實(shí)驗(yàn)測試。實(shí)驗(yàn)結(jié)果表明本文設(shè)計(jì)的基于Hadoop分布式云計(jì)算平臺的聚類分析系統(tǒng)能夠提供高效、穩(wěn)定、可配置的聚類分析服務(wù)。改進(jìn)的K-Means并行聚類算法能夠快速處理大規(guī)模的聚類分析計(jì)算。
[Abstract]:As one of the hottest research directions of data mining technology, clustering analysis has always been favored by many researchers and developers. Clustering can divide the original data objects input by users into several clusters. The target of the algorithm is that the degree of similarity among data objects in the same cluster is higher, and the similarity degree among data objects in different clusters is lower. With the development of mobile Internet, the Internet of things and the development of artificial intelligence, the amount of information generated by the Web end becomes more and more large. How to cluster large scale data efficiently and stably has become a new research topic, Hadoop distributed cloud computing platform. It is possible to solve the performance problems of traditional serial algorithms by parallel computing with multiple computing nodes. In this paper, we deeply study the Hadoop distributed cloud computing platform and clustering algorithms, and design and implement a set of Hadoop based on cloud computing platform and clustering technology. The system is divided into three layers. In this paper, the design idea and implementation process of the system are described in detail. The purpose of this paper is to encapsulate the concrete operation of cluster analysis in the inside, and to expose the simple operation interface. By analyzing the problems existing in K-Means algorithm, an improved scheme based on Hadoop distributed platform is designed, and the experimental environment is configured with the cluster analysis system realized in this paper. The parallel random sampling, the parallelization of sample distance computation and the parallelization of data object clustering are respectively used to optimize the execution process of the algorithm. At the same time, the improved K-Means parallel algorithm flow is described in detail. Finally, the convergence rate of the improved K-Means parallel algorithm is discussed. The experimental results of the improved K-Means parallel algorithm show that the cluster analysis system based on Hadoop distributed cloud computing platform can provide high efficiency. Stable and configurable clustering services. The improved K-Means parallel clustering algorithm can deal with large scale cluster analysis and computation quickly.
【學(xué)位授予單位】:哈爾濱理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李斌,郭劍毅;聚類分析在客戶關(guān)系管理中的研究與應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年02期
2 張宏翔;李星;;基于聚類分析的學(xué)生學(xué)習(xí)相關(guān)性研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年11期
3 蔡建國;;排序聚類分析在成組技術(shù)中的應(yīng)用[J];機(jī)械工藝師;1985年01期
4 董玉祥;排序聚類分析計(jì)算程序[J];成組生產(chǎn)系統(tǒng);1986年01期
5 A·Gongaware,Inyong Ham,焦虹;用于成組制造系統(tǒng)的聚類分析法[J];成組生產(chǎn)系統(tǒng);1986年02期
6 史逸芬,蔡建國;排序聚類分析法在相似零件成組中的應(yīng)用[J];成組生產(chǎn)系統(tǒng);1986年03期
7 徐大威,王鴻歌;聚類分析應(yīng)用程序系統(tǒng)[J];冶金自動化;1988年01期
8 張春早;會議評判與聚類分析[J];機(jī)械工程;1988年02期
9 吳國安;聚類分析在鳥的分類中的應(yīng)用[J];黑龍江大學(xué)自然科學(xué)學(xué)報(bào);1989年04期
10 盧澤生;;零件分類成組的聚類分析法[J];機(jī)械工程師;1990年04期
相關(guān)會議論文 前10條
1 梅翠;;我國各地區(qū)居民收入差距及其對消費(fèi)的制約[A];中國現(xiàn)場統(tǒng)計(jì)研究會第12屆學(xué)術(shù)年會論文集[C];2005年
2 李均立;傅國華;;海南各縣(市)經(jīng)濟(jì)實(shí)力的聚類分析[A];中國現(xiàn)場統(tǒng)計(jì)研究會第12屆學(xué)術(shù)年會論文集[C];2005年
3 劉黃金;曹林峰;;南京服務(wù)業(yè)發(fā)展的聚類分析[A];江蘇省現(xiàn)場統(tǒng)計(jì)研究會第十次學(xué)術(shù)年會論文集[C];2006年
4 肖靜;楊澤峰;徐辰武;;微陣列表達(dá)譜監(jiān)督聚類分析方法的比較研究[A];江蘇省遺傳學(xué)會第七屆代表大會暨學(xué)術(shù)研討會論文摘要匯編[C];2006年
5 路愛峰;崔玉杰;;滬市電力上市公司經(jīng)營業(yè)績的聚類分析[A];中國數(shù)學(xué)力學(xué)物理學(xué)高新技術(shù)交叉研究學(xué)會第十二屆學(xué)術(shù)年會論文集[C];2008年
6 陳國華;廖小蓮;夏君;;證券投資分析的聚類分析方法[A];中國企業(yè)運(yùn)籌學(xué)[2011(1)][C];2011年
7 張紅衛(wèi);隗金水;;聚類分析評價與測量效度關(guān)系探討[A];第九屆全國體育科學(xué)大會論文摘要匯編(4)[C];2011年
8 牛東曉;乞建勛;;網(wǎng)絡(luò)資源平衡問題的聚類分析優(yōu)化遺傳算法研究[A];2001年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2001年
9 詹原瑞;彭書杰;李如一;;基于聚類分析的企業(yè)信用等級評價方法[A];西部開發(fā)與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第12屆年會論文集[C];2002年
10 鄒曉玫;修春波;;基于聚類分析的犯罪率相關(guān)因素的研究[A];當(dāng)代法學(xué)論壇(二○一○年第3輯)[C];2010年
相關(guān)博士學(xué)位論文 前4條
1 張建萍;基于計(jì)算智能技術(shù)的聚類分析研究與應(yīng)用[D];山東師范大學(xué);2014年
2 李成安;分布式環(huán)境下聚類分析新方法的研究[D];浙江大學(xué);2006年
3 楊旭杰;基于統(tǒng)計(jì)方法模型分析的中藥復(fù)方專利保護(hù)研究[D];北京中醫(yī)藥大學(xué);2012年
4 李寶玲;王裕頤教授學(xué)術(shù)思想與臨床經(jīng)驗(yàn)總結(jié)及治療眩暈證治規(guī)律研究[D];北京中醫(yī)藥大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 李元俊;大學(xué)生就業(yè)能力培養(yǎng)與社會需求的匹配性研究[D];山東建筑大學(xué);2015年
2 馮雪冰;基于模糊理論的EM算法在聚類分析的應(yīng)用研究[D];中國地質(zhì)大學(xué)(北京);2015年
3 張沛之;基于聚類分析的海報(bào)風(fēng)格分類之研究[D];青島大學(xué);2015年
4 何力驁;基于聚類分析的激光誘導(dǎo)擊穿光譜爆炸物識別技術(shù)研究[D];北京理工大學(xué);2016年
5 趙文睿;基于聚類分析的中國房地產(chǎn)企業(yè)信用評級實(shí)證研究[D];吉林大學(xué);2016年
6 賈偉;基于聚類分析和灰色模型的短期雷擊預(yù)警系統(tǒng)設(shè)計(jì)[D];吉林大學(xué);2016年
7 欒海洋;動車組質(zhì)量數(shù)據(jù)聚類分析研究與應(yīng)用[D];北京交通大學(xué);2016年
8 黃智函;盜竊犯罪時空分布特征研究[D];福州大學(xué);2014年
9 王冰冰;雙類型信息網(wǎng)絡(luò)聚類分析[D];吉林大學(xué);2016年
10 劉劍;基于聚類分析的CAM模板自動提取的研究[D];華中科技大學(xué);2014年
,本文編號:1600043
本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/1600043.html