基于流式計算的快速搜索密度峰值聚類算法研究
發(fā)布時間:2020-05-23 16:13
【摘要】:隨著各種各樣的智能終端、傳感設(shè)備的普及,大量的流式數(shù)據(jù)由此產(chǎn)生,這些流式數(shù)據(jù)中蘊藏著極大的價值。但流式數(shù)據(jù)多樣化、時序性、海量、持續(xù)不斷等特點導(dǎo)致了從其中挖掘出有用信息的難度倍增。聚類分析是數(shù)據(jù)挖掘中的一種方法,它是一種無監(jiān)督的學(xué)習(xí)方式,它無需對數(shù)據(jù)的先驗認(rèn)知就可以根據(jù)數(shù)據(jù)間的相似度將數(shù)據(jù)進(jìn)行分組。利用聚類分析可以幫助人們對這些流式數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其中潛在的價值。本文主要對基于快速搜索與密度峰值CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚類算法的不足提出兩點改進(jìn)。第一,針對CFSFDP算法在選擇聚類中心的時需要根據(jù)數(shù)據(jù)點的局部密度與距離繪制的決策圖人工輔助選擇的問題,引入了簇中心權(quán)值的概念,并利用異常檢測的思想自動選擇聚類中心。將數(shù)據(jù)集的聚類中心視為該數(shù)據(jù)集中的異常點,通過對各數(shù)據(jù)點的簇中心權(quán)值進(jìn)行異常檢測自動計算出數(shù)據(jù)集的聚類中心,并且通過實驗證明了本文提出的聚類中心自動選擇的方法與使用決策圖人工輔助選擇聚類中心的方法選擇出的聚類中心一致。第二,針對CFSFDP算法為減少噪聲對聚類結(jié)果分析的影響從而對簇進(jìn)行簇核心與簇光暈的劃分,將噪聲點劃入簇光暈中,但劃分結(jié)果不夠準(zhǔn)確的問題,提出了簇內(nèi)局部密度的概念,并重新設(shè)計了簇核心與簇光暈的劃分標(biāo)準(zhǔn),使得對簇進(jìn)行簇核心和簇光暈劃分時,處于簇邊緣部分的數(shù)據(jù)點被劃分入簇光暈中的概率降低,從而提高了對聚類結(jié)果分析的準(zhǔn)確性。最后為了使優(yōu)化后的CFSFDP算法可以應(yīng)用于流式數(shù)據(jù)的場景,本文針對Spark Streaming平臺并行化實現(xiàn)了優(yōu)化后的CFSFDP算法,并通過實驗對優(yōu)化后的CFSFDP算法在Spark Streaming平臺上運行的性能進(jìn)行了測試和分析,得出了優(yōu)化后的CFSFDP算法在Spark Streaming平臺上運行時的聚類準(zhǔn)確率較好,運行時間可以滿足實時性的要求,當(dāng)一個窗口間隔內(nèi)接收到的數(shù)據(jù)越多時其加速比和擴展比都越大即集群內(nèi)計算節(jié)點增加帶來的效益越大的結(jié)論。
【圖文】:
合集就是原數(shù)據(jù)對象集合[42]。逡逑雖然根據(jù)實際應(yīng)用環(huán)境的不同,進(jìn)行聚類分析時的選取的算法和執(zhí)行的步驟會略有逡逑不同,但聚類的流程卻是大致相似的。進(jìn)行聚類分析的大致流程如圖2.1所示,它主要逡逑包含以下幾個步驟[43]:逡逑(1)
數(shù)據(jù)點之間的距離4S斡肫淥蕕閿脛嗬氳淖畬籩怠e義希茫疲櫻疲模興惴ǜ菔蕕憔嗬耄び?xùn)V蕕愕木植棵芏戎換嬤憑霾咄跡ü褂鎂霾咤義賢既斯じㄖ∪∈菁木劾嘀行,粙哳l木霾咄既繽跡玻菜盡#茫疲櫻疲模興惴ńぶ靛義洗笄遙穡到洗蟮牡閎隙ㄎ氐木劾嘀行模叢誥霾咄賈寫τ謨疑轄喬蠐肫淥惴擲朊麇義舷緣牡。灾R范ㄊ菁木劾嘀行鬧笮枰齙謀憬S嗟姆薔劾嘀行牡氖蕕惆湊站皺義喜棵芏齲鏈喲蟮叫∫淮位值驕植棵芏缺繞涓咔矣脛嗬胱罱氖蕕闥詰拇刂。在辶x賢瓿閃朔薔劾嘀行氖蕕愕幕趾蟊愕玫攪順醪降木劾嘟峁e義希玻板危卞危卞危卞五澹保靛危卞危卞危у危卞義希保靛,..v埩x希保板濉齦謀儷桑海鈴義,r>嚴(yán):■梊,逡逑:A邋5邐?邋_逡逑-15邐U邐_邋_逡逑-20邐-10邐0邐10邐20邐0邋5邐10邐15邐20邐25逡逑X邐f)逡逑a)原始數(shù)據(jù)集邐b)決策圖逡逑圖2.2邋CFSFDP算法決策圖逡逑CFSFDP算法不同于DBSCAN等聚類算法,其對于較低密度的數(shù)據(jù)點沒有將它們逡逑判定為數(shù)據(jù)集的噪聲,而是為初步聚類得到的每一個簇引入了一個光暈的概念,,簇的光逡逑暈中就包含了其他算法中所定義的噪聲以及數(shù)據(jù)集中的離散點。CFSFDP算法將一個簇逡逑II逡逑
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13
本文編號:2677616
【圖文】:
合集就是原數(shù)據(jù)對象集合[42]。逡逑雖然根據(jù)實際應(yīng)用環(huán)境的不同,進(jìn)行聚類分析時的選取的算法和執(zhí)行的步驟會略有逡逑不同,但聚類的流程卻是大致相似的。進(jìn)行聚類分析的大致流程如圖2.1所示,它主要逡逑包含以下幾個步驟[43]:逡逑(1)
數(shù)據(jù)點之間的距離4S斡肫淥蕕閿脛嗬氳淖畬籩怠e義希茫疲櫻疲模興惴ǜ菔蕕憔嗬耄び?xùn)V蕕愕木植棵芏戎換嬤憑霾咄跡ü褂鎂霾咤義賢既斯じㄖ∪∈菁木劾嘀行,粙哳l木霾咄既繽跡玻菜盡#茫疲櫻疲模興惴ńぶ靛義洗笄遙穡到洗蟮牡閎隙ㄎ氐木劾嘀行模叢誥霾咄賈寫τ謨疑轄喬蠐肫淥惴擲朊麇義舷緣牡。灾R范ㄊ菁木劾嘀行鬧笮枰齙謀憬S嗟姆薔劾嘀行牡氖蕕惆湊站皺義喜棵芏齲鏈喲蟮叫∫淮位值驕植棵芏缺繞涓咔矣脛嗬胱罱氖蕕闥詰拇刂。在辶x賢瓿閃朔薔劾嘀行氖蕕愕幕趾蟊愕玫攪順醪降木劾嘟峁e義希玻板危卞危卞危卞五澹保靛危卞危卞危у危卞義希保靛,..v埩x希保板濉齦謀儷桑海鈴義,r>嚴(yán):■梊,逡逑:A邋5邐?邋_逡逑-15邐U邐_邋_逡逑-20邐-10邐0邐10邐20邐0邋5邐10邐15邐20邐25逡逑X邐f)逡逑a)原始數(shù)據(jù)集邐b)決策圖逡逑圖2.2邋CFSFDP算法決策圖逡逑CFSFDP算法不同于DBSCAN等聚類算法,其對于較低密度的數(shù)據(jù)點沒有將它們逡逑判定為數(shù)據(jù)集的噪聲,而是為初步聚類得到的每一個簇引入了一個光暈的概念,,簇的光逡逑暈中就包含了其他算法中所定義的噪聲以及數(shù)據(jù)集中的離散點。CFSFDP算法將一個簇逡逑II逡逑
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 金建國;;聚類方法綜述[J];計算機科學(xué);2014年S2期
2 孫大為;張廣艷;鄭緯民;;大數(shù)據(jù)流式計算:關(guān)鍵技術(shù)及系統(tǒng)實例[J];軟件學(xué)報;2014年04期
3 嚴(yán)霄鳳;張德馨;;大數(shù)據(jù)研究[J];計算機技術(shù)與發(fā)展;2013年04期
4 賀玲;吳玲達(dá);蔡益朝;;數(shù)據(jù)挖掘中的聚類算法綜述[J];計算機應(yīng)用研究;2007年01期
5 淦文燕,李德毅;基于核密度估計的層次聚類算法[J];系統(tǒng)仿真學(xué)報;2004年02期
本文編號:2677616
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2677616.html
最近更新
教材專著