中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于DPC算法混合屬性數(shù)據(jù)流聚類研究

發(fā)布時(shí)間:2020-12-21 01:04
  聚類分析是數(shù)據(jù)挖掘領(lǐng)域一項(xiàng)重要的研究課題。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)流在很多領(lǐng)域得到應(yīng)用,數(shù)據(jù)流聚類也成為一項(xiàng)意義深遠(yuǎn)而且具有挑戰(zhàn)性的技術(shù)。與傳統(tǒng)的靜態(tài)數(shù)據(jù)相比,數(shù)據(jù)流是高速的、動(dòng)態(tài)的、變化的。數(shù)據(jù)流的這些特性,給數(shù)據(jù)流聚類帶來(lái)了困難。此外數(shù)據(jù)流的高維性、混合屬性和海量性等特征對(duì)數(shù)據(jù)流聚類提出了更高的要求。本文將針對(duì)以上問(wèn)題展開研究,提出適應(yīng)數(shù)據(jù)流特性且有效處理數(shù)據(jù)流高維性、混合屬性和海量性等問(wèn)題的數(shù)據(jù)流聚類算法。本文包括以下四個(gè)方面內(nèi)容:第一,討論數(shù)據(jù)流聚類相關(guān)問(wèn)題,概述數(shù)據(jù)流的特點(diǎn)和數(shù)據(jù)流處理模型,比較分析數(shù)據(jù)流聚類方法;第二,研究混合屬性數(shù)據(jù)處理過(guò)程,針對(duì)數(shù)據(jù)流的特點(diǎn)進(jìn)行數(shù)值型數(shù)據(jù)標(biāo)準(zhǔn)化、高維數(shù)據(jù)降維和混合屬性數(shù)據(jù)度量方法的討論;第三,針對(duì)DPC算法無(wú)法處理混合屬性數(shù)據(jù)、截?cái)嗑嚯x的選取影響密度的計(jì)算和無(wú)法處理大規(guī)模數(shù)據(jù)三個(gè)方面的不足,分別提出基于信息熵的混合屬性數(shù)據(jù)處理方法改進(jìn)DPC算法的距離值計(jì)算、采用KNN非參數(shù)核密度估計(jì)方法改進(jìn)DPC算法的密度值計(jì)算和將滑動(dòng)窗口技術(shù)和DPC算法相結(jié)合,實(shí)現(xiàn)混合屬性數(shù)據(jù)流聚類;第四,采用DPC改進(jìn)算法對(duì)KDDCup99網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)集進(jìn)行聚... 

【文章來(lái)源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:74 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于DPC算法混合屬性數(shù)據(jù)流聚類研究


研究技術(shù)路線圖

屬性數(shù)據(jù),過(guò)程流程圖,數(shù)據(jù)流


第三章 混合屬性數(shù)據(jù)流處理過(guò)程第三章 混合屬性數(shù)據(jù)流處理過(guò)程區(qū)別于單一數(shù)據(jù)類型的數(shù)據(jù)流,混合屬性數(shù)據(jù)流包含數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),因此混合屬性數(shù)據(jù)流的處理過(guò)程也與單一數(shù)據(jù)類型的數(shù)據(jù)流的處理過(guò)程不相同。首先數(shù)據(jù)流中數(shù)據(jù)型數(shù)據(jù)的量綱不一致,導(dǎo)致數(shù)據(jù)之間不具備可比性,因此需要對(duì)數(shù)據(jù)流中數(shù)據(jù)值型數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除數(shù)值屬性的量綱和變異大小因素的影響。然后數(shù)據(jù)流具有高維性,高維數(shù)據(jù)包含大量的冗余信息,增加了計(jì)算和空間的開銷,因此為了避免維數(shù)災(zāi)難,需要對(duì)數(shù)據(jù)流中數(shù)據(jù)值型數(shù)據(jù)進(jìn)行降維處理,去除冗余信息,提高計(jì)算效率。最后數(shù)據(jù)流中具有混合屬性數(shù)據(jù),單一數(shù)據(jù)類型的處理方法已經(jīng)不再適用,因此需要對(duì)混合屬性數(shù)據(jù)進(jìn)行有效的距離度量;旌蠈傩詳(shù)據(jù)流的處理過(guò)程如圖 3-1 所示。

決策圖,樣本點(diǎn),分布圖,數(shù)據(jù)點(diǎn)


距離 可定義為: (4中局部密度最大點(diǎn) ,可定義其距離為: 近點(diǎn) 表示 S 中所有局部密度(排序意義下)比 大的數(shù)據(jù)點(diǎn)中與 距離最的編號(hào),具體定義為: { (于 S 中每個(gè)數(shù)據(jù)點(diǎn) ,可計(jì)算得( , ), 。根據(jù)局部密度值 與距離類中心。對(duì)于聚類中心的選擇,需滿足兩個(gè)條件:(1)聚類中心點(diǎn)的密度近鄰數(shù)據(jù)點(diǎn);(2)與任意密度較高的數(shù)據(jù)點(diǎn)距離較遠(yuǎn)。

【參考文獻(xiàn)】:
期刊論文
[1]基于滑動(dòng)窗口的進(jìn)化數(shù)據(jù)流聚類[J]. 常建龍,曹鋒,周傲英+.  軟件學(xué)報(bào). 2007(04)

博士論文
[1]數(shù)據(jù)流聚類分析算法[D]. 曹鋒.復(fù)旦大學(xué) 2006

碩士論文
[1]基于快速搜索密度的數(shù)據(jù)流聚類算法[D]. 李艷文.蘭州大學(xué) 2016
[2]基于信息熵的高維數(shù)據(jù)流聚類及其應(yīng)用研究[D]. 楊庭庭.重慶交通大學(xué) 2015
[3]一種適應(yīng)高速數(shù)據(jù)流的聚類算法研究[D]. 高賀慶.湖南大學(xué) 2013



本文編號(hào):2928894

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/tongjijuecelunwen/2928894.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶44ec1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com