面向分類型數(shù)據(jù)的模糊聚類算法研究

發(fā)布時間：2020-11-18 10:21

　　隨著信息技術在工業(yè)界的迅猛發(fā)展,數(shù)據(jù)的規(guī)模與人們獲取的數(shù)據(jù)也與日俱增,對這些海量數(shù)據(jù)的處理已成為近來年備受關注的問題。數(shù)據(jù)挖掘作為一種通用的知識發(fā)現(xiàn)技術,是在海量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)間內(nèi)在關系的過程。聚類分析技術是數(shù)據(jù)挖掘中對數(shù)據(jù)處理的一種重要方法。由于數(shù)據(jù)不斷呈現(xiàn)出屬性類型的多樣性、規(guī)模的海量性、分布的不均勻性,不同的數(shù)據(jù)類型需要不同的聚類算法。目前,對數(shù)值型數(shù)據(jù)的聚類分析取得很多的成果,而在實際應用中存在大量的分類型數(shù)據(jù)。由于分類型數(shù)據(jù)不具有數(shù)值型數(shù)據(jù)固有的幾何特性,因而在聚類算法和模型上與數(shù)值型數(shù)據(jù)有較大不同,近年來針對分類型數(shù)據(jù)聚類算法的研究得到了廣泛的關注。模糊聚類通過將模糊集理論應用到聚類分析中,提高對數(shù)據(jù)的模糊處理能力,能較為清晰、客觀地反映現(xiàn)實事物,因而在許多領域被廣泛應用。模糊k-modes(FKM)算法是模糊聚類中備受關注的一種算法,具有局部尋優(yōu)能力強且收斂速度快的特點,成為分類型數(shù)據(jù)模糊聚類算法關注的熱點。但FKM算法對初始中心點的選取較為敏感,算法以不同的初始中心進行聚類會得到不同的結(jié)果,影響最終的聚類結(jié)果。此外FKM算法由于采用迭代的搜索技術,同時解空間內(nèi)存在大量局部最優(yōu)點,因此易陷入局部最優(yōu),而無法得到全局最優(yōu)。針對以上問題,本文開展了以下工作:(1)提出結(jié)合離群點檢測的初始中心選擇算法。針對FKM算法對初始中心選取敏感這一問題,通過調(diào)整初始中心選擇過程中距離與密度之間的關系,加大初始中心選擇中距離所占的權重,使得尋找到的初始中心更具有分布性。同時,引入基于距離的離群點檢測技術,對改進初始中心選擇后得到的候選數(shù)據(jù)集進行篩選,將候選數(shù)據(jù)集中的離群度較大的點剔除。實驗結(jié)果表明,改進的初始中心選擇方法提高FKM算法的準確率與精度,降低FKM算法對初始中心選取的敏感程度。(2)提出基于改進遺傳算法的模糊聚類算法(IGAFKM)。將遺傳算法與模糊聚類算法相結(jié)合,利用遺傳算法的隨機搜索提高模糊k-modes算法的全局尋優(yōu)能力,加快算法的收斂速度。遺傳算法是一種全局優(yōu)化算法,通過模擬自然界生物的進化過程搜索問題的最優(yōu)解,具有算法簡單,搜索范圍廣泛的特點。根據(jù)種群中個體的多樣性,對遺傳算法的交叉與變異算子進行動態(tài)調(diào)整,以保證整個種群的多樣性,避免算法收斂到局部最優(yōu),加快算法向全局最優(yōu)點的收斂過程,從而提高FKM算法的全局尋優(yōu)能力。實驗結(jié)果表明,改進遺傳算法的模糊聚類算法(IGAFKM)與FKM算法,傳統(tǒng)遺傳模糊聚類算法(GAFKM)相比在收斂速度上有所提升,同時IGAFKM算法的準確率也優(yōu)于FKM算法與傳統(tǒng)遺傳模糊聚類算法(GAFKM)算法。
【學位單位】：西南大學
【學位級別】：碩士
【學位年份】：2018
【中圖分類】：TP311.13
【部分圖文】：

數(shù)據(jù)量,運行時間,算法

圖 4-2 算法運行時間與數(shù)據(jù)量之間的關系從實驗結(jié)果可以看出 FKM 算法的目標函數(shù)平均值較大，過早的收斂到局部最優(yōu)值，GA-FKM 算法增強了全局搜索能力，較 FKM 算法相比提高了全局尋優(yōu)能力，IGAFKM 算法在計算速度和效率上與 FKM 算法，GA-FKM 算法相比更為突出，IGAFKM 算法較 GA-FKM 算法相比提高了全局尋優(yōu)能力，取到了目標函數(shù)的全局最小值。經(jīng)過初始中心選取后，降低了算法對初始中心的依賴程度，提高了算法的準確率，同時由于對遺傳操作中交叉和變異算子的自適應調(diào)整，增強了種群的多樣性，使得算法收斂到全局最優(yōu)解的能力大大加強，加快了算法的收斂速度。FKM 算法與 IGAFKM 算法隨著種群數(shù)目的增大，所需的處理時間也隨之增加，在處理相同數(shù)據(jù)的情況下，IGAFKM 算法由于全局搜索能力的提高，又加入了初始中心的選擇過程，在處理相同數(shù)據(jù)量的數(shù)據(jù)時需要更多的時間。4.10 小結(jié)
【參考文獻】

相關期刊論文前10條

1 張永庫;尹靈雪;孫勁光;;基于改進的遺傳算法的模糊聚類算法[J];智能系統(tǒng)學報;2015年04期

2 王穎潔;;模糊聚類分析在數(shù)據(jù)挖掘中的應用研究[J];大連大學學報;2011年03期

3 王小姣;徐夫田;單國杰;;模糊C-均值聚類算法的改進[J];微型機與應用;2010年12期

4 朱永春;萬敏;;淺析數(shù)據(jù)挖掘技術[J];電腦知識與技術;2010年02期

5 宋嬌;葛臨東;;一種遺傳模糊聚類算法及其應用[J];計算機應用;2008年05期

6 趙鋒;薛惠鋒;王偉;;基于復合形遺傳算法的K-means優(yōu)化聚類方法[J];航空計算技術;2006年05期

7 何大闊;王福利;毛志忠;;遺傳算法在離散變量優(yōu)化問題中的應用研究[J];系統(tǒng)仿真學報;2006年05期

8 張偉;周霆;陳蕓;鄒漢斌;;動態(tài)的模糊K-Modes初始化算法[J];計算機工程與設計;2006年04期

9 王家耀;張雪萍;周海燕;;一個用于空間聚類分析的遺傳K-均值算法[J];計算機工程;2006年03期

10 任子武;傘冶;;自適應遺傳算法的改進及在系統(tǒng)辨識中應用研究[J];系統(tǒng)仿真學報;2006年01期

本文編號：2888611

資料下載