隨著信息技術(shù)在工業(yè)界的迅猛發(fā)展,數(shù)據(jù)的規(guī)模與人們獲取的數(shù)據(jù)也與日俱增,對(duì)這些海量數(shù)據(jù)的處理已成為近來年備受關(guān)注的問題。數(shù)據(jù)挖掘作為一種通用的知識(shí)發(fā)現(xiàn)技術(shù),是在海量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)間內(nèi)在關(guān)系的過程。聚類分析技術(shù)是數(shù)據(jù)挖掘中對(duì)數(shù)據(jù)處理的一種重要方法。由于數(shù)據(jù)不斷呈現(xiàn)出屬性類型的多樣性、規(guī)模的海量性、分布的不均勻性,不同的數(shù)據(jù)類型需要不同的聚類算法。目前,對(duì)數(shù)值型數(shù)據(jù)的聚類分析取得很多的成果,而在實(shí)際應(yīng)用中存在大量的分類型數(shù)據(jù)。由于分類型數(shù)據(jù)不具有數(shù)值型數(shù)據(jù)固有的幾何特性,因而在聚類算法和模型上與數(shù)值型數(shù)據(jù)有較大不同,近年來針對(duì)分類型數(shù)據(jù)聚類算法的研究得到了廣泛的關(guān)注。模糊聚類通過將模糊集理論應(yīng)用到聚類分析中,提高對(duì)數(shù)據(jù)的模糊處理能力,能較為清晰、客觀地反映現(xiàn)實(shí)事物,因而在許多領(lǐng)域被廣泛應(yīng)用。模糊k-modes(FKM)算法是模糊聚類中備受關(guān)注的一種算法,具有局部尋優(yōu)能力強(qiáng)且收斂速度快的特點(diǎn),成為分類型數(shù)據(jù)模糊聚類算法關(guān)注的熱點(diǎn)。但FKM算法對(duì)初始中心點(diǎn)的選取較為敏感,算法以不同的初始中心進(jìn)行聚類會(huì)得到不同的結(jié)果,影響最終的聚類結(jié)果。此外FKM算法由于采用迭代的搜索技術(shù),同時(shí)解空間內(nèi)存在大量局部最優(yōu)點(diǎn),因此易陷入局部最優(yōu),而無法得到全局最優(yōu)。針對(duì)以上問題,本文開展了以下工作:(1)提出結(jié)合離群點(diǎn)檢測(cè)的初始中心選擇算法。針對(duì)FKM算法對(duì)初始中心選取敏感這一問題,通過調(diào)整初始中心選擇過程中距離與密度之間的關(guān)系,加大初始中心選擇中距離所占的權(quán)重,使得尋找到的初始中心更具有分布性。同時(shí),引入基于距離的離群點(diǎn)檢測(cè)技術(shù),對(duì)改進(jìn)初始中心選擇后得到的候選數(shù)據(jù)集進(jìn)行篩選,將候選數(shù)據(jù)集中的離群度較大的點(diǎn)剔除。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的初始中心選擇方法提高FKM算法的準(zhǔn)確率與精度,降低FKM算法對(duì)初始中心選取的敏感程度。(2)提出基于改進(jìn)遺傳算法的模糊聚類算法(IGAFKM)。將遺傳算法與模糊聚類算法相結(jié)合,利用遺傳算法的隨機(jī)搜索提高模糊k-modes算法的全局尋優(yōu)能力,加快算法的收斂速度。遺傳算法是一種全局優(yōu)化算法,通過模擬自然界生物的進(jìn)化過程搜索問題的最優(yōu)解,具有算法簡(jiǎn)單,搜索范圍廣泛的特點(diǎn)。根據(jù)種群中個(gè)體的多樣性,對(duì)遺傳算法的交叉與變異算子進(jìn)行動(dòng)態(tài)調(diào)整,以保證整個(gè)種群的多樣性,避免算法收斂到局部最優(yōu),加快算法向全局最優(yōu)點(diǎn)的收斂過程,從而提高FKM算法的全局尋優(yōu)能力。實(shí)驗(yàn)結(jié)果表明,改進(jìn)遺傳算法的模糊聚類算法(IGAFKM)與FKM算法,傳統(tǒng)遺傳模糊聚類算法(GAFKM)相比在收斂速度上有所提升,同時(shí)IGAFKM算法的準(zhǔn)確率也優(yōu)于FKM算法與傳統(tǒng)遺傳模糊聚類算法(GAFKM)算法。
【學(xué)位單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP311.13
【部分圖文】: 圖 4-2 算法運(yùn)行時(shí)間與數(shù)據(jù)量之間的關(guān)系從實(shí)驗(yàn)結(jié)果可以看出 FKM 算法的目標(biāo)函數(shù)平均值較大,過早的收斂到局部最優(yōu)值,GA-FKM 算法增強(qiáng)了全局搜索能力,較 FKM 算法相比提高了全局尋優(yōu)能力,IGAFKM 算法在計(jì)算速度和效率上與 FKM 算法,GA-FKM 算法相比更為突出,IGAFKM 算法較 GA-FKM 算法相比提高了全局尋優(yōu)能力,取到了目標(biāo)函數(shù)的全局最小值。經(jīng)過初始中心選取后,降低了算法對(duì)初始中心的依賴程度,提高了算法的準(zhǔn)確率,同時(shí)由于對(duì)遺傳操作中交叉和變異算子的自適應(yīng)調(diào)整,增強(qiáng)了種群的多樣性,使得算法收斂到全局最優(yōu)解的能力大大加強(qiáng),加快了算法的收斂速度。FKM 算法與 IGAFKM 算法隨著種群數(shù)目的增大,所需的處理時(shí)間也隨之增加,在處理相同數(shù)據(jù)的情況下,IGAFKM 算法由于全局搜索能力的提高,又加入了初始中心的選擇過程,在處理相同數(shù)據(jù)量的數(shù)據(jù)時(shí)需要更多的時(shí)間。4.10 小結(jié)
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張永庫(kù);尹靈雪;孫勁光;;基于改進(jìn)的遺傳算法的模糊聚類算法[J];智能系統(tǒng)學(xué)報(bào);2015年04期
2 王穎潔;;模糊聚類分析在數(shù)據(jù)挖掘中的應(yīng)用研究[J];大連大學(xué)學(xué)報(bào);2011年03期
3 王小姣;徐夫田;單國(guó)杰;;模糊C-均值聚類算法的改進(jìn)[J];微型機(jī)與應(yīng)用;2010年12期
4 朱永春;萬敏;;淺析數(shù)據(jù)挖掘技術(shù)[J];電腦知識(shí)與技術(shù);2010年02期
5 宋嬌;葛臨東;;一種遺傳模糊聚類算法及其應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2008年05期
6 趙鋒;薛惠鋒;王偉;;基于復(fù)合形遺傳算法的K-means優(yōu)化聚類方法[J];航空計(jì)算技術(shù);2006年05期
7 何大闊;王福利;毛志忠;;遺傳算法在離散變量?jī)?yōu)化問題中的應(yīng)用研究[J];系統(tǒng)仿真學(xué)報(bào);2006年05期
8 張偉;周霆;陳蕓;鄒漢斌;;動(dòng)態(tài)的模糊K-Modes初始化算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年04期
9 王家耀;張雪萍;周海燕;;一個(gè)用于空間聚類分析的遺傳K-均值算法[J];計(jì)算機(jī)工程;2006年03期
10 任子武;傘冶;;自適應(yīng)遺傳算法的改進(jìn)及在系統(tǒng)辨識(shí)中應(yīng)用研究[J];系統(tǒng)仿真學(xué)報(bào);2006年01期
本文編號(hào):
2888611
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2888611.html