中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

高維數(shù)據(jù)的近似粒度特征選擇和分類方法研究

發(fā)布時(shí)間:2024-07-08 20:35
  在信息技術(shù)的高速發(fā)展的背景下,各個(gè)應(yīng)用領(lǐng)域產(chǎn)生了大量非結(jié)構(gòu)化的數(shù)據(jù)。這些數(shù)據(jù)給傳統(tǒng)機(jī)器學(xué)習(xí)方法來(lái)了許多新的挑戰(zhàn),其中之一就是“維數(shù)災(zāi)難”。高維數(shù)據(jù)中存在的大量的冗余信息會(huì)降低機(jī)器學(xué)習(xí)方法的計(jì)算效率,并且通常會(huì)影響結(jié)論的準(zhǔn)確性。為了有效去除高維數(shù)據(jù)中的冗余信息,本文采用靜態(tài)綁定框架局部敏感哈希算法描述造高維數(shù)據(jù)空間中的粒度結(jié)構(gòu)。由于局部敏感哈希算法獲得的數(shù)據(jù)相似關(guān)系依賴于給定概率參數(shù)而變化,所以相較于粗糙集等傳統(tǒng)粒計(jì)算方法,本文中得到數(shù)據(jù)粒度結(jié)構(gòu)是一種近似的數(shù)據(jù)劃分結(jié)果。但這種近似粒度結(jié)構(gòu)解決了傳統(tǒng)粒計(jì)算模型在處理高維數(shù)據(jù)時(shí)需要大量計(jì)算時(shí)間的問(wèn)題。在這種近似粒度劃分結(jié)構(gòu)的基礎(chǔ)上,本文借鑒傳統(tǒng)粗糙集依賴度的概念,設(shè)計(jì)一種基于粗糙集和局部敏感哈希的近似特征選擇算法。另外,在很多基于局部敏感哈希算法的相關(guān)算法中,為了保證有足夠好的效果并且節(jié)約計(jì)算資源,都會(huì)預(yù)先生成大量的哈希函數(shù),以便在之后的計(jì)算過(guò)程中繼續(xù)使用。本文也采用這種技巧,進(jìn)一步考慮到經(jīng)過(guò)近似特征選擇后數(shù)據(jù)與已經(jīng)生成的哈希函數(shù)之間存在的特性,采用粗糙集特征選擇算法挑選更適用于分類的局部敏感哈希函數(shù),并通過(guò)結(jié)合新的分桶方法與動(dòng)態(tài)碰撞框架基...

【文章頁(yè)數(shù)】:56 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2.2局部敏感哈算法的一個(gè)例子??Fig.?2.2?An?example?of?a?locally?sensitive?hash?algorithm??

圖2.2局部敏感哈算法的一個(gè)例子??Fig.?2.2?An?example?of?a?locally?sensitive?hash?algorithm??

題。??2.2局部敏感哈希算法理論??本節(jié),將介紹局部敏感哈希算法(又稱為LSH函數(shù))的基本理論和方法。理論上,??局部敏感哈希算法應(yīng)該擁有這樣的性質(zhì):樣本的相似程度越高,就有更高的概率被劃分??到一個(gè)桶中。如果兩個(gè)樣本數(shù)據(jù),在相同的LSH函數(shù)映射下被劃分到相同的楠中,則??稱兩....


圖3.1?LSH算法映射的結(jié)果??Fig.?3.1?The?mapping?result?of?LSH?algorithm??

圖3.1?LSH算法映射的結(jié)果??Fig.?3.1?The?mapping?result?of?LSH?algorithm??

模型??直觀上,在LSH算法中每個(gè)桶中的樣本足夠相似,而在粗糙集理論的等價(jià)類劃分??中每個(gè)等價(jià)類子集中的樣本特征值相同,說(shuō)明等價(jià)類子集中的樣本相似,基于這兩個(gè)概??念的相似之處,本文提出用LSH算法中桶的劃分方法替換原始粗糙集中等價(jià)類的劃分??方法。下面舉例說(shuō)明兩個(gè)概念的相似點(diǎn)。....


圖4.2以查詢?yōu)榛鶞?zhǔn)的桶劃分方法??Fig.?4.2?Bucket?division?method?based?on?query??

圖4.2以查詢?yōu)榛鶞?zhǔn)的桶劃分方法??Fig.?4.2?Bucket?division?method?based?on?query??

分類算法,在這些LSH函數(shù)的映射??下,相似度足夠高且擁有相同決策屬性的樣本有很高的概率被劃分到同一個(gè)桶中。顯然,??篩選后的LSH函數(shù)有利于進(jìn)行接下來(lái)分類算法的相關(guān)工作。??(3)以分類點(diǎn)為基準(zhǔn)的桶劃分方式??根據(jù)局部敏感哈希算法的理論,對(duì)于L距離的LSH函數(shù)而言,原數(shù)據(jù)相似程....


圖4.3分類算法流程圖??Fig.?4.3?The?flow?chart?for?approximate?classification??-27?-??

圖4.3分類算法流程圖??Fig.?4.3?The?flow?chart?for?approximate?classification??-27?-??

/本,待分類樣本?和w個(gè)/??/?LSH?函數(shù)。?/???????將《個(gè)數(shù)掮樣本在w個(gè)LSH函教下逬行映肘??,形成離散化后的教搨???\?/???計(jì)茸每一個(gè)眙希函數(shù)對(duì)于:夬策屬性的依賴度??■?^???保留依賴度較高的々個(gè)LSH函教??^???循訐刺余的LSH函數(shù)???^???....



本文編號(hào):4003842

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/4003842.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶226a8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com