中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

不平衡標記密度學習的特征選擇研究

發(fā)布時間:2024-11-26 21:47
  多標記學習已逐漸成為機器學習、大數(shù)據(jù)和數(shù)據(jù)挖掘等智能領(lǐng)域的研究熱點之一。在多標記學習中,通常樣本的特征數(shù)量越多,樣本實例也就被描述的越準確。隨著特征數(shù)量的不斷增加,它的相關(guān)冗余特征也將不斷增多。由于這些特征數(shù)量的存在會嚴重影響到分類器的精度,甚至會造成誤分,因此需要對特征數(shù)量進行降維。特征選擇是一種有效的降維方法,它可以先從中選擇出相關(guān)性高且冗余性小的特征作為特征子集,再對其進行分類訓練與預測。在一個樣本實例中,是否有標記與樣本實例的特征屬性有著密切的聯(lián)系。同時由于標記的不平衡性在智能領(lǐng)域中廣泛存在,它會讓不同標記對樣本實例的描述程度存在一定的差異性。目前,有關(guān)不平衡數(shù)據(jù)的研究較為匱乏。傳統(tǒng)的處理方法一般是先通過抽樣或者重采樣的方式將不平衡數(shù)據(jù)處理成為平衡數(shù)據(jù),再對其進行研究。但是這種處理方法常會改變原有數(shù)據(jù)集的屬性和丟失部分信息,致使分類器的精度有所下降,F(xiàn)有的研究多數(shù)是針對單標記下的不平衡性,而對多標記下的不平衡性卻鮮有研究;诙鄻擞浵碌牟黄胶庑源嬖诘膯栴},本文提出了兩種改進算法,主要研究工作如下:(1)目前多數(shù)特征選擇算法并未考慮不同標記對樣本的描述程度可能存在一定的差異性。針對...

【文章頁數(shù)】:50 頁

【學位級別】:碩士

【部分圖文】:

圖2.1 信息熵與互信息的關(guān)系圖

圖2.1 信息熵與互信息的關(guān)系圖

由此可知,若I(X;Y)越大,則X與Y之間關(guān)聯(lián)越緊密,若X與Y無關(guān),則I(X;Y)=0。通過文氏圖(Venndiagram)可以更直觀的展示信息熵與互信息的關(guān)聯(lián)性(見圖2.1)。2.2.3特征與標記集合互信息


圖2.2 特征選擇流程圖

圖2.2 特征選擇流程圖

特征選擇是指從全部特征中選取一個使構(gòu)造出來的模型效果更好且推廣能力更強的特征子集,即通過篩選出全局或局部最優(yōu)特征子集用以降低特征空間維數(shù)的過程。而為了得到一個新的較優(yōu)特征子集,對冗余不相關(guān)、欠刻畫能力的特征進行了剔除,達到減少特征個數(shù)、減少訓練或者運行時間、提高模型精確度的作用,....


圖2.3 特征選擇方法分類

圖2.3 特征選擇方法分類

在機器學習、大數(shù)據(jù)和數(shù)據(jù)挖掘等高新技術(shù)領(lǐng)域,特征選擇擁有著舉足輕重的影響。在特征選擇過程中,評價函數(shù)作為一個評價準則,可以判斷一個特征子集是否較優(yōu),而依據(jù)評價準則的不同,有關(guān)特征選擇方面的算法可以分為:過濾式模型(Filter)、封裝式模型(Wrapper)以及嵌入式模型(Emb....


圖3.1 Computer數(shù)據(jù)集標記分布圖

圖3.1 Computer數(shù)據(jù)集標記分布圖

研究發(fā)現(xiàn)在多標記學習中,由于標記對樣本的描述存在著差異性,即在每個標記下正類與負類出現(xiàn)的頻率并不一樣,而這種標記頻率分布可以為多標記學習的研究提供一定的輔助信息從而提高分類的精度;诖,本章提出一種MSIO算法:首先計算標記空間中每個標記下正標記(正類)樣本和負標記(負類)樣本....



本文編號:4012635

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/4012635.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ccbd7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com