具有數(shù)量單調(diào)約束的多變量決策樹分類算法
發(fā)布時間:2021-01-11 14:58
決策樹是一種以智能化方式進(jìn)行實例分類的數(shù)據(jù)挖掘方法,已被廣泛應(yīng)用于人工智能等領(lǐng)域。其中單調(diào)分類算法可以解決屬性和標(biāo)簽值具有單調(diào)序關(guān)系的分類問題。單調(diào)序關(guān)系是指在分類的過程中對屬性和標(biāo)簽存在的一種單調(diào)約束,即當(dāng)屬性值增加時,類標(biāo)簽值應(yīng)該不變或是相應(yīng)地增加。這種分類問題在客戶信用等級評估等領(lǐng)域廣泛存在。然而以往的實驗表明使用傳統(tǒng)單調(diào)分類算法通常對噪聲數(shù)據(jù)比較敏感并且對數(shù)據(jù)集的種類有一定的限制。為了解決上述問題,本文提出了一種以數(shù)據(jù)集的分布情況為依據(jù)的決策樹分類算法。首先根據(jù)非同類數(shù)量比指標(biāo)對原始數(shù)據(jù)集進(jìn)行降噪,減少噪聲樣本對分類結(jié)果的影響,以此提高分類準(zhǔn)確率。其次由于傳統(tǒng)的單調(diào)分類方法僅適用于屬性和標(biāo)簽都為有序值的數(shù)據(jù)集,且形成的單變量決策樹無法綜合考慮所有屬性對分類任務(wù)的影響率,所以本文將數(shù)據(jù)集映射到多維空間中,并結(jié)合局部密度峰值聚類的方法形成具有數(shù)量單調(diào)約束的單調(diào)分類,從而演化成一棵多變量決策樹,該方法不僅可消除對數(shù)據(jù)集種類的限制因素,還能夠?qū)⑺袑傩缘挠绊懠{入分類過程。最后通過相對邊界點與局部錯分率之和兩個方法確定最佳分裂超平面對數(shù)據(jù)進(jìn)行分類。在實驗方面,本文將提出的具有數(shù)量單調(diào)約束...
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1上近似和下近似??Fig.?2.1?Upper?approximation?and?lower?approximation??
?大連海事大學(xué)專業(yè)學(xué)位碩士學(xué)位論文???例3.1如圖3.1所示,給定一個樣本集t/,假設(shè)這里A為3,隨機選取一個樣本。??樣本x的三個最近鄰樣本用乃,知乃表示,且尺(;^)?=?0.7,/?(;c,y2)?=?0.55,??i?(x,_y3)?=?0.5。那么以?x?為圓心,半徑/,?=?1?—=?0.3,/2?=?l-7?(;c,_y2)二?0.45,??/3=1-_/?(jc,j3)?=?0.5,可以確定三個圓。叮。假設(shè)圓^2,?*3中包含的樣本總數(shù)量分別??為7、10和12,其中與;c不同類的樣本的總數(shù)量分別為6、9和10,那么樣本x的非同??類數(shù)量比可計算如下:??,N?1?(A?Q?V??DC?ratio(x)=-?—H?+?—?=0.863??一?k?v?3^7?10?12J??由上述計算結(jié)果可知,樣本X的非同類數(shù)量比為0.863。假設(shè)閾值2?=?0.8,樣本X的??非同類數(shù)量比大于閾值,x確定為噪聲樣本,需要從數(shù)據(jù)集中將該樣本移除。若閾值??義=?0.9,樣本;c的非同類數(shù)量比小于閾值,則x不是噪聲樣本。??/?Class?1:??^?Class2:?A?^??參????參參▲?????i..:::::'?▲?▲?▲????U々"/?▲?A??V???*?J??圖3.1非同類數(shù)量比降噪結(jié)果??Fig.?3.1?noise?reduction?results?of?different?class’s?ratio??3.2基于屬性的模糊支配關(guān)系??在本文中,將數(shù)據(jù)集中的所有樣本根據(jù)屬性值映射到多維空間,那么如何在多維空??間中形成基于屬性集的數(shù)量單調(diào)支配關(guān)系是本節(jié)討論的重點。在文獻(xiàn)
?具有數(shù)量單調(diào)約束的多變量決策樹分類算法???數(shù)的數(shù)量比求得。因為在數(shù)據(jù)集中,每一類樣本的數(shù)量及分布是不平衡的,數(shù)量越大的??類,聚類之后的樣本數(shù)量也會偏大。在這種情況下,再完全根據(jù)聚類樣本數(shù)量對比是沒??有意義的,所以本文通過數(shù)量比的形式來解決對比不平衡的問題。下面給出一個例子解??釋如何計算數(shù)量比。??例3.2如圖3.2所示,假設(shè)紅色樣本點是岣類的樣本,藍(lán)色樣本點是4類的樣本。??如果采用上述局部密度峰值聚類的方法對<?和?<?這兩個類的樣本分別進(jìn)行聚類,聚類??結(jié)果如圖所示。不難看出,c/,類的樣本通過聚類之后的樣本總數(shù)為13個,而<?的樣本??總數(shù)為8個。那么名和之各自在屬性峑集上數(shù)量比分別為13/23???0.57和8/17???0.47。??通過比較4和<的數(shù)量比的結(jié)果,可以形成這樣的支配關(guān)系,在屬性全集J下,弋類??中的樣本可以支配(類中的樣本。??.?.???▲??Class?one:?#??Class?Two:??圖3.?2局部密度峰值聚類結(jié)果??Fig.?3.2?results?of?local?density?peak?clustering??3.3具有數(shù)量單調(diào)約束的支配關(guān)系??傳統(tǒng)單調(diào)分類的支配關(guān)系是根據(jù)樣本的M性值和標(biāo)簽值確定的,屬性值大的樣本支??配屬性值小的樣本,同理,標(biāo)簽值大的樣本支配標(biāo)簽值小的樣本。但是,要形成這樣的??支配關(guān)系,就要進(jìn)行數(shù)值對比,就要求數(shù)據(jù)集的屬性和標(biāo)簽為有序值。這就極大程度限??制了單調(diào)分類可用數(shù)據(jù)集的范圍,使得該分類算法有了局限性。因此,本文從數(shù)量的角??度形成支配關(guān)系,確定具有數(shù)量單調(diào)約束的支配關(guān)系集。??在本文中形成的具有數(shù)量單調(diào)約束的支配
本文編號:2970985
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1上近似和下近似??Fig.?2.1?Upper?approximation?and?lower?approximation??
?大連海事大學(xué)專業(yè)學(xué)位碩士學(xué)位論文???例3.1如圖3.1所示,給定一個樣本集t/,假設(shè)這里A為3,隨機選取一個樣本。??樣本x的三個最近鄰樣本用乃,知乃表示,且尺(;^)?=?0.7,/?(;c,y2)?=?0.55,??i?(x,_y3)?=?0.5。那么以?x?為圓心,半徑/,?=?1?—=?0.3,/2?=?l-7?(;c,_y2)二?0.45,??/3=1-_/?(jc,j3)?=?0.5,可以確定三個圓。叮。假設(shè)圓^2,?*3中包含的樣本總數(shù)量分別??為7、10和12,其中與;c不同類的樣本的總數(shù)量分別為6、9和10,那么樣本x的非同??類數(shù)量比可計算如下:??,N?1?(A?Q?V??DC?ratio(x)=-?—H?+?—?=0.863??一?k?v?3^7?10?12J??由上述計算結(jié)果可知,樣本X的非同類數(shù)量比為0.863。假設(shè)閾值2?=?0.8,樣本X的??非同類數(shù)量比大于閾值,x確定為噪聲樣本,需要從數(shù)據(jù)集中將該樣本移除。若閾值??義=?0.9,樣本;c的非同類數(shù)量比小于閾值,則x不是噪聲樣本。??/?Class?1:??^?Class2:?A?^??參????參參▲?????i..:::::'?▲?▲?▲????U々"/?▲?A??V???*?J??圖3.1非同類數(shù)量比降噪結(jié)果??Fig.?3.1?noise?reduction?results?of?different?class’s?ratio??3.2基于屬性的模糊支配關(guān)系??在本文中,將數(shù)據(jù)集中的所有樣本根據(jù)屬性值映射到多維空間,那么如何在多維空??間中形成基于屬性集的數(shù)量單調(diào)支配關(guān)系是本節(jié)討論的重點。在文獻(xiàn)
?具有數(shù)量單調(diào)約束的多變量決策樹分類算法???數(shù)的數(shù)量比求得。因為在數(shù)據(jù)集中,每一類樣本的數(shù)量及分布是不平衡的,數(shù)量越大的??類,聚類之后的樣本數(shù)量也會偏大。在這種情況下,再完全根據(jù)聚類樣本數(shù)量對比是沒??有意義的,所以本文通過數(shù)量比的形式來解決對比不平衡的問題。下面給出一個例子解??釋如何計算數(shù)量比。??例3.2如圖3.2所示,假設(shè)紅色樣本點是岣類的樣本,藍(lán)色樣本點是4類的樣本。??如果采用上述局部密度峰值聚類的方法對<?和?<?這兩個類的樣本分別進(jìn)行聚類,聚類??結(jié)果如圖所示。不難看出,c/,類的樣本通過聚類之后的樣本總數(shù)為13個,而<?的樣本??總數(shù)為8個。那么名和之各自在屬性峑集上數(shù)量比分別為13/23???0.57和8/17???0.47。??通過比較4和<的數(shù)量比的結(jié)果,可以形成這樣的支配關(guān)系,在屬性全集J下,弋類??中的樣本可以支配(類中的樣本。??.?.???▲??Class?one:?#??Class?Two:??圖3.?2局部密度峰值聚類結(jié)果??Fig.?3.2?results?of?local?density?peak?clustering??3.3具有數(shù)量單調(diào)約束的支配關(guān)系??傳統(tǒng)單調(diào)分類的支配關(guān)系是根據(jù)樣本的M性值和標(biāo)簽值確定的,屬性值大的樣本支??配屬性值小的樣本,同理,標(biāo)簽值大的樣本支配標(biāo)簽值小的樣本。但是,要形成這樣的??支配關(guān)系,就要進(jìn)行數(shù)值對比,就要求數(shù)據(jù)集的屬性和標(biāo)簽為有序值。這就極大程度限??制了單調(diào)分類可用數(shù)據(jù)集的范圍,使得該分類算法有了局限性。因此,本文從數(shù)量的角??度形成支配關(guān)系,確定具有數(shù)量單調(diào)約束的支配關(guān)系集。??在本文中形成的具有數(shù)量單調(diào)約束的支配
本文編號:2970985
本文鏈接:http://www.lk138.cn/guanlilunwen/lindaojc/2970985.html
最近更新
教材專著