中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

一種新分類模型運(yùn)用于不平衡分類

發(fā)布時(shí)間:2020-10-28 04:20
   不平衡多分類問題是目前分類問題中的研究的一個(gè)熱點(diǎn),有著廣泛的應(yīng)用背景,如異常檢測、疾病診斷等等。同時(shí),不平衡多分類問題也是分類問題中的一個(gè)難點(diǎn)。首先,它的樣本分布不均勻,不同類別之間樣本數(shù)目差別大;其次,它又是一個(gè)多分類問題。本文創(chuàng)新地構(gòu)建了一種新分類模型,對(duì)于解決不平衡多分類問題取得了不錯(cuò)的效果。本文采用了醫(yī)學(xué)診斷方面一個(gè)的數(shù)據(jù)集Arrhythmia。該數(shù)據(jù)集由452個(gè)患者記錄組成,每個(gè)記錄總共有279個(gè)特征值,目標(biāo)是將數(shù)據(jù)集分類為16類。其中,類別的分布不均勻,正常的類別占整個(gè)數(shù)據(jù)集的一半多,而有的類別的占比不及1%。面對(duì)這樣的一個(gè)數(shù)據(jù)集,本文創(chuàng)建了一種新分類模型,該模型是結(jié)合徑向基函數(shù)插值和邏輯回歸的算法思想而成的。為了尋找到最優(yōu)的新分類模型,本文對(duì)新分類模型取了四種不同的徑向基函數(shù):高斯函數(shù),Markoff分布函數(shù),一次多項(xiàng)式函數(shù)和最簡單的函數(shù),在不同的參數(shù)下進(jìn)行實(shí)驗(yàn)。最終得出,新分類模型在取一次多項(xiàng)式函數(shù)的形式下,相應(yīng)的一次項(xiàng)系數(shù)c取10,懲罰項(xiàng)調(diào)節(jié)系數(shù)取1時(shí),模型性能達(dá)到最佳,分類準(zhǔn)確率高達(dá)76.01%。為了便于比較,本文還做了補(bǔ)充實(shí)驗(yàn),將徑向基函數(shù)插值和邏輯回歸應(yīng)用于該數(shù)據(jù)集。并且,對(duì)比了之前別人對(duì)這個(gè)數(shù)據(jù)集用不同分類器分類的效果。最后發(fā)現(xiàn),新分類模型的分類效果是最好的。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2017
【中圖分類】:C815
【部分圖文】:

示意圖,集成學(xué)習(xí),示意圖,分類器


集成學(xué)習(xí)(ensemble learning)[12]是通過訓(xùn)練多個(gè)分類器,最后用某種組合策略來組合分類器來完成分類任務(wù)。對(duì)于集成學(xué)習(xí)如何才能使其優(yōu)于單一的分類器,主要是保證個(gè)體分類器的準(zhǔn)確性和多樣性。集成學(xué)習(xí)可以大致分為兩大類:Boosting(個(gè)體分類器間之間存在強(qiáng)依賴關(guān)系)和 Bagging(個(gè)體分類器間之間不存在強(qiáng)依賴關(guān)系)。Boosting 的主要算法思想是,首先基于初始訓(xùn)練集訓(xùn)練出一個(gè)分類器,之后改變訓(xùn)練集的權(quán)重,加大錯(cuò)分類的樣本的權(quán)重,接著基于改變后的訓(xùn)練集再訓(xùn)練出分類器,然后一直如此重復(fù)進(jìn)行,直到訓(xùn)練出 T 個(gè)分類器停止,最終結(jié)合 T 個(gè)分類器對(duì)樣本進(jìn)行分類。AdaBoost[13]是 Boosting 的一個(gè)著名的代表算法。Bagging[14]的主要步驟有,從數(shù)據(jù)集中隨機(jī)自助采樣 m 個(gè)樣本作為訓(xùn)練集,并基于訓(xùn)練集訓(xùn)練出分類模型,重復(fù)該步驟 T 次,最后將 T 個(gè)分類模型結(jié)合起來。而更進(jìn)一步,隨機(jī)森林[15](RandomForest)是 Bagging 的擴(kuò)展變體,并且在大多數(shù)分類問題中效果都是非常出色的。集成學(xué)習(xí)示意圖展示如下:

示意圖,示意圖,徑向基函數(shù),代碼字


圖 1-2 OvO 與 OvR 示意圖以上介紹的兩種方法有一個(gè)問題是對(duì)二分類的錯(cuò)誤太敏感,即如果有一個(gè)二分類器誤判,則整個(gè)組合的結(jié)果就會(huì)出現(xiàn)誤判。Dietterich 和 Bakiri[16]提出了一種魯棒的方法糾錯(cuò)輸出編碼( error-correcting output coding, ECOC),其基本思想是借助于代碼字向傳輸信息中增加一些冗余,從而使得接收方能發(fā)現(xiàn)接收信息中的一些錯(cuò)誤,而且如果錯(cuò)誤量很少,還可能恢復(fù)原始信息。接著介紹徑向基函數(shù)插值的研究現(xiàn)狀。徑向基函數(shù)是指以距離為變量的函數(shù)集合,并且具有各向同性、形式簡單、維數(shù)無關(guān)以及無網(wǎng)格等特點(diǎn)。1971 年,一位大地測量學(xué)家 Hardy[17]介紹了一種名叫 Multi-Quadratic(MQ)函數(shù)用于地貌形狀的曲面擬合問題。航空航天工程師 Harder R L 和 Desmarais R N[18]在航空器設(shè)計(jì)過程中于1972 年提出了一種名叫 thin plate splines(TPS)函數(shù)。這些都開啟了徑向基函數(shù)的研究。

示意圖,交叉驗(yàn)證,新分類,示意圖


圖 3-4 10 折交叉驗(yàn)證示意圖由于新分類模型中徑向基函數(shù)是一類函數(shù),本文選取了四個(gè)函數(shù)分別分類模型 I 類,新分類模型 II 類,新分類模型 III 類和新分類模型 IV 類,進(jìn)尋找最佳模型。下面依次介紹這些模型的實(shí)驗(yàn)結(jié)果。新分類模型 I 類是取徑向基函數(shù)為高斯函數(shù),即φ( ) ( ) 2, ∈ 狀參數(shù) 是和正態(tài)分布函數(shù)的方差有關(guān)系,即 21 (2 2)。結(jié)合距離函數(shù)于某個(gè)固定的中心點(diǎn) ∈ ,函數(shù)形式變?yōu)?(‖ ‖2) 2‖ ‖22, ∈ 對(duì)于設(shè)置參數(shù) ,在本文實(shí)驗(yàn)中取的是訓(xùn)練樣本的特征向量。則新分類 ( ) ∑ (‖ ‖2 1) ∑ 1 2‖ ‖22其中 表示訓(xùn)練集的樣本數(shù)目。
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 冷漠;;藝術(shù)發(fā)展的社會(huì)性[J];北方音樂;2017年13期

2 鄒力行;;重視平衡創(chuàng)新[J];中國科技產(chǎn)業(yè);2016年06期

3 ;奮進(jìn)新時(shí)代[J];實(shí)踐與跨越;2017年03期

4 阿達(dá)麗;;逃離北京后,兒子對(duì)現(xiàn)在的學(xué)校各種挑剔[J];婚姻與家庭(社會(huì)紀(jì)實(shí));2017年03期

5 楊麗;;觀察探究不能“由己推人”[J];學(xué)前教育;2017年01期

6 黃菊芳;;探析六年級(jí)英語課堂縮小兩極分化的策略[J];新課程(小學(xué));2017年05期

7 兩色風(fēng)景;吳懷銀;;長跑囧事[J];兒童故事畫報(bào);2017年21期

8 伍君儀;;心臟不好,慎練上肢[J];戀愛婚姻家庭.養(yǎng)生;2017年05期

9 閔保華;;心態(tài)平衡才能安度晚年[J];家庭醫(yī)藥.快樂養(yǎng)生;2017年06期

10 劉墉;;觀人[J];意林;2017年16期


相關(guān)博士學(xué)位論文 前10條

1 文博;中國經(jīng)常項(xiàng)目不平衡研究[D];西南財(cái)經(jīng)大學(xué);2008年

2 艾旭升;基于免疫系統(tǒng)的不平衡數(shù)據(jù)分類方法研究[D];蘇州大學(xué);2016年

3 王瑞;針對(duì)類別不平衡和代價(jià)敏感分類問題的特征選擇和分類算法[D];中國科學(xué)技術(shù)大學(xué);2013年

4 楊澤平;基于神經(jīng)網(wǎng)絡(luò)的不平衡數(shù)據(jù)分類方法研究[D];華東理工大學(xué);2015年

5 劉珍;因特網(wǎng)流量類不平衡特性與分類方法的研究[D];華南理工大學(xué);2013年

6 渠瑜;基于SVM的高不平衡分類技術(shù)研究及其在電信業(yè)的應(yīng)用[D];浙江大學(xué);2010年

7 李鳳岐;基于半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類算法與應(yīng)用[D];大連理工大學(xué);2014年

8 陳雷;射頻非理想特性的基帶補(bǔ)償技術(shù)研究[D];電子科技大學(xué);2017年

9 安錦香;地方政府競爭與外資分布的不平衡性研究[D];大連理工大學(xué);2013年

10 譚智力;不平衡及非線性條件下三相四線UPQC的控制策略研究[D];華中科技大學(xué);2007年


相關(guān)碩士學(xué)位論文 前10條

1 陳星星;一種新分類模型運(yùn)用于不平衡分類[D];華中科技大學(xué);2017年

2 王思南;SVG在低壓配電網(wǎng)三相不平衡治理中的應(yīng)用研究[D];北京交通大學(xué);2018年

3 李延?xùn)|;高增益三態(tài)CSI及其電網(wǎng)電壓不平衡控制策略研究[D];合肥工業(yè)大學(xué);2018年

4 李坤奇;不平衡電網(wǎng)條件下的三相PWM整流器控制策略研究[D];蘭州交通大學(xué);2018年

5 羅芳;不平衡電源條件下三相PWM整流無源性控制研究[D];華南理工大學(xué);2018年

6 杜錦波;基于快速文本分類器與不平衡數(shù)據(jù)的研究[D];暨南大學(xué);2018年

7 王非一;OFDM系統(tǒng)中的IQ不平衡補(bǔ)償算法研究[D];國防科學(xué)技術(shù)大學(xué);2016年

8 殷昊;面向微博文本的情緒識(shí)別和分類方法研究[D];蘇州大學(xué);2018年

9 高亞靜;基于對(duì)比模式的不平衡數(shù)據(jù)分類研究[D];湖南大學(xué);2018年

10 周建偉;不平衡學(xué)習(xí)中的重采樣方法研究[D];南京理工大學(xué);2018年



本文編號(hào):2859578

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/tongjijuecelunwen/2859578.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c06a1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com