国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

中文文本分類方法的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-12-13 00:21
  互聯(lián)網(wǎng)應(yīng)用的大規(guī)模普及衍生出大量的非結(jié)構(gòu)化文本數(shù)據(jù),基于文本數(shù)據(jù)的自動(dòng)分類系統(tǒng)在多個(gè)領(lǐng)域呈現(xiàn)出巨大的應(yīng)用價(jià)值,如搜索引擎、數(shù)字圖書(shū)館、郵件分類等;贙近鄰的分類算法簡(jiǎn)單直觀,易于理解,基于貝葉斯理論的樸素貝葉斯分類算法劃分類別準(zhǔn)確率較好,在文本劃分類別中得到了較為廣泛的使用。本文首先簡(jiǎn)要介紹了文本分類的關(guān)鍵技術(shù)——文本分詞,文本分詞是將非結(jié)構(gòu)化文本轉(zhuǎn)化為可定量分析數(shù)據(jù),包括機(jī)械分詞、統(tǒng)計(jì)分詞、語(yǔ)義分詞等方法。其次,將分詞結(jié)果運(yùn)用向量空間模型進(jìn)行轉(zhuǎn)化,每個(gè)特征詞語(yǔ)的權(quán)重如何表示有多種形式,包括布爾權(quán)重、詞頻權(quán)重、詞頻反文檔頻權(quán)重等。鑒于文本挖掘中常見(jiàn)的高維稀疏性問(wèn)題,深入研究了CHI統(tǒng)計(jì)和隨機(jī)森林Boruta算法特征選擇方法,實(shí)現(xiàn)對(duì)高維文本特征的降維;CHI統(tǒng)計(jì)方法針對(duì)單個(gè)特征對(duì)分類結(jié)果的影響進(jìn)行卡方檢驗(yàn),檢測(cè)出與分類存在相關(guān)的特征;隨機(jī)森林Boruta算法特征選擇方法組合若干決策樹(shù)對(duì)分類結(jié)果進(jìn)行投票,對(duì)于單個(gè)特征重要性評(píng)價(jià)采取OOB估計(jì),OOB估計(jì)是平均預(yù)測(cè)精度下降程度的無(wú)偏估計(jì),并針對(duì)隨機(jī)森林評(píng)價(jià)特征重要性中存在的問(wèn)題引入影子特征對(duì)特征重要性進(jìn)行顯著性檢驗(yàn),得出真正對(duì)分類存在重要意... 

【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:60 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文主要工作
    1.4 本文的組織結(jié)構(gòu)
2 文本分類技術(shù)
    2.1 文本分詞
    2.2 向量空間模型
    2.3 文本分類特征選擇
    2.4 文本分類實(shí)現(xiàn)方法
    2.5 分類評(píng)估
    2.6 本章小結(jié)
3 基于隨機(jī)森林的特征選擇方法
    3.1 隨機(jī)森林法原理
    3.2 隨機(jī)森林用于特征選擇
    3.3 本章小結(jié)
4 分類算法介紹
    4.1 基于臨近點(diǎn)的分類方法
    4.2 貝葉斯分類
    4.3 本章小結(jié)
5 實(shí)證分析
    5.1 文本預(yù)處理
    5.2 CHI統(tǒng)計(jì)與隨機(jī)森林Boruta算法特征選擇
    5.3 K近鄰法文本分類實(shí)證分析
    5.4 樸素貝葉斯文本分類實(shí)證分析
    5.5 基于TF-IDF-VSM的分類模型對(duì)比評(píng)估
    5.6 本章小結(jié)
6 總結(jié)與展望
致謝
參考文獻(xiàn)
附錄


【參考文獻(xiàn)】:
期刊論文
[1]一種k-NN分類器k值自動(dòng)選取方法[J]. 杜磊,杜星,宋擒豹.  控制與決策. 2013(07)
[2]文本分類技術(shù)探究[J]. 吳波,朱昌杰,任逸卿.  宿州學(xué)院學(xué)報(bào). 2012(05)
[3]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄.  中文信息學(xué)報(bào). 2004(01)

博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
[2]基于類別結(jié)構(gòu)的文本層次分類方法研究[D]. 祝翠玲.山東大學(xué) 2011
[3]WWW科技信息資源自動(dòng)標(biāo)引的理論與實(shí)踐研究[D]. 肖明.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 2001

碩士論文
[1]中文文本分類中的特征選擇和權(quán)重計(jì)算方法研究[D]. 宋惟然.北京工業(yè)大學(xué) 2013
[2]基于不均衡數(shù)據(jù)集的文本分類算法研究[D]. 謝娜娜.重慶大學(xué) 2013
[3]基于K近鄰算法的中文文本分類研究[D]. 徐曉艷.安徽大學(xué) 2012
[4]基于隨機(jī)森林算法的企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)研究[D]. 李麗.西南財(cái)經(jīng)大學(xué) 2012
[5]基于樸素貝葉斯方法的中文文本分類研究[D]. 李丹.河北大學(xué) 2011
[6]隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學(xué) 2008
[7]基于決策樹(shù)的數(shù)據(jù)挖掘算法研究與應(yīng)用[D]. 盧東標(biāo).武漢理工大學(xué) 2008
[8]基于Bayes方法的文本分類器的研究與實(shí)現(xiàn)[D]. 陳劍敏.重慶大學(xué) 2007
[9]SVM在文本分類中的應(yīng)用[D]. 葉志剛.哈爾濱工程大學(xué) 2006
[10]自動(dòng)文本分類算法研究[D]. 朱望斌.湖南大學(xué) 2005



本文編號(hào):2913528

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/guanlilunwen/tongjijuecelunwen/2913528.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bca7c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美日韩人妻 第2页| 最新无码精品一区二区三区| 三级电影网| 国产伦精品一区.二区.三区…| 一区二区三区四区网站| 亚欧视频在线观看| 日B视在哪里看| 久久大香交| 日韩伦理片一区二区| caopornol欧美| 欧美另类三级| 国产白浆无套一区二区| 欧美激情无码在线观看| 久久久久久久黄色精品| 小黄片污污的完整日韩无码 | 九九九免费一级| 男女天天干天天日天天操| 香蕉视频在线观看亚洲一级黄| 日本午夜一区二区在线观看| 欧美日韩国内高清| 图区一区二区国产日韩欧美| 欧美精品一区日韩亚洲| 精品福利视频在线观看| 啊啊啊啊视频国产| 啪啪啪免费看亚洲一区草莓| 中文 婷婷 字幕 产| 亚洲日本中文字幕天天| 久久久久黄色AV电影一区| 国产AV网站入口| 高级无码按摩国产一区二区| 求网址精品大码在线| 人妻无码公司| 亚洲第一二区天天操| 一成人AV在线| 色狠狠色噜噜aⅴ天堂三区| 福利女主播在线观看视频| 欧美经典视频一区二区三区| 665566视频| 国产影院一区二区| 大鸡吧草美女视频| 欧美性色黄大片欧美40老熟妇|