貝葉斯統(tǒng)計(jì)在文本挖掘的若干研究
發(fā)布時間:2020-12-19 00:40
隨著信息時代的發(fā)展,越來越多非結(jié)構(gòu)化的文本信息不斷出現(xiàn),我們需要新的工具來整理、搜索和理解這些文本信息,以便獲取有價(jià)值的信息。文本挖掘(text mining)是解決這一系列問題的有效工具。在文本挖掘中,最常使用的是文本分類(Text classification)。文本分類是文本挖掘中有監(jiān)督的學(xué)習(xí)過程,目的是基于文檔內(nèi)容將文檔分配到一個或者多個預(yù)定義類別。由于文本信息構(gòu)造復(fù)雜性、變化多樣性和高維性,這給文本分類任務(wù)有效地提取文本特征帶來了極大的挑戰(zhàn)。概率主題模型(probabilistic topic models)是文本挖掘中提取文本特征的有效工具。主要是通過貝葉斯統(tǒng)計(jì)方法發(fā)現(xiàn)文本中的隱藏語義結(jié)構(gòu),進(jìn)而獲取有效的特征。因此,文本分類和概率主題模型是文本挖掘中非常有意義的研究課題。本文不僅關(guān)注文本分類,并探索了基于貝葉斯非參數(shù)的概率主題模型在文本分類中特征表示及其特征選擇,主要工作如下:(1)波利亞罐子(Polya urn)模型是廣泛應(yīng)用于統(tǒng)計(jì)和文本挖掘的基本模型,大多數(shù)訓(xùn)練模型的算法都非常緩慢和復(fù)雜,因此通常很難適應(yīng)大數(shù)據(jù)集。本文對波利亞罐子模型的極大似然估計(jì)(MLE)提出了一種新...
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:112 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT(英文摘要)
主要符號對照表
第一章 引言
§1.1 研究背景
§1.2 研究現(xiàn)狀
§1.2.1 特征表示與特征選擇
§1.2.2 機(jī)器學(xué)習(xí)分類方法
§1.2.3 深度學(xué)習(xí)分類方法
§1.2.4 主題模型的研究現(xiàn)狀
§1.3 研究的主要內(nèi)容
第二章 波利亞罐子模型及其在文本分類上的應(yīng)用
§2.1 引言
§2.2 波利亞罐子模型
§2.3 參數(shù)估計(jì)
§2.3.1 極大似然估計(jì)
§2.3.2 一個新的計(jì)算算法
§2.3.3 極大似然估計(jì)的漸進(jìn)性質(zhì)
§2.4 隨機(jī)模擬
§2.5 波利亞罐子模型在文本分類上的應(yīng)用
§2.5.1 數(shù)據(jù)描述
§2.5.2 文本預(yù)處理
§2.5.3 分類方法和評估準(zhǔn)則
§2.5.4 結(jié)果比較
§2.6 定理證明
§2.6.1 定理3.1的證明
§2.6.2 定理3.2的證明
第三章 基于分層狄利克雷過程的圖挖掘主題模型
§3.1 引言
§3.2 相關(guān)模型分析
§3.2.1 隱狄利克雷分配模型
§3.2.2 圖挖掘模型
§3.2.3 分層狄利克雷過程
§3.3 基于分層狄利克雷過程的圖挖掘主題模型
§3.4 后驗(yàn)推斷
§3.5 實(shí)例分析
§3.5.1 數(shù)據(jù)描述
§3.5.2 實(shí)驗(yàn)設(shè)計(jì)
§3.5.3 評估準(zhǔn)則
§3.5.4 結(jié)果分析
§3.5.5 閾值的選擇
§3.6 后驗(yàn)分布的推導(dǎo)及相關(guān)定理證明
§3.6.1 基于分層狄利克雷過程的圖挖掘主題模型的后驗(yàn)分布推導(dǎo)
§3.6.2 定理4.1的證明
第四章 基于隱馬爾可夫模型的Pitman-Yor先驗(yàn)概率主題模型
§4.1 引言
§4.2 模型及估計(jì)方法
§4.2.1 符號
§4.2.2 Pitman-Yor過程和相關(guān)的貝葉斯非參數(shù)過程
§4.3 相關(guān)的模型
§4.3.1 隱馬爾可夫主題模型
§4.3.2 分層Pitman-Yor過程主題模型
§4.4 基于隱馬爾可夫模型的Pitman-Yor先驗(yàn)概率主題模型
§4.4.1 模型構(gòu)建
§4.5 基于隱馬爾可夫模型的Pitman-Yor先驗(yàn)概率主題模型的變量推斷
§4.5.1 后驗(yàn)推斷
§4.5.2 參數(shù)估計(jì)
§4.5.3 迭代算法的收斂性
§4.6 實(shí)例分析
§4.6.1 數(shù)據(jù)集
§4.6.2 實(shí)驗(yàn)設(shè)置
§4.6.3 結(jié)果分析
§4.7 變量推斷的相關(guān)證明
第五章 基于句子的分層Pitman-Yor主題模型
§5.1 引言
§5.2 相關(guān)的工作回顧
§5.2.1 基于句子的隱狄利克雷分配模型
§5.2.2 Pitman-Yor過程及分層Pitman-Yor過程
§5.3 基于句子的分層Pitman-Yor主題模型
§5.4 基于句子的分層Pitman-Yor主題模型的后驗(yàn)推斷
§5.5 實(shí)列分析
§5.5.1 文本建模
§5.5.2 文本分類
第六章 結(jié)論與展望
參考文獻(xiàn)
致謝
在學(xué)期間的研究成果及發(fā)表的論文
本文編號:2924913
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:112 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT(英文摘要)
主要符號對照表
第一章 引言
§1.1 研究背景
§1.2 研究現(xiàn)狀
§1.2.1 特征表示與特征選擇
§1.2.2 機(jī)器學(xué)習(xí)分類方法
§1.2.3 深度學(xué)習(xí)分類方法
§1.2.4 主題模型的研究現(xiàn)狀
§1.3 研究的主要內(nèi)容
第二章 波利亞罐子模型及其在文本分類上的應(yīng)用
§2.1 引言
§2.2 波利亞罐子模型
§2.3 參數(shù)估計(jì)
§2.3.1 極大似然估計(jì)
§2.3.2 一個新的計(jì)算算法
§2.3.3 極大似然估計(jì)的漸進(jìn)性質(zhì)
§2.4 隨機(jī)模擬
§2.5 波利亞罐子模型在文本分類上的應(yīng)用
§2.5.1 數(shù)據(jù)描述
§2.5.2 文本預(yù)處理
§2.5.3 分類方法和評估準(zhǔn)則
§2.5.4 結(jié)果比較
§2.6 定理證明
§2.6.1 定理3.1的證明
§2.6.2 定理3.2的證明
第三章 基于分層狄利克雷過程的圖挖掘主題模型
§3.1 引言
§3.2 相關(guān)模型分析
§3.2.1 隱狄利克雷分配模型
§3.2.2 圖挖掘模型
§3.2.3 分層狄利克雷過程
§3.3 基于分層狄利克雷過程的圖挖掘主題模型
§3.4 后驗(yàn)推斷
§3.5 實(shí)例分析
§3.5.1 數(shù)據(jù)描述
§3.5.2 實(shí)驗(yàn)設(shè)計(jì)
§3.5.3 評估準(zhǔn)則
§3.5.4 結(jié)果分析
§3.5.5 閾值的選擇
§3.6 后驗(yàn)分布的推導(dǎo)及相關(guān)定理證明
§3.6.1 基于分層狄利克雷過程的圖挖掘主題模型的后驗(yàn)分布推導(dǎo)
§3.6.2 定理4.1的證明
第四章 基于隱馬爾可夫模型的Pitman-Yor先驗(yàn)概率主題模型
§4.1 引言
§4.2 模型及估計(jì)方法
§4.2.1 符號
§4.2.2 Pitman-Yor過程和相關(guān)的貝葉斯非參數(shù)過程
§4.3 相關(guān)的模型
§4.3.1 隱馬爾可夫主題模型
§4.3.2 分層Pitman-Yor過程主題模型
§4.4 基于隱馬爾可夫模型的Pitman-Yor先驗(yàn)概率主題模型
§4.4.1 模型構(gòu)建
§4.5 基于隱馬爾可夫模型的Pitman-Yor先驗(yàn)概率主題模型的變量推斷
§4.5.1 后驗(yàn)推斷
§4.5.2 參數(shù)估計(jì)
§4.5.3 迭代算法的收斂性
§4.6 實(shí)例分析
§4.6.1 數(shù)據(jù)集
§4.6.2 實(shí)驗(yàn)設(shè)置
§4.6.3 結(jié)果分析
§4.7 變量推斷的相關(guān)證明
第五章 基于句子的分層Pitman-Yor主題模型
§5.1 引言
§5.2 相關(guān)的工作回顧
§5.2.1 基于句子的隱狄利克雷分配模型
§5.2.2 Pitman-Yor過程及分層Pitman-Yor過程
§5.3 基于句子的分層Pitman-Yor主題模型
§5.4 基于句子的分層Pitman-Yor主題模型的后驗(yàn)推斷
§5.5 實(shí)列分析
§5.5.1 文本建模
§5.5.2 文本分類
第六章 結(jié)論與展望
參考文獻(xiàn)
致謝
在學(xué)期間的研究成果及發(fā)表的論文
本文編號:2924913
本文鏈接:http://www.lk138.cn/guanlilunwen/tongjijuecelunwen/2924913.html
最近更新
教材專著