基于深度學習的網(wǎng)絡新聞文本分類研究
發(fā)布時間:2020-10-28 01:10
網(wǎng)絡新聞作為大數(shù)據(jù)時代人們獲取社會有效信息的重要手段,受到了人們的廣泛關注。實現(xiàn)對海量網(wǎng)絡新聞智能高效的分類,對個性化新聞推薦、話題識別與跟蹤、新聞網(wǎng)站分類導航等都具有重要意義。隨著計算機技術的發(fā)展以及互聯(lián)網(wǎng)的普及,網(wǎng)絡新聞信息資源呈現(xiàn)爆炸式增長。面對海量且混亂無序的網(wǎng)絡新聞信息,用戶所面臨的難題不再是如何獲取新聞信息,而是如何在大規(guī)模新聞資源中高效準確的找到能夠滿足自身需求的信息。隨著信息化時代的發(fā)展,用戶對獲取信息的內容和質量的要求也在不斷提升,新聞信息作為網(wǎng)絡新聞用戶獲取社會信息資源的重要渠道,隨著文本分類技術的發(fā)展和成熟,為文本分類在網(wǎng)絡新聞領域的應用和實踐奠定了基礎,網(wǎng)絡新聞文本分類的發(fā)展迎來了新的契機。為了能夠提升網(wǎng)絡新聞領域的信息服務質量,滿足用戶在大數(shù)據(jù)時代的多樣化和個性化信息需求,本文在深入研究網(wǎng)絡新聞文本分類的背景、研究現(xiàn)狀、相關理論和發(fā)展等內容的基礎上,采用文獻計量法對文本分類領域近十年發(fā)表的相關文獻進行統(tǒng)計分析,從年度發(fā)文趨勢、學科分布、期刊分布、機構分布、作者分布、高被引文獻分析以及研究熱點與前沿等方面理清文本分類領域的發(fā)展脈絡和研究現(xiàn)狀,為促進文本分類領域的進一步發(fā)展提供理論參考依據(jù)。與此同時,為網(wǎng)絡新聞領域構建了一個高效的網(wǎng)絡新聞文本分類模型框架。該模型主要由四個部分組成,分別是新聞文本預處理、基于詞向量的新聞文本表示、新聞文本特征提取與分類以及文本分類結果評價。在實驗過程中首先通過學習得到新聞文本的稠密的Word2Vec詞向量表示,從而解決傳統(tǒng)文本表示的高緯度、數(shù)據(jù)稀疏及缺乏語義等問題,然后以新聞文本詞向量為輸入,通過卷積神經(jīng)網(wǎng)絡對新聞文本特征進行自動學習和提取,從而避免傳統(tǒng)新聞文本分類方法人工參與特征提取的費時費力及誤差累積的缺點,實驗結果顯示該方法可以有效的提高網(wǎng)絡新聞文本分類的效率,促進新聞領域實現(xiàn)更加有效的信息組織和管理。本文提出的基于深度學習的網(wǎng)絡新聞文本分類模型具有可行性,能夠給用戶提供更優(yōu)質的新聞信息服務,對網(wǎng)絡新聞文本分類技術的發(fā)展提供了一定的參考價值。
【學位單位】:山西財經(jīng)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:G254
【部分圖文】:
圖 3.3 文本分類領域作者合作圖從圖 3.3 中可以看出,文本分類領域之間的作者整體聯(lián)系較為稀疏,主要有 3個合著團隊。①以朱顥東為中心的合作網(wǎng)絡,該團隊中朱顥東和鐘勇來自中國科學院、李紅嬋來自鄭州輕工業(yè)學院等,主要研究文本分類中的文本特征選擇方法,通
文章的關鍵詞是論文作者對文章核心研究內容的高度概括和提煉,某學科領域里高頻出現(xiàn)的關鍵詞可被視為該領域的研究熱點,通過對高頻關鍵詞進行詞頻統(tǒng)計和共現(xiàn)分析,能夠快速有效地掌握某一領域的研究熱點。圖 4 是利用citespace5.2 繪制的近十年的文本分類領域的關鍵詞共現(xiàn)知識圖譜。
新聞領域中的文本分類問題時,存在許多難以解決的問題。在進行特征提取的過程中需要人工的參與,會影響最終提取的文本特征的準確性;利用向量空間模型進行文本表示會忽略文本中的語序和語義信息,影響文本分類的性能;面對高緯度、數(shù)據(jù)稀疏性問題,雖然可以利用特征選擇方法進行降維,但這樣會進一步加劇了文本特征丟失的問題,而且使得整個文本分類過程更加復雜。Joachims 認為在文本分類過程中,與分類不相關的特征是非常少的,好的文本分類模型應該使用所有的特征[54]。因此,為了更好地完成大數(shù)據(jù)時代下網(wǎng)絡新聞領域的文本分類任務,引入更為巧妙的文本特征表示方式和更高精度的文本特征提取模型是十分有必要的。在本文介紹的基于深度學習的網(wǎng)絡新聞文本分類模型中包括:文本預處理、基于詞向量的文本表示、利用卷積神經(jīng)網(wǎng)絡進行文本特征提取和分類、文本分類結果評價四個模塊,利用詞向量的方法對文本特征進行表示,采用深度學習模型中的卷積神經(jīng)網(wǎng)絡對文本特征進行提取并完成最終分類;谏疃葘W習的網(wǎng)絡新聞文本分類的主要流程如下圖 4.1 所示。
【參考文獻】
本文編號:2859340
【學位單位】:山西財經(jīng)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:G254
【部分圖文】:
圖 3.3 文本分類領域作者合作圖從圖 3.3 中可以看出,文本分類領域之間的作者整體聯(lián)系較為稀疏,主要有 3個合著團隊。①以朱顥東為中心的合作網(wǎng)絡,該團隊中朱顥東和鐘勇來自中國科學院、李紅嬋來自鄭州輕工業(yè)學院等,主要研究文本分類中的文本特征選擇方法,通
文章的關鍵詞是論文作者對文章核心研究內容的高度概括和提煉,某學科領域里高頻出現(xiàn)的關鍵詞可被視為該領域的研究熱點,通過對高頻關鍵詞進行詞頻統(tǒng)計和共現(xiàn)分析,能夠快速有效地掌握某一領域的研究熱點。圖 4 是利用citespace5.2 繪制的近十年的文本分類領域的關鍵詞共現(xiàn)知識圖譜。
新聞領域中的文本分類問題時,存在許多難以解決的問題。在進行特征提取的過程中需要人工的參與,會影響最終提取的文本特征的準確性;利用向量空間模型進行文本表示會忽略文本中的語序和語義信息,影響文本分類的性能;面對高緯度、數(shù)據(jù)稀疏性問題,雖然可以利用特征選擇方法進行降維,但這樣會進一步加劇了文本特征丟失的問題,而且使得整個文本分類過程更加復雜。Joachims 認為在文本分類過程中,與分類不相關的特征是非常少的,好的文本分類模型應該使用所有的特征[54]。因此,為了更好地完成大數(shù)據(jù)時代下網(wǎng)絡新聞領域的文本分類任務,引入更為巧妙的文本特征表示方式和更高精度的文本特征提取模型是十分有必要的。在本文介紹的基于深度學習的網(wǎng)絡新聞文本分類模型中包括:文本預處理、基于詞向量的文本表示、利用卷積神經(jīng)網(wǎng)絡進行文本特征提取和分類、文本分類結果評價四個模塊,利用詞向量的方法對文本特征進行表示,采用深度學習模型中的卷積神經(jīng)網(wǎng)絡對文本特征進行提取并完成最終分類;谏疃葘W習的網(wǎng)絡新聞文本分類的主要流程如下圖 4.1 所示。
【參考文獻】
相關期刊論文 前10條
1 尹寶才;王文通;王立春;;深度學習研究綜述[J];北京工業(yè)大學學報;2015年01期
2 尹麗英;趙捧未;;基于語義網(wǎng)絡社團劃分的中文文本分類研究[J];圖書情報工作;2014年19期
3 葉鷹;;浪潮與沙灘:略談圖書情報研究熱點和研究前沿[J];國家圖書館學刊;2014年03期
4 汪海燕;黎建輝;楊風雷;;支持向量機理論及算法研究綜述[J];計算機應用研究;2014年05期
5 徐明;高翔;許志剛;劉磊;;基于改進卡方統(tǒng)計的微博特征提取方法[J];計算機工程與應用;2014年19期
6 劉建偉;劉媛;羅雄麟;;深度學習研究進展[J];計算機應用研究;2014年07期
7 劉海峰;于利軍;劉守生;;一種基于類別分布信息的文本特征選擇模型[J];圖書情報工作;2013年15期
8 薛春香;張玉芳;;面向新聞領域的中文文本分類研究綜述[J];圖書情報工作;2013年14期
9 李建林;;一種基于PCA的組合特征提取文本分類方法[J];計算機應用研究;2013年08期
10 孫志軍;薛磊;許陽明;王正;;深度學習研究綜述[J];計算機應用研究;2012年08期
本文編號:2859340
本文鏈接:http://www.lk138.cn/tushudanganlunwen/2859340.html
教材專著