中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于數(shù)據(jù)挖掘的熱點(diǎn)新聞發(fā)現(xiàn)及系統(tǒng)方法研究

發(fā)布時間:2018-03-28 09:30

  本文選題:熱點(diǎn)事件 切入點(diǎn):文本聚類 出處:《湖北工業(yè)大學(xué)》2017年碩士論文


【摘要】:互聯(lián)網(wǎng)新聞已經(jīng)成為用戶獲取信息的一個重要來源。新型的網(wǎng)絡(luò)資源和網(wǎng)絡(luò)新聞應(yīng)用不斷增加,網(wǎng)絡(luò)新聞數(shù)目呈現(xiàn)爆炸式增長,給用戶閱讀新聞增加了很多困難,從大量的網(wǎng)絡(luò)新聞中發(fā)現(xiàn)和分析熱點(diǎn)事件成為急需解決的重要問題。盡管機(jī)器學(xué)習(xí)、自然語言處理等多方面的技術(shù)已經(jīng)在網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)中得到了廣泛的應(yīng)用,但是現(xiàn)有的文本表示模型存在相對局限性,使得文本表示的性能仍不能讓用戶滿意,還有很多問題需要進(jìn)一步研究。為了實(shí)現(xiàn)更加深入的理解文本的目的,本文基于句義結(jié)構(gòu)模型構(gòu)建了一種基于聚類的互聯(lián)網(wǎng)熱點(diǎn)事件發(fā)現(xiàn)方法。該方法首先對文檔進(jìn)行句義成分分析,計算詞的權(quán)重后生成語義向量;將語義向量用到熱點(diǎn)事件發(fā)現(xiàn)系統(tǒng)中,采用single-pass聚類思想和凝聚式層次聚類與K-means聚類算法相結(jié)合的聚類算法,事件發(fā)現(xiàn)準(zhǔn)確率為75.2%。此外,構(gòu)建了一種事件簡化表示的方法,抽取事件發(fā)展關(guān)鍵點(diǎn)和事件標(biāo)簽,事件發(fā)展關(guān)鍵點(diǎn)的準(zhǔn)確率為58.9%。此外,設(shè)計并實(shí)現(xiàn)了一種熱點(diǎn)事件發(fā)現(xiàn)和事件簡化表示原型系統(tǒng)。
[Abstract]:Internet news has become an important source of information for users. New types of network resources and network news applications are constantly increasing, and the number of network news is exploding, making it more difficult for users to read news. Finding and analyzing hot events from a large number of network news has become an important problem that needs to be solved. Although machine learning, natural language processing and other technologies have been widely used in the discovery of network hot events, However, the existing text representation model has relative limitations, which makes the performance of text representation still not satisfactory to users, and there are still many problems that need to be further studied. In order to achieve a deeper understanding of the text, In this paper, a clustering based method for detecting hot Internet events is proposed based on the sentence meaning structure model. Firstly, the semantic component of the document is analyzed and the semantic vector is generated by calculating the weight of the words. The semantic vector is used in the hot spot event discovery system, and the clustering algorithm which combines the single-pass clustering idea with the condensed hierarchical clustering algorithm and the K-means clustering algorithm is adopted. The accuracy of event discovery is 75.2. In addition, a simplified representation method of events is constructed. The accuracy rate of event development key points is 58.9. In addition, a prototype system of hot spot event detection and event simplified representation is designed and implemented.
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J];計算機(jī)學(xué)報;2008年10期

2 于江德;樊孝忠;龐文博;;事件信息抽取中語義角色標(biāo)注研究[J];計算機(jī)科學(xué);2008年03期

3 馮志偉;;自然語言處理的歷史與現(xiàn)狀[J];中國外語;2008年01期

4 劉遠(yuǎn)超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報;2006年03期

5 于滿泉;駱衛(wèi)華;許洪波;白碩;;話題識別與跟蹤中的層次化話題識別技術(shù)研究[J];計算機(jī)研究與發(fā)展;2006年03期

6 秦兵,劉挺,李生;多文檔自動文摘綜述[J];中文信息學(xué)報;2005年06期

7 陳浩,何婷婷,姬東鴻;基于k-means聚類的無導(dǎo)詞義消歧[J];中文信息學(xué)報;2005年04期

8 馮志偉;自然語言處理的學(xué)科定位[J];解放軍外國語學(xué)院學(xué)報;2005年03期

9 劉群,張華平,俞鴻魁,程學(xué)旗;基于層疊隱馬模型的漢語詞法分析[J];計算機(jī)研究與發(fā)展;2004年08期

10 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期

相關(guān)碩士學(xué)位論文 前2條

1 劉星星;熱點(diǎn)事件發(fā)現(xiàn)及事件內(nèi)容特征自動抽取研究[D];華中師范大學(xué);2009年

2 潘文鋒;基于內(nèi)容的垃圾郵件過濾研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年



本文編號:1675740

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/1675740.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶10a93***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com