中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

云環(huán)境下基于RIHDBSCAN的微博事件檢測(cè)及跟蹤

發(fā)布時(shí)間:2020-01-22 10:32
【摘要】:微博近幾年有著飛速的發(fā)展和廣泛的影響。用戶通過(guò)網(wǎng)頁(yè)、手機(jī)、SMS等多種途徑,隨時(shí)隨地記錄見聞時(shí)事、參與話題討論等。對(duì)實(shí)時(shí)產(chǎn)生的大量微博文本進(jìn)行分析和挖掘具有風(fēng)險(xiǎn)預(yù)警、輿論監(jiān)控等重要實(shí)際意義,也給文本挖掘領(lǐng)域帶來(lái)了新的挑戰(zhàn)。 針對(duì)微博的挖掘分析,國(guó)內(nèi)外學(xué)者已經(jīng)取得了一定的成果。然而,為了提高從海量迅速增長(zhǎng)的微博數(shù)據(jù)中挖掘新聞事件的速度和精度,需要采取新的更加有效的方法來(lái)處理即時(shí)更新的大量文本數(shù)據(jù)流。云計(jì)算技術(shù)是未來(lái)的趨勢(shì),它能夠高效的完成海量數(shù)據(jù)的存儲(chǔ)和計(jì)算任務(wù),將云計(jì)算技術(shù)和微博挖掘結(jié)合起來(lái)勢(shì)在必行。論文設(shè)計(jì)了一套完整的云環(huán)境下的微博事件檢測(cè)跟蹤模型。主要研究及創(chuàng)新點(diǎn)如下: ①制定機(jī)械化過(guò)濾規(guī)則,將抓取的微博文本按規(guī)則進(jìn)行過(guò)濾,有效提高后續(xù)處理的效率。 ②在傳統(tǒng)TF-IDF算法的基礎(chǔ)上,提出動(dòng)態(tài)權(quán)值計(jì)算方法FCF-DIDF。該算法基于微博轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù),能夠有效改善TF-IDF算法的不足,并考慮到微博文本集規(guī)模的不斷增加,適合處理微博短文本。 ③基于DBSCAN算法,提出基于代表點(diǎn)的增量層次密度聚類算法(RIHDBSCAN)。該算法分為三個(gè)步驟:生成初始簇、初始簇合并、選出代表點(diǎn)。算法執(zhí)行過(guò)程中只需要選取部分對(duì)象進(jìn)行核心點(diǎn)檢測(cè),大大降低了I/O開銷,屏蔽了數(shù)據(jù)輸入順序敏感性。RIHDBSAN算法在每輪事件檢測(cè)聚類算法執(zhí)行結(jié)束后,選出代表點(diǎn)組參與下輪的增量聚類,并通過(guò)增量聚類中簇結(jié)構(gòu)和關(guān)鍵詞變化追蹤事件的發(fā)展軌跡。 ④針對(duì)單一節(jié)點(diǎn)處理海量微博數(shù)據(jù)面臨困境,將算法部署在Hadoop云計(jì)算平臺(tái)上。模型的四個(gè)部分:文本過(guò)濾、FCF-DIDF動(dòng)態(tài)權(quán)值計(jì)算、余弦距離計(jì)算、RIHDBSCAN聚類,都并行在該平臺(tái)上。 通過(guò)在新浪微博平臺(tái)上抽取的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)表明,表明論文提出的FCF-DIDF算法對(duì)比TF-IDF和UF-ITUF等有更高的性能,并且云框架的使用較好的提高了從大規(guī)模微博數(shù)據(jù)中挖掘新聞事件的效率,,適合用于海量數(shù)據(jù)的分析和挖掘。
【圖文】:

詞條,權(quán)值矩陣,文檔,向量空間模型


文檔-詞條權(quán)值矩陣Fig2.2.Theweightmatrixoftext-term

相似度,余弦,歐氏距離,文本


圖 2.3 歐氏距離和余弦相似度的區(qū)別2.3 The difference between Euclidean distance and Cosine sim,余弦相似度能夠有效規(guī)避文本間的差異表現(xiàn),場(chǎng)景,論文采用規(guī)范化的余弦公式計(jì)算余弦相似度續(xù)聚類分析有重要的影響。本章介紹了預(yù)處理關(guān)鍵首先提出根據(jù)機(jī)械化規(guī)則直接過(guò)濾文本,提高后提出一種改進(jìn)的 FCF-DIDF 動(dòng)態(tài)權(quán)值算法計(jì)算特公式來(lái)計(jì)算文本向量間的相似度,最后得到余弦模型,為聚類分析做好了數(shù)據(jù)準(zhǔn)備。
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蔡穎琨,謝昆青,馬修軍;屏蔽了輸入?yún)?shù)敏感性的DBSCAN改進(jìn)算法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期

2 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點(diǎn)的層次聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期

3 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測(cè)的方法[J];計(jì)算機(jī)科學(xué);2012年01期

4 邱云飛;程亮;;微博突發(fā)話題檢測(cè)方法研究[J];計(jì)算機(jī)工程;2012年09期

5 洪宇;張宇;劉挺;李生;;話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J];中文信息學(xué)報(bào);2007年06期

6 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識(shí)別與人工智能;2012年03期

7 周紅芳;趙雪涵;周揚(yáng);;基于限定區(qū)域數(shù)據(jù)取樣的密度聚類算法[J];計(jì)算機(jī)應(yīng)用;2012年08期

8 李勁;張華;吳浩雄;向軍;;基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J];計(jì)算機(jī)應(yīng)用;2012年08期

9 周水庚,周傲英,金文,范曄,錢衛(wèi)寧;FDBSCAN:一種快速 DBSCAN算法(英文)[J];軟件學(xué)報(bào);2000年06期

10 馬帥,王騰蛟,唐世渭,楊冬青,高軍;一種基于參考點(diǎn)和密度的快速聚類算法[J];軟件學(xué)報(bào);2003年06期



本文編號(hào):2571936

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/2571936.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶afd83***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com