基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測(cè)研究
本文關(guān)鍵詞: 凝聚式層次聚類 網(wǎng)絡(luò)輿情 微博 出處:《現(xiàn)代圖書(shū)情報(bào)技術(shù)》2016年Z1期 論文類型:期刊論文
【摘要】:【目的】實(shí)時(shí)、準(zhǔn)確、高效地檢測(cè)出海量微博中的突發(fā)事件,為輿情應(yīng)急管理提供重要的決策信息支持。【方法】引入?yún)⒄諘r(shí)間窗機(jī)制,設(shè)計(jì)詞頻、文檔頻率、話題標(biāo)簽(Hashtag)、詞頻增長(zhǎng)率4類特征的選擇與計(jì)算方法,基于動(dòng)態(tài)閾值實(shí)現(xiàn)對(duì)突發(fā)主題詞的抽取。在此基礎(chǔ)上,將微博文本表示為突發(fā)主題詞的特征向量,使用凝聚式層次聚類算法實(shí)現(xiàn)了突發(fā)事件的檢測(cè)!窘Y(jié)果】將實(shí)驗(yàn)結(jié)果結(jié)合實(shí)例進(jìn)行分析,突發(fā)事件檢測(cè)達(dá)到80%的準(zhǔn)確率,驗(yàn)證該方法的可行性和有效性!揪窒蕖坑捎谡Z(yǔ)料數(shù)據(jù)和研究范圍的限制,還未實(shí)現(xiàn)對(duì)所檢測(cè)突發(fā)事件的自動(dòng)描述,對(duì)網(wǎng)民情感、事件間語(yǔ)義關(guān)系等要素的分析及考量也存在一定欠缺!窘Y(jié)論】本研究突破以往相關(guān)研究中文本內(nèi)容質(zhì)量、文本形式、突發(fā)特征抽取結(jié)果的局限,提升微博突發(fā)事件檢測(cè)的效率。
[Abstract]:[objective] to detect the unexpected events in mass Weibo in real time, accurately and efficiently, and to provide important decision information support for the emergency management of public opinion. [methods] introducing the reference time window mechanism to design word frequency and document frequency, The topic tag Hashtagi, the selection and calculation method of four kinds of features of word frequency growth rate, and the extraction of burst subject words based on dynamic threshold are realized. On this basis, Weibo text is expressed as the feature vector of burst theme words. The condensed hierarchical clustering algorithm is used to realize the detection of unexpected events. [results] the experimental results are analyzed with examples, and the accuracy of emergency detection reaches 80%. To verify the feasibility and effectiveness of the method. [limitations] due to the limitation of the data and the scope of the research, the automatic description of the detected emergencies has not been realized, and the feelings of the netizens have not been realized. There are some deficiencies in the analysis and consideration of the semantic relationship between events. [conclusion] this study breaks through the limitations of the previous researches on the quality of Chinese text, text form, and the results of sudden feature extraction, and improves the efficiency of Weibo emergency detection.
【作者單位】: 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院;
【基金】:國(guó)家社會(huì)科學(xué)基金項(xiàng)目“基于社會(huì)網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)研究”(項(xiàng)目編號(hào):15BTQ063);國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“大數(shù)據(jù)環(huán)境下社會(huì)輿情與決策支持方法體系研究”(項(xiàng)目編號(hào):14AZD084)的研究成果之一 中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目“大數(shù)據(jù)時(shí)代基于深度融合的創(chuàng)新型知識(shí)服務(wù)體系及其運(yùn)行機(jī)制研究”(項(xiàng)目編號(hào):30916011330)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 潘大慶;;基于層次聚類的微博敏感話題檢測(cè)算法研究[J];廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機(jī)抽取的有限深度層次聚類[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2007年03期
3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡(jiǎn)算法[J];計(jì)算機(jī)應(yīng)用;2009年02期
4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識(shí)別與人工智能;2013年12期
5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期
6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國(guó)科教創(chuàng)新導(dǎo)刊;2011年26期
7 李曉飛;;基于動(dòng)態(tài)層次聚類的離散化算法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年10期
8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計(jì)算機(jī)時(shí)代;2006年07期
10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動(dòng)力學(xué)模型的層次聚類方法[J];中國(guó)科學(xué):信息科學(xué);2013年05期
相關(guān)會(huì)議論文 前6條
1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國(guó)計(jì)算機(jī)應(yīng)用聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
4 劉啟亮;鄧敏;李光強(qiáng);王佳t,
本文編號(hào):1555811
本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/1555811.html