微博信息可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-12-08 20:43
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,參與微博類(lèi)社交平臺(tái)的用戶(hù)數(shù)呈指數(shù)級(jí)增長(zhǎng)。據(jù)新浪微博去年第二季度財(cái)報(bào)統(tǒng)計(jì),微博用戶(hù)月活躍規(guī)模己達(dá)4.31億。面對(duì)浩瀚如海的微博文本集,如何根據(jù)關(guān)鍵字、話(huà)題等查詢(xún)需求,對(duì)檢索結(jié)果集精確高效分析、可視化處理,是目前亟需的功能。而當(dāng)前各微博平臺(tái)的檢索功能,只能返回文檔形式的結(jié)果集。如何根據(jù)查詢(xún)需求,對(duì)所有查詢(xún)結(jié)果集做更有效的可視化處理,是微博信息平臺(tái)目前面臨的最大挑戰(zhàn)。針對(duì)該挑戰(zhàn),本文構(gòu)建了微博信息可視化系統(tǒng),主要研究工作包括以下兩個(gè)部分:第一,話(huà)題趨勢(shì)與地域分析:首先使用WebCollector爬蟲(chóng)下載微博原始帖子,并根據(jù)規(guī)則預(yù)處理;然后再利用中文IK分詞器插件和自定義擴(kuò)展詞典,對(duì)語(yǔ)料庫(kù)中每篇短文本做分詞、消歧、去停用詞等處理,并生成對(duì)應(yīng)的倒排記錄表和詞典;之后再利用ELK技術(shù)棧搭建分布式索引庫(kù)和搜索引擎平臺(tái),將倒排記錄表和詞典中所有數(shù)據(jù)存儲(chǔ)在該平臺(tái)中;最后根據(jù)信息檢索模型查詢(xún)結(jié)果集,利用可視化組件Kibana對(duì)查詢(xún)結(jié)果集做數(shù)據(jù)統(tǒng)計(jì)分析與可視化處理。通過(guò)該功能,可以幫助用戶(hù)快速?gòu)慕Y(jié)果集中獲取與其相關(guān)的用戶(hù)地域分布、話(huà)題發(fā)展趨勢(shì)以及關(guān)注程度。第二,話(huà)題聚類(lèi):首先利用檢索功...
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1通用型網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)結(jié)構(gòu)圖??
??圖2.1通用型網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)結(jié)構(gòu)圖??2.?1.?2深層網(wǎng)絡(luò)爬蟲(chóng)??根據(jù)訪問(wèn)網(wǎng)站中網(wǎng)頁(yè)的方式,可將網(wǎng)頁(yè)分為深層與表層網(wǎng)頁(yè)。表層網(wǎng)頁(yè)是指??不需用戶(hù)經(jīng)過(guò)注冊(cè)登錄、權(quán)限驗(yàn)證可直接落地訪問(wèn),或可通過(guò)URL鏈接直接落地??訪問(wèn),或由靜態(tài)網(wǎng)頁(yè)構(gòu)成的Web頁(yè)面。同時(shí),也包括那些能被搜索引擎直接索引??的網(wǎng)頁(yè)。對(duì)于深層頁(yè)面,則指哪些隱藏在表單后面,或需要登錄后才能訪問(wèn)的??Web頁(yè)面;另外,它也是互聯(lián)網(wǎng)環(huán)境中訪問(wèn)量最大、發(fā)展最快的資源。這里著重??介紹爬取深層網(wǎng)頁(yè)的網(wǎng)絡(luò)爬蟲(chóng)——深層網(wǎng)絡(luò)爬蟲(chóng),從系統(tǒng)功能角度來(lái)看,其主要??由表單處理器、表單填充與提交、主題分類(lèi)器、URL隊(duì)列、響應(yīng)結(jié)果分析、頁(yè)面??分析器、主題詞庫(kù)組成[9],系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖2.2所示。涉及到的數(shù)據(jù)結(jié)構(gòu)主要包??括URL隊(duì)列、填充表單數(shù)據(jù)源的主題詞庫(kù)
妒墾?宦畚模崳姡停粒櫻裕牛遙В櫻牐裕齲牛櫻桑櫻崳?過(guò)濾模塊、內(nèi)容分析器、倒排索引庫(kù)、評(píng)價(jià)模塊、頁(yè)面內(nèi)容數(shù)據(jù)庫(kù)、搜索策略處??理器、URL緩存共九個(gè)模塊組成[12],對(duì)應(yīng)的系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖2.3所示。??^?頁(yè)面?(??I?Tv?????I頁(yè)面內(nèi)容數(shù)據(jù)庫(kù)??頁(yè)面陡取橫塊??搜索策略處理器??內(nèi)容分析器? ̄|?URL緩存?f?狐隊(duì)列?f?r—??主歴詞????IR1.過(guò)濾挨塊?種子陳??i??f?索引庫(kù)?Q???評(píng)價(jià)模塊????圖2.3主題型網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)圖??2.1.4增量式網(wǎng)絡(luò)爬蟲(chóng)??增量式爬蟲(chóng)是一種以抓取保存的網(wǎng)頁(yè)內(nèi)容和鏈接為基礎(chǔ),只爬取網(wǎng)頁(yè)內(nèi)容發(fā)??生改變或新增的爬蟲(chóng)。其目標(biāo)就是保證當(dāng)前存儲(chǔ)內(nèi)容的質(zhì)量,以及與網(wǎng)絡(luò)頁(yè)面內(nèi)??容的一致性。為了實(shí)現(xiàn)內(nèi)容一致性,通常使用這三種策略,第一是所有爬蟲(chóng)以相??同的周期,訪問(wèn)URL消費(fèi)隊(duì)列中所有資源;第二是根據(jù)頁(yè)面內(nèi)容更新周期的大小,??分為不同區(qū)域的子集URL隊(duì)列,用不同的周期訪問(wèn)各個(gè)子集;第三是根據(jù)每個(gè)網(wǎng)??頁(yè)的更新周期,重新抓取各個(gè)頁(yè)面。為了提聞內(nèi)容的質(zhì)量,則需根據(jù)業(yè)務(wù)需求選??擇恰當(dāng)?shù)呐廊〔呗,?duì)網(wǎng)頁(yè)爬取順序做出排序。與其它類(lèi)爬蟲(chóng)相比,增量式網(wǎng)絡(luò)??爬蟲(chóng)以相應(yīng)的爬行策略實(shí)現(xiàn)了內(nèi)容去重
【參考文獻(xiàn)】:
期刊論文
[1]基于搜索引擎的中文歧義詞收集系統(tǒng)研究[J]. 吉向東. 現(xiàn)代情報(bào). 2010(06)
[2]基于統(tǒng)計(jì)語(yǔ)言模型的信息檢索[J]. 李曉光,王大玲,于戈. 計(jì)算機(jī)科學(xué). 2005(08)
[3]文本信息檢索中的概率模型[J]. 張文進(jìn). 情報(bào)雜志. 2005(03)
[4]信息檢索的概率模型[J]. 邢永康,馬少平. 計(jì)算機(jī)科學(xué). 2003(08)
碩士論文
[1]微博輿情可視化系統(tǒng)的研究與實(shí)現(xiàn)[D]. 黃冠華.江蘇大學(xué) 2016
[2]基于微博用戶(hù)行為的興趣模型構(gòu)建和可視化方法研究[D]. 何苾菲.哈爾濱工業(yè)大學(xué) 2013
[3]社會(huì)標(biāo)注中標(biāo)簽語(yǔ)義分析研究[D]. 吳曉芳.大連理工大學(xué) 2011
本文編號(hào):2905659
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1通用型網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)結(jié)構(gòu)圖??
??圖2.1通用型網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)結(jié)構(gòu)圖??2.?1.?2深層網(wǎng)絡(luò)爬蟲(chóng)??根據(jù)訪問(wèn)網(wǎng)站中網(wǎng)頁(yè)的方式,可將網(wǎng)頁(yè)分為深層與表層網(wǎng)頁(yè)。表層網(wǎng)頁(yè)是指??不需用戶(hù)經(jīng)過(guò)注冊(cè)登錄、權(quán)限驗(yàn)證可直接落地訪問(wèn),或可通過(guò)URL鏈接直接落地??訪問(wèn),或由靜態(tài)網(wǎng)頁(yè)構(gòu)成的Web頁(yè)面。同時(shí),也包括那些能被搜索引擎直接索引??的網(wǎng)頁(yè)。對(duì)于深層頁(yè)面,則指哪些隱藏在表單后面,或需要登錄后才能訪問(wèn)的??Web頁(yè)面;另外,它也是互聯(lián)網(wǎng)環(huán)境中訪問(wèn)量最大、發(fā)展最快的資源。這里著重??介紹爬取深層網(wǎng)頁(yè)的網(wǎng)絡(luò)爬蟲(chóng)——深層網(wǎng)絡(luò)爬蟲(chóng),從系統(tǒng)功能角度來(lái)看,其主要??由表單處理器、表單填充與提交、主題分類(lèi)器、URL隊(duì)列、響應(yīng)結(jié)果分析、頁(yè)面??分析器、主題詞庫(kù)組成[9],系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖2.2所示。涉及到的數(shù)據(jù)結(jié)構(gòu)主要包??括URL隊(duì)列、填充表單數(shù)據(jù)源的主題詞庫(kù)
妒墾?宦畚模崳姡停粒櫻裕牛遙В櫻牐裕齲牛櫻桑櫻崳?過(guò)濾模塊、內(nèi)容分析器、倒排索引庫(kù)、評(píng)價(jià)模塊、頁(yè)面內(nèi)容數(shù)據(jù)庫(kù)、搜索策略處??理器、URL緩存共九個(gè)模塊組成[12],對(duì)應(yīng)的系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖2.3所示。??^?頁(yè)面?(??I?Tv?????I頁(yè)面內(nèi)容數(shù)據(jù)庫(kù)??頁(yè)面陡取橫塊??搜索策略處理器??內(nèi)容分析器? ̄|?URL緩存?f?狐隊(duì)列?f?r—??主歴詞????IR1.過(guò)濾挨塊?種子陳??i??f?索引庫(kù)?Q???評(píng)價(jià)模塊????圖2.3主題型網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)圖??2.1.4增量式網(wǎng)絡(luò)爬蟲(chóng)??增量式爬蟲(chóng)是一種以抓取保存的網(wǎng)頁(yè)內(nèi)容和鏈接為基礎(chǔ),只爬取網(wǎng)頁(yè)內(nèi)容發(fā)??生改變或新增的爬蟲(chóng)。其目標(biāo)就是保證當(dāng)前存儲(chǔ)內(nèi)容的質(zhì)量,以及與網(wǎng)絡(luò)頁(yè)面內(nèi)??容的一致性。為了實(shí)現(xiàn)內(nèi)容一致性,通常使用這三種策略,第一是所有爬蟲(chóng)以相??同的周期,訪問(wèn)URL消費(fèi)隊(duì)列中所有資源;第二是根據(jù)頁(yè)面內(nèi)容更新周期的大小,??分為不同區(qū)域的子集URL隊(duì)列,用不同的周期訪問(wèn)各個(gè)子集;第三是根據(jù)每個(gè)網(wǎng)??頁(yè)的更新周期,重新抓取各個(gè)頁(yè)面。為了提聞內(nèi)容的質(zhì)量,則需根據(jù)業(yè)務(wù)需求選??擇恰當(dāng)?shù)呐廊〔呗,?duì)網(wǎng)頁(yè)爬取順序做出排序。與其它類(lèi)爬蟲(chóng)相比,增量式網(wǎng)絡(luò)??爬蟲(chóng)以相應(yīng)的爬行策略實(shí)現(xiàn)了內(nèi)容去重
【參考文獻(xiàn)】:
期刊論文
[1]基于搜索引擎的中文歧義詞收集系統(tǒng)研究[J]. 吉向東. 現(xiàn)代情報(bào). 2010(06)
[2]基于統(tǒng)計(jì)語(yǔ)言模型的信息檢索[J]. 李曉光,王大玲,于戈. 計(jì)算機(jī)科學(xué). 2005(08)
[3]文本信息檢索中的概率模型[J]. 張文進(jìn). 情報(bào)雜志. 2005(03)
[4]信息檢索的概率模型[J]. 邢永康,馬少平. 計(jì)算機(jī)科學(xué). 2003(08)
碩士論文
[1]微博輿情可視化系統(tǒng)的研究與實(shí)現(xiàn)[D]. 黃冠華.江蘇大學(xué) 2016
[2]基于微博用戶(hù)行為的興趣模型構(gòu)建和可視化方法研究[D]. 何苾菲.哈爾濱工業(yè)大學(xué) 2013
[3]社會(huì)標(biāo)注中標(biāo)簽語(yǔ)義分析研究[D]. 吳曉芳.大連理工大學(xué) 2011
本文編號(hào):2905659
本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/2905659.html
最近更新
教材專(zhuān)著