中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

面向Twitter的多用戶實(shí)例關(guān)系抽取技術(shù)研究

發(fā)布時間:2020-04-08 16:31
【摘要】:社交媒體網(wǎng)絡(luò)作為一種新型的互聯(lián)網(wǎng)信息交流平臺,在近幾年內(nèi)得到了迅猛地發(fā)展,越來越多的網(wǎng)民開始使用社交媒體分享信息,關(guān)注新聞時事,在以社交媒體為平臺的基礎(chǔ)上,構(gòu)建了龐大、復(fù)雜的社交關(guān)系網(wǎng)絡(luò)。通過對這些社交關(guān)系進(jìn)行分析和總結(jié),可以為社交媒體數(shù)據(jù)挖掘的研究提供高效結(jié)構(gòu)化的數(shù)據(jù)源,并發(fā)掘出巨大的商業(yè)價值,因此研究社交媒體中用戶之間的關(guān)系抽取具有重大意義。但由于社交媒體數(shù)據(jù)的復(fù)雜性和多樣性,社交媒體語料與傳統(tǒng)的新聞?wù)Z料相比,用戶關(guān)系特征提取更加困難,為解決這一問題,本文以Twitter這一具有代表性的網(wǎng)絡(luò)平臺作為對象,研究面向Twitter的多用戶實(shí)例關(guān)系抽取技術(shù),并提出一種基于分段卷積神經(jīng)網(wǎng)絡(luò)的深層網(wǎng)絡(luò)模型,通過利用殘差網(wǎng)絡(luò)的特性對模型進(jìn)行改進(jìn),提高關(guān)系抽取的性能。此外,由于社交媒體關(guān)系抽取數(shù)據(jù)集較少,為構(gòu)造充足的實(shí)驗數(shù)據(jù)集,本文還提出一種多通道數(shù)據(jù)采集框架,實(shí)現(xiàn)對Twitter數(shù)據(jù)的高效采集,并結(jié)合其數(shù)據(jù)特性,對數(shù)據(jù)進(jìn)行噪聲濾除和用戶實(shí)例抽取,利用詞向量技術(shù)對處理后的數(shù)據(jù)進(jìn)行文本表示,將其轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)可以計算處理的數(shù)據(jù)格式,從而利用模型實(shí)現(xiàn)用戶關(guān)系抽取。最后在上述工作基礎(chǔ)上,設(shè)計并實(shí)現(xiàn)了Twitter的用戶實(shí)例關(guān)系抽取系統(tǒng)。本文的主要工作如下:(1)實(shí)現(xiàn)了高效的Twitter數(shù)據(jù)采集。通過對Twitter數(shù)據(jù)采集技術(shù)的調(diào)研,根據(jù)實(shí)驗需求與應(yīng)用場景的需要,提出一種Twitter API與網(wǎng)頁爬蟲相結(jié)合的多通道采集框架。為保證數(shù)據(jù)源的多樣性并解決采集受限的問題,提出了面向不同數(shù)據(jù)范圍的采集策略,包括:基于特定用戶的采集、基于關(guān)鍵詞搜索的采集、實(shí)時采集等,保證了數(shù)據(jù)采集的高效性。(2)根據(jù)Twitter數(shù)據(jù)的特性,提出一種面向Twitter的多用戶實(shí)例關(guān)系抽取模型,該模型通過對采集到的數(shù)據(jù)進(jìn)行噪聲濾除與用戶實(shí)例抽取迭代,構(gòu)造出適合實(shí)驗訓(xùn)練和測試的樣本,在此基礎(chǔ)上利用殘差網(wǎng)絡(luò)特性構(gòu)造深度卷積網(wǎng)絡(luò)模型,從而優(yōu)化關(guān)系抽取的性能,經(jīng)實(shí)驗表明,該模型在Twitter數(shù)據(jù)集中關(guān)系抽取的準(zhǔn)確率與召回率均具有不錯的效果。(3)設(shè)計并實(shí)現(xiàn)了面向Twitter的多用戶實(shí)例關(guān)系抽取系統(tǒng),該系統(tǒng)主要分為:數(shù)據(jù)采集模塊、多用戶實(shí)例關(guān)系抽取模塊、結(jié)果展示模塊。系統(tǒng)功能主要包括:Twitter數(shù)據(jù)采集與存儲、Twitter數(shù)據(jù)噪聲濾除、Twitter用戶實(shí)例抽取迭代、用戶關(guān)系抽取與存儲、關(guān)系抽取結(jié)果展示等。經(jīng)測試,該系統(tǒng)具有較好的性能,展示界面簡單便捷,適用于實(shí)際的Twitter用戶關(guān)系抽取。
【圖文】:

數(shù)據(jù)格式,對象


發(fā)布推文的用戶等內(nèi)容,獲取到的 status 對象的部分格式內(nèi)容如下圖 3.1所示:圖3.1空status 對象的數(shù)據(jù)格式由圖可知,status 對象中存在很多與本推文相關(guān)的字段,但對于用戶實(shí)例關(guān)系抽取任務(wù)來說,只需要重點(diǎn)獲得發(fā)布推文用戶(screen_name),推文正文(text)等字段即可,因此需要訪問 status 對象中相應(yīng)的屬性來獲取,并構(gòu)造成合適的數(shù)據(jù)格式,存入數(shù)據(jù)庫中以便后續(xù)實(shí)驗處理。3.2.2 網(wǎng)頁爬蟲采集技術(shù)由于官方 API 的采集限制,在獲取制定用戶主頁推文時,每次調(diào)用接口僅能采集到 200 條推文數(shù)據(jù),并且接口調(diào)用次數(shù)也有上限,為了能夠一次性抓取足量的 Twitter數(shù)據(jù)

頁面,頭像,節(jié)點(diǎn),模板


并利用 echarts 工具實(shí)現(xiàn)頁面繪制,從而構(gòu)建可視化關(guān)系網(wǎng)絡(luò)圖,其整體系統(tǒng)展示結(jié)果如下圖 5.4 所示:圖5.4空系統(tǒng)頁面展示圖界面設(shè)計所使用的模板為 echarts 的 graph 模板,該模板可以繪制網(wǎng)絡(luò)關(guān)系圖譜。系統(tǒng)的展示界面通過讀取數(shù)據(jù)庫中存儲的用戶相關(guān)信息構(gòu)成的 json 格式數(shù)據(jù),作為節(jié)點(diǎn)信息,將采集下載獲得的 twitter 用戶頭像文件以用戶的 screen_name 作為文件名,,其文件路徑添加到相應(yīng)的節(jié)點(diǎn)信息中,并在路徑前加入“image://”的字樣,這樣可以讓網(wǎng)絡(luò)圖中的節(jié)點(diǎn)顯示為各個用戶的 Twitter 頭像,之后將用戶的 screen_name 作為節(jié)點(diǎn)名稱,用于在界面中標(biāo)明不同節(jié)點(diǎn)所代表的 Twitter 用戶,最終形成網(wǎng)絡(luò)關(guān)系圖譜的節(jié)點(diǎn)數(shù)據(jù)。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張婷;;Twitter幫出海品牌講好故事[J];現(xiàn)代廣告;2019年13期

2 楊欣怡;;西方報紙對社交媒體Twitter的運(yùn)用[J];學(xué)理論;2014年24期

3 龍君;;Twitter在大學(xué)英語大班教學(xué)中的應(yīng)用[J];長春理工大學(xué)學(xué)報(社會科學(xué)版);2012年02期

4 梁少林;于貴;;基于Twitter的非正式學(xué)習(xí)研究[J];軟件導(dǎo)刊(教育技術(shù));2011年09期

5 李朋飛;李園園;郝建英;;基于Twitter(微博)的非正式學(xué)習(xí)探究[J];中國科教創(chuàng)新導(dǎo)刊;2011年25期

6 秦海龍;劉挺;;新浪微博與Twitter的特性對比研究[J];智能計算機(jī)與應(yīng)用;2018年04期

7 李冰;湯嫣;張梓軒;;主流媒體國際傳播的新特點(diǎn)——以新華社Twitter兩會報道為例[J];新聞與寫作;2015年05期

8 楊蕾;;對比Twitter,新浪微博有更大潛力[J];人民文摘;2014年05期

9 吳鼎銘;;西方新聞傳播學(xué)關(guān)于新媒體與社會運(yùn)動的研究現(xiàn)狀——兼論“Twitter革命”[J];福建師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2013年04期

10 ;新浪微博:Twitter的中國式推進(jìn)[J];商界(評論);2012年06期

相關(guān)會議論文 前7條

1 曹鵬;李靜遠(yuǎn);滿彤;劉悅;程學(xué)旗;;Twitter中近似重復(fù)消息的判定方法研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

2 易紅發(fā);肖明;彭繼春;寇嬌;;Twitter英文用戶眼中的中國(2006-2013)——基于主題建模和情感分析的探索[A];2014中國傳播論壇:“國際話語體系與國際傳播能力建設(shè)”研討會會議論文集[C];2014年

3 黃蘆雷婭;畢雪梅;甘露露;;基于Twitter平臺的中國電子競技俱樂部“影響力圈層”效應(yīng)研究[A];第十一屆全國體育科學(xué)大會論文摘要匯編[C];2019年

4 ;Twitter換帥 華爾街怎么看?[A];2015年國際貨幣金融每日綜述選編[C];2015年

5 薩支欣;;微博客與圖書館[A];福建省圖書館學(xué)會2011年學(xué)術(shù)年會論文集[C];2011年

6 溫俊偉;;面向Twitter的分析系統(tǒng)研究[A];第31次全國計算機(jī)安全學(xué)術(shù)交流會論文集[C];2016年

7 朱元錕;;Twitter在教學(xué)中的應(yīng)用初探[A];計算機(jī)與教育:理論、實(shí)踐與創(chuàng)新——全國計算機(jī)輔助教育學(xué)會第十四屆學(xué)術(shù)年會論文集[C];2010年

相關(guān)重要報紙文章 前4條

1 記者 關(guān)健;三指標(biāo)透視微博:市值半年兩度超越Twitter[N];第一財經(jīng)日報;2017年

2 胡若愚;美國被疑借Twitter插手伊朗選舉爭端[N];新華每日電訊;2009年

3 本報記者 申海洋;Twitter將登陸紐交所 新浪微博稱“有自己的路”[N];民營經(jīng)濟(jì)報;2013年

4 本報見習(xí)記者 陳煒;Twitter股價暴跌超20% 美國社交平臺陷流量瓶頸[N];證券日報;2018年

相關(guān)博士學(xué)位論文 前1條

1 唐李洋;基于社交媒體大數(shù)據(jù)的Twitter營銷策略研究[D];合肥工業(yè)大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 唐韻;2016年Twitter英文臺灣話題傳播特征研究[D];上海交通大學(xué);2018年

2 孫浩楠;面向Twitter的多用戶實(shí)例關(guān)系抽取技術(shù)研究[D];西安電子科技大學(xué);2019年

3 朱斌;基于改進(jìn)的Multi-Channel CNN-LSTM模型在Twitter文本情感分析中的應(yīng)用[D];河南大學(xué);2019年

4 時聰;基于話題的Twitter用戶影響力分析[D];國防科學(xué)技術(shù)大學(xué);2016年

5 張少群;基于Twitter的情緒傳染現(xiàn)象研究[D];福州大學(xué);2016年

6 朱文君;Twitter情感分類及可視化的研究[D];武漢理工大學(xué);2013年

7 高敬文;Twitter生態(tài)圈產(chǎn)品設(shè)計變遷的調(diào)研報告[D];復(fù)旦大學(xué);2013年

8 侯娜咪;Twitter網(wǎng)微博客傳播特征的研究[D];首都體育學(xué)院;2012年

9 顧貝琰;評價理論視角下Twitter語篇的態(tài)度意義研究[D];上海外國語大學(xué);2017年

10 吳建偉;面向Twitter信息的機(jī)構(gòu)名消歧技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2012年



本文編號:2619573

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2619573.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶69276***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com