在線社會網(wǎng)絡(luò)用戶的興趣主題分析與地理位置預(yù)測
發(fā)布時(shí)間:2020-07-24 07:57
【摘要】:隨著社會發(fā)展,人類的信息傳播活動越來越明顯地展示出分眾特征,對用戶的細(xì)致分類及預(yù)測成為信息傳播領(lǐng)域一個(gè)重要的研究課題。在社會網(wǎng)絡(luò)中,快速準(zhǔn)確地對用戶進(jìn)行分類,尋找相似的在線社會網(wǎng)絡(luò)用戶,預(yù)測受眾地理位置,對理解用戶特點(diǎn)、改善用戶體驗(yàn)、提高信息傳播效果等方面都具有重要的意義。本文研究用戶興趣主題分類、多屬性綜合相似用戶查找、視頻受眾地理位置預(yù)測,具體內(nèi)容如下:(1)提出了三種對微博用戶進(jìn)行分類的方法。①提出了基于信息內(nèi)容對微博用戶進(jìn)行分類的方法,首先使用LDA主題模型從信息內(nèi)容中提取每個(gè)用戶的主題分布作為特征值,然后采用支持向量機(jī)等模型對用戶進(jìn)行分類。②提出了基于粉絲拓?fù)潢P(guān)系對用戶分類的方法,首先依據(jù)我們所發(fā)現(xiàn)的具有相同興趣主題的用戶傾向于擁有共同粉絲這一關(guān)系,使用平均值法從粉絲交集中提取每個(gè)用戶的特征值,然后采用支持向量機(jī)等模型進(jìn)行分類。③提出了比較概率估計(jì)值和合并特征值兩種綜合方法,用這兩種綜合方法把上述基于信息內(nèi)容分類方法和基于粉絲拓?fù)潢P(guān)系分類方法的結(jié)果綜合起來,得到更準(zhǔn)確的分類結(jié)果。(2)提出基于直覺模糊集發(fā)現(xiàn)興趣、行為、個(gè)人信息等多個(gè)屬性綜合相似的用戶的方法。首先根據(jù)兩個(gè)用戶的某個(gè)屬性的差值,通過計(jì)算相似度和差異度,構(gòu)造出表示這個(gè)屬性相似程度的一個(gè)直覺模糊數(shù)。然后采用集成算子,根據(jù)每個(gè)屬性分別對應(yīng)的直覺模糊數(shù),計(jì)算得到表示多個(gè)屬性綜合相似程度的直覺模糊數(shù)。最后對每個(gè)表示綜合相似程度的直覺模糊數(shù),計(jì)算出它的得分值和精確度,并進(jìn)行排序。多個(gè)屬性綜合相似的用戶就是與得分值和精確度排名靠前者相對應(yīng)的用戶。(3)提出了基于k近鄰多標(biāo)簽分類的在線視頻受眾位置預(yù)測方法。首先把受眾位置預(yù)測轉(zhuǎn)換為多標(biāo)簽分類問題,在線視頻受眾位置預(yù)測即是預(yù)測視頻最受歡迎的地區(qū)排名,把在線視頻看作樣本,把受眾地區(qū)看作標(biāo)簽,則受眾位置預(yù)測問題即看成多標(biāo)簽分類問題。然后對經(jīng)典的k近鄰多標(biāo)簽分類方法ML-KNN進(jìn)行了兩點(diǎn)改進(jìn):①引入基于權(quán)重的樣本相似度測量方法,并給出了計(jì)算特征權(quán)重的方法;②設(shè)計(jì)了快速查找相似樣本的算法,提高了查找速度。在此基礎(chǔ)上,提出基于k近鄰多標(biāo)簽分類的受眾位置預(yù)測方法AL-KNN。這三部分的研究內(nèi)容,都使用了大規(guī)模的數(shù)據(jù)對研究的結(jié)果進(jìn)行了驗(yàn)證:對用戶興趣分類和相似用戶查找,使用了最具影響力的微博網(wǎng)絡(luò)Twitter的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證;對視頻受眾位置預(yù)測,使用了最流行的在線視頻分享網(wǎng)絡(luò)Youtube的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;G206
【圖文】:
2013年底,美國科技博客Business邋Insider?qū)θ蜃顬榱餍械脑诰社會網(wǎng)絡(luò)逡逑做了統(tǒng)計(jì)分析,排名最前面的15個(gè)在線社會網(wǎng)絡(luò)站點(diǎn)的月度活躍用戶數(shù)量都超逡逑過了邋1億⑴,如圖1-1所示。其中,用戶量最大的Facebook月度活躍用戶人數(shù)達(dá)逡逑到了邋11.5億,緊跟其后的YouTube月度活躍用戶人數(shù)為10億人,新浪微博和逡逑twitter分別為5億和2億。可以說,僅僅從用戶數(shù)量看,在線社會網(wǎng)絡(luò)也是人們逡逑不可忽視的領(lǐng)域,更不用說它還從速度、信息容量和形式上改變了人們的社交方逡逑式,對社會經(jīng)濟(jì)、政治和文化產(chǎn)生了巨大的影響。逡逑Largest邋Social邋Networks邋In邋The邋World逡逑Monthfy邋Active邋Users邋(Unless邋Noini邋Otherwfse}逡逑ym逡逑US9邋..:u?逡逑l.QOd逡逑103&逡逑Br邋iNTELLfGENCK逡逑:i邋.逡逑too逡逑.Ill逡逑圖1-1在線社會網(wǎng)絡(luò)用戶數(shù)量統(tǒng)計(jì)逡逑1.1.2在線社會網(wǎng)絡(luò)用戶特征分析逡逑在線社會網(wǎng)絡(luò)為人們提供了各種便捷的生活方式,最重要的是,比起社會網(wǎng)逡逑絡(luò)中社會關(guān)系的維持,建立和保持在線社會網(wǎng)絡(luò)中的人際聯(lián)系所需要的時(shí)間和精逡逑力要少的多,在這里,人們更傾向于保持一個(gè)更為廣泛的社會關(guān)系網(wǎng)絡(luò)。因此,逡逑這個(gè)體系也就擁有了越來越多的人的參與
圖1-2研究內(nèi)容的結(jié)構(gòu)圖逡逑論文的組織逡逑文共分為六個(gè)章節(jié)。逡逑一章為緒論,主要介紹本文選題的研究背景、動機(jī)、主要研究內(nèi)容安排。逡逑二章對本文所涉及的國內(nèi)外相關(guān)工作進(jìn)行介紹,給出了用戶興趣用戶、受眾位置預(yù)測等所涉及的研究領(lǐng)域的相關(guān)工作,以及介紹相識構(gòu)成了本文的研宄基礎(chǔ)。逡逑三章首先基于信息內(nèi)容對用戶按興趣進(jìn)行分類,然后分析用戶興撲關(guān)系,并基于這一分析對用戶按興趣進(jìn)行分類,最后綜合信息內(nèi)關(guān)系對用戶進(jìn)行分類。逡逑四章首先提出確定每種屬性的直覺模糊數(shù)的方法,然后給出基于
MySpace中用戶的宗教、國家、年齡等方面都表現(xiàn)出了明顯的同質(zhì)性。我們依據(jù)逡逑這些研究所得出的結(jié)果,假設(shè)微博中粉絲關(guān)系與其興趣偏好之間與存在同質(zhì)性,逡逑即具有相同興趣的用戶傾向于擁有共同的粉絲。圖3-1顯示了粉絲一致性假設(shè)的逡逑示例,節(jié)點(diǎn)al和a2為同一興趣類別的用戶,節(jié)點(diǎn)bl和cl為另外兩種不同興_邋.逡逑類別的用戶,節(jié)點(diǎn)fl到f9為粉絲用戶,兩個(gè)節(jié)點(diǎn)間的有向箭頭表示粉絲關(guān)系廣逡逑例如節(jié)點(diǎn)al和fl之間存在指向fl的箭頭表明fl為al的粉絲。在圖中實(shí)例即表逡逑現(xiàn)出了粉絲一致性假設(shè),即因?yàn)橛脩簦幔旌停幔簿哂泄餐呐d趣類別,所以他們的逡逑共同粉絲數(shù)量較多,包括f3、f5、f6和f7四個(gè)共同粉絲。而al和bl因?yàn)榫哂绣义喜煌呐d趣類別,所以他們的共同粉絲數(shù)量較少,包括fl和f4兩個(gè)共同粉絲,逡逑同時(shí)另外三組al和cl、a2和bl以及a2和cl同樣因?yàn)閷儆诓煌呐d趣類別,逡逑所以粉絲數(shù)量較小,其值小于等于2,明顯小于屬于同一興趣類別的al和a2的逡逑共同粉絲數(shù)量。逡逑33逡逑
本文編號:2768545
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;G206
【圖文】:
2013年底,美國科技博客Business邋Insider?qū)θ蜃顬榱餍械脑诰社會網(wǎng)絡(luò)逡逑做了統(tǒng)計(jì)分析,排名最前面的15個(gè)在線社會網(wǎng)絡(luò)站點(diǎn)的月度活躍用戶數(shù)量都超逡逑過了邋1億⑴,如圖1-1所示。其中,用戶量最大的Facebook月度活躍用戶人數(shù)達(dá)逡逑到了邋11.5億,緊跟其后的YouTube月度活躍用戶人數(shù)為10億人,新浪微博和逡逑twitter分別為5億和2億。可以說,僅僅從用戶數(shù)量看,在線社會網(wǎng)絡(luò)也是人們逡逑不可忽視的領(lǐng)域,更不用說它還從速度、信息容量和形式上改變了人們的社交方逡逑式,對社會經(jīng)濟(jì)、政治和文化產(chǎn)生了巨大的影響。逡逑Largest邋Social邋Networks邋In邋The邋World逡逑Monthfy邋Active邋Users邋(Unless邋Noini邋Otherwfse}逡逑ym逡逑US9邋..:u?逡逑l.QOd逡逑103&逡逑Br邋iNTELLfGENCK逡逑:i邋.逡逑too逡逑.Ill逡逑圖1-1在線社會網(wǎng)絡(luò)用戶數(shù)量統(tǒng)計(jì)逡逑1.1.2在線社會網(wǎng)絡(luò)用戶特征分析逡逑在線社會網(wǎng)絡(luò)為人們提供了各種便捷的生活方式,最重要的是,比起社會網(wǎng)逡逑絡(luò)中社會關(guān)系的維持,建立和保持在線社會網(wǎng)絡(luò)中的人際聯(lián)系所需要的時(shí)間和精逡逑力要少的多,在這里,人們更傾向于保持一個(gè)更為廣泛的社會關(guān)系網(wǎng)絡(luò)。因此,逡逑這個(gè)體系也就擁有了越來越多的人的參與
圖1-2研究內(nèi)容的結(jié)構(gòu)圖逡逑論文的組織逡逑文共分為六個(gè)章節(jié)。逡逑一章為緒論,主要介紹本文選題的研究背景、動機(jī)、主要研究內(nèi)容安排。逡逑二章對本文所涉及的國內(nèi)外相關(guān)工作進(jìn)行介紹,給出了用戶興趣用戶、受眾位置預(yù)測等所涉及的研究領(lǐng)域的相關(guān)工作,以及介紹相識構(gòu)成了本文的研宄基礎(chǔ)。逡逑三章首先基于信息內(nèi)容對用戶按興趣進(jìn)行分類,然后分析用戶興撲關(guān)系,并基于這一分析對用戶按興趣進(jìn)行分類,最后綜合信息內(nèi)關(guān)系對用戶進(jìn)行分類。逡逑四章首先提出確定每種屬性的直覺模糊數(shù)的方法,然后給出基于
MySpace中用戶的宗教、國家、年齡等方面都表現(xiàn)出了明顯的同質(zhì)性。我們依據(jù)逡逑這些研究所得出的結(jié)果,假設(shè)微博中粉絲關(guān)系與其興趣偏好之間與存在同質(zhì)性,逡逑即具有相同興趣的用戶傾向于擁有共同的粉絲。圖3-1顯示了粉絲一致性假設(shè)的逡逑示例,節(jié)點(diǎn)al和a2為同一興趣類別的用戶,節(jié)點(diǎn)bl和cl為另外兩種不同興_邋.逡逑類別的用戶,節(jié)點(diǎn)fl到f9為粉絲用戶,兩個(gè)節(jié)點(diǎn)間的有向箭頭表示粉絲關(guān)系廣逡逑例如節(jié)點(diǎn)al和fl之間存在指向fl的箭頭表明fl為al的粉絲。在圖中實(shí)例即表逡逑現(xiàn)出了粉絲一致性假設(shè),即因?yàn)橛脩簦幔旌停幔簿哂泄餐呐d趣類別,所以他們的逡逑共同粉絲數(shù)量較多,包括f3、f5、f6和f7四個(gè)共同粉絲。而al和bl因?yàn)榫哂绣义喜煌呐d趣類別,所以他們的共同粉絲數(shù)量較少,包括fl和f4兩個(gè)共同粉絲,逡逑同時(shí)另外三組al和cl、a2和bl以及a2和cl同樣因?yàn)閷儆诓煌呐d趣類別,逡逑所以粉絲數(shù)量較小,其值小于等于2,明顯小于屬于同一興趣類別的al和a2的逡逑共同粉絲數(shù)量。逡逑33逡逑
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 葛紅美;何炎祥;陳強(qiáng);徐超;;一種基于時(shí)間片的微博用戶分類方法[J];小型微型計(jì)算機(jī)系統(tǒng);2013年11期
2 李思男;李寧;李戰(zhàn)懷;;多標(biāo)簽數(shù)據(jù)挖掘技術(shù):研究綜述[J];計(jì)算機(jī)科學(xué);2013年04期
3 周雒維;管春;盧偉國;;多標(biāo)簽分類法在電能質(zhì)量復(fù)合擾動分類中的應(yīng)用[J];中國電機(jī)工程學(xué)報(bào);2011年04期
4 龔艷冰;丁德臣;何建敏;;一種基于直覺模糊集相似度的多屬性決策方法[J];控制與決策;2009年09期
5 姜遠(yuǎn);佘俏俏;黎銘;周志華;;一種直推式多標(biāo)記文檔分類方法[J];計(jì)算機(jī)研究與發(fā)展;2008年11期
6 李凡,徐章艷;Vague集之間的相似度量[J];軟件學(xué)報(bào);2001年06期
本文編號:2768545
本文鏈接:http://www.lk138.cn/xinwenchuanbolunwen/2768545.html
最近更新
教材專著