面向社會化媒體用戶評論行為的屬性推斷
本文關(guān)鍵詞:面向社會化媒體用戶評論行為的屬性推斷 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 社會化媒體 屬性推斷 語義分析 用戶行為 概率特征選擇
【摘要】:社會化媒體平臺是指為用戶提供評論、投票、反饋、分享等功能的在線媒體,像鳳凰網(wǎng)等新聞網(wǎng)站、亞馬遜和淘寶等電商網(wǎng)站、豆瓣等電影評論網(wǎng)站。用戶網(wǎng)絡(luò)評論是社會輿論的一種表現(xiàn)形式,具有公開性和可用性特點,群體意見為其他用戶在決定購買產(chǎn)品或使用服務(wù)的時候提供了參考。理解用戶評論行為進行屬性推斷,可以幫助企業(yè)、機構(gòu)、政府等提高服務(wù)質(zhì)量,用于個性化推薦、市場營銷等,具有重要應(yīng)用價值。然而社會化媒體用戶多為匿名身份,其評論行為數(shù)據(jù)具有碎片化、信息價值含量低和不平衡的特點,且用戶群體的屬性分布嚴重不均衡,這些問題給用戶屬性推斷帶來挑戰(zhàn)。針對用戶評論行為數(shù)據(jù)分布不平衡、噪音和碎片化的問題,本文引入客體信息、環(huán)境信息,作為對用戶評論行為數(shù)量少的補充信息,輔助用戶特征建模;結(jié)合基于語義知識庫的層次化語義建模方法和基于詞向量模型學(xué)習(xí)詞向量的文本挖掘方法深度挖掘用戶評論,分別從全局的角度和局部的角度消除詞語歧義帶來的不良影響,并保留評論中潛在的語義關(guān)系,從而達到深度挖掘用戶評論潛在的語義特征的目的。針對建模后的用戶特征維度大,碎片化數(shù)據(jù)價值含量低等問題,基于信息增益度量特征重要性,提出兩種代表性概率特征篩選算法的改進策略:概率包裹式特征選擇算法和啟發(fā)式概率特征搜索算法,分別在分類學(xué)習(xí)前和迭代式學(xué)習(xí)過程中進行概率特征選擇,既保留了重要特征信息,也給低價值特征提供小概率選擇機會,篩選密切相關(guān)特征,以降低搜索空間,提高收斂速度和學(xué)習(xí)效果。針對用戶屬性不均衡問題,提出了面向小比例類型數(shù)據(jù)的差異性特征選擇和迭代式增強學(xué)習(xí)算法,集成多個特征相關(guān)的分類器,考慮不同特征組合和分類器適用性的同時,使得集成之后的分類器注重更容易分錯的小比例類型數(shù)據(jù)的學(xué)習(xí),能夠有效提高用戶屬性分類學(xué)習(xí)的準確率。分別使用真實的中文和英文數(shù)據(jù)集驗證本文方法,包括不同的行為建模方式和特征篩選方法對屬性推斷的影響,以及不同參數(shù)和用戶屬性分布不平衡問題對屬性推斷的影響,并和其他方法進行了對比,實驗結(jié)果表明本文方法的有效性。
[Abstract]:Social media platforms are online media that provide comments, voting, feedback, sharing and other functions to users, news sites like Phoenix New Media, e-commerce sites such as Amazon and Taobao. Douban and other movie review sites. User network review is a form of public opinion, with the characteristics of openness and usability. Group views provide reference for other users when deciding to buy products or use services. Understanding user comment behavior and attribute inference can help enterprises, institutions, governments and so on to improve the quality of service. For personalized recommendation, marketing and so on, it has important application value. However, social media users are mostly anonymous identity, its comment behavior data has the characteristics of fragmentation, low information value content and imbalance. And the distribution of user group attributes is seriously uneven, which brings challenges to user attribute inference. In view of the imbalance of user comment behavior data distribution, noise and fragmentation, this paper introduces object information. Environmental information, as the supplementary information to the user's comment behavior, helps to model the user's characteristics. Combining the hierarchical semantic modeling method based on semantic knowledge base and the text mining method based on word vector model learning word vector, deeply mining user comments. From a global perspective and a local perspective to eliminate the negative impact of word ambiguity and retain the potential semantic relationship in the commentary. In order to achieve the purpose of mining the potential semantic features of user comments in depth, aiming at the problems of large dimension of user features and low value content of fragmented data after modeling, the importance of feature is measured based on information gain. This paper proposes two improved strategies of representative probability feature selection algorithm: probabilistic parcels feature selection algorithm and heuristic probabilistic feature search algorithm. Probabilistic feature selection is carried out before and during iterative learning, which not only preserves important feature information, but also provides small probability selection opportunities for low-value features and screening closely related features. In order to reduce the search space, improve the convergence speed and learning effect. Aiming at the problem of user attribute imbalance, this paper proposes a new feature selection and iterative reinforcement learning algorithm for small scale data. By integrating multiple feature related classifiers and considering the applicability of different feature combinations and classifiers, the ensemble classifiers focus on the learning of small scale data that are more easily error-separated. It can effectively improve the accuracy of user attribute classification learning. The real Chinese and English datasets are used to verify the effects of different behavioral modeling methods and feature filtering methods on attribute inference. The effect of different parameters and the imbalance of user attribute distribution on attribute inference is also discussed and compared with other methods. The experimental results show that the proposed method is effective.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 張雪超;;社會化媒體的營銷潛能[J];互聯(lián)網(wǎng)天地;2010年06期
2 宋安;;不要對社會化媒體危機望而卻步[J];廣告大觀(綜合版);2011年03期
3 吳劍敏;;社會化媒體在政府中的應(yīng)用[J];企業(yè)導(dǎo)報;2011年08期
4 趙苑君;;社會化媒體的品牌營銷[J];信息通信;2011年03期
5 肖瑞;;淺談社會化媒體的作用[J];教育理論與實踐;2011年30期
6 付玉輝;;社會化媒體:未來的確定性和不確定性[J];互聯(lián)網(wǎng)天地;2011年09期
7 鄧煜;唐大麟;于夢;;社會化媒體時代的品牌營銷之道[J];現(xiàn)代營銷(學(xué)苑版);2011年11期
8 ;探尋社會化媒體的價值[J];廣告大觀(綜合版);2012年01期
9 王莉莉;;社會化媒體:廣告主的雙刃劍[J];廣告大觀(綜合版);2012年01期
10 陳東;;社會化媒體孵化“微博營銷公司”?[J];廣告大觀(綜合版);2012年01期
相關(guān)會議論文 前6條
1 王嵐;;利用社會化媒體進行新媒體內(nèi)容傳播[A];中國新聞技術(shù)工作者聯(lián)合會2013年學(xué)術(shù)年會、五屆五次理事會暨第六屆“王選新聞科學(xué)技術(shù)獎”和優(yōu)秀論文獎頒獎大會論文集(廣電篇)[C];2013年
2 呂天鶴;;論社會化媒體對科層制的沖擊——以微博為例[A];“傳播與中國·復(fù)旦論壇”(2013)——網(wǎng)絡(luò)化關(guān)系:新傳播與當下中國論文集[C];2013年
3 李艷麗;;社會化媒體在體育產(chǎn)業(yè)中的應(yīng)用現(xiàn)狀與發(fā)展策略研究[A];2013體育計算機應(yīng)用論文集[C];2013年
4 華迎;王永貴;李兵;;社會化媒體中用戶創(chuàng)造內(nèi)容(UGC)采納行為影響因素研究[A];2013中國信息經(jīng)濟學(xué)會學(xué)術(shù)年會暨博士生論壇論文集[C];2013年
5 劉濤;楊有慶;;社會化媒體與都市空間的社會化表征[A];“傳播與中國·復(fù)旦論壇”(2012)——可溝通城市:理論建構(gòu)與中國實踐論文集[C];2012年
6 信莉麗;莊嚴;;美聯(lián)社微博新聞本土化研究[A];2014中國傳播論壇:“國際話語體系與國際傳播能力建設(shè)”研討會會議論文集[C];2014年
相關(guān)重要報紙文章 前10條
1 本報記者 胡海波 編譯;社會化媒體:危機公關(guān)的利器[N];中國民航報;2011年
2 楊吉;社會化媒體對企業(yè)意味著什么[N];上海證券報;2013年
3 楊吉;社會化媒體對企業(yè)意味著什么[N];中華讀書報;2013年
4 楊吉 法學(xué)博士 浙江傳媒學(xué)院互聯(lián)網(wǎng)與社會研究中心秘書長;社會化媒體企業(yè)意味著什么[N];中國圖書商報;2013年
5 本報記者 周婷;社會化媒體掀起營銷浪潮[N];中國證券報;2010年
6 祝華新;社會化媒體:社會管理新挑戰(zhàn)[N];人民政協(xié)報;2011年
7 本報記者 李延生;借力社會化媒體[N];中國企業(yè)報;2011年
8 記者 李思;社會化媒體“遍地開花”[N];上海金融報;2011年
9 任沁沁 胡雅婷;夢想成真,社會化媒體正在融入生活[N];新華每日電訊;2012年
10 上海社科院信息研究所知識管理研究中心主任、副研究員 王興全;“數(shù)字化野火”:風險與治理[N];文匯報;2013年
相關(guān)博士學(xué)位論文 前10條
1 趙宇翔;社會化媒體中用戶生成內(nèi)容的動因與激勵設(shè)計研究[D];南京大學(xué);2011年
2 丁方舟;中國網(wǎng)絡(luò)行動的動因、過程與影響[D];浙江大學(xué);2015年
3 姚遠;面向社會化媒體的用戶生成內(nèi)容推薦技術(shù)研究[D];南京大學(xué);2015年
4 朱文龍;社會化媒體調(diào)查的適用性與模式效果研究[D];電子科技大學(xué);2014年
5 劉欣;面向社會化媒體的內(nèi)容推薦若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2015年
6 瞿旭晟;互聯(lián)網(wǎng)平臺上的知識生產(chǎn)[D];復(fù)旦大學(xué);2010年
7 陰紅志;社會化媒體中若干時空相關(guān)的推薦問題研究[D];北京大學(xué);2014年
8 潘p,
本文編號:1411769
本文鏈接:http://www.lk138.cn/guanlilunwen/yingxiaoguanlilunwen/1411769.html