中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

微博會(huì)員流失預(yù)測(cè)

發(fā)布時(shí)間:2020-09-29 06:30
   隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,中國(guó)已經(jīng)進(jìn)入到互聯(lián)網(wǎng)時(shí)代,各個(gè)互聯(lián)網(wǎng)公司、企業(yè)已經(jīng)積累了TB級(jí)甚至PB級(jí)的用戶數(shù)據(jù),這些數(shù)據(jù)作為互聯(lián)網(wǎng)公司的巨大財(cái)富,加以利用,可以給公司有效節(jié)約成本、增加收入。因此如何挖掘出隱藏在數(shù)據(jù)中的某種規(guī)律,顯得十分重要。數(shù)據(jù)挖掘技術(shù)是是通過數(shù)學(xué)模型方法對(duì)數(shù)據(jù)進(jìn)行擬合,利用計(jì)算機(jī)技術(shù)去實(shí)現(xiàn)模型,最后反饋到業(yè)務(wù)實(shí)施建議上的技術(shù)。在客戶流失預(yù)測(cè)方面,有很多數(shù)據(jù)挖掘的分類算法可以有用武之地。本文針對(duì)國(guó)內(nèi)社交平臺(tái)新浪微博的會(huì)員數(shù)據(jù),利用數(shù)據(jù)挖掘中的分類預(yù)測(cè)算法,對(duì)會(huì)員流失進(jìn)行預(yù)測(cè);2015年4月2日至8日會(huì)員身份即將到期的26171位微博會(huì)員用戶的數(shù)據(jù),首先利用k-means聚類,選用用戶屬性和主動(dòng)行為數(shù)據(jù)作為特征,對(duì)用戶進(jìn)行細(xì)分,找出了價(jià)值較高的用戶群體。對(duì)于本文的不平衡樣本集,對(duì)樣本量較少的類別采用有放回重復(fù)抽樣的方法。然后選用70%的樣本作為訓(xùn)練集,利用邏輯回歸、決策樹C5.0、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型,對(duì)會(huì)員是否流失做出預(yù)測(cè),其中邏輯回歸在ROC曲線和提升圖上均表現(xiàn)地比決策樹C5.0要好。之后引入代價(jià)敏感學(xué)習(xí),對(duì)于將流失用戶預(yù)測(cè)為非流失會(huì)員用戶加大了代價(jià),改進(jìn)決策樹C5.0,預(yù)測(cè)出了流失用戶名單,用于企業(yè)挽留措施的目標(biāo)群體。
【學(xué)位單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2017
【中圖分類】:C81
【部分圖文】:

曲線,曲線,因變量,連接函數(shù)


因變量一般是連續(xù)變量,那么當(dāng)因變量是二?logistic 回歸就是這樣一個(gè)分類模型。性模型,一般不能應(yīng)用于分類問題上,二分設(shè)函數(shù)表達(dá)式為 ( ) = 數(shù)。值也是在( )范圍上的。那么怎么才能連接函數(shù),稱為 logistic 函數(shù),因其函數(shù)圖像tic 函數(shù)的表達(dá)式為: ( ) =

空值,數(shù)據(jù)質(zhì)量,對(duì)相,短信


北京理工大學(xué)碩士學(xué)位論文續(xù)表 3.5變量名 變量類型 變量說明 變量取值累計(jì)使用特權(quán)種類 離散 累計(jì)使用特權(quán)的種類 0~4短信特別關(guān)注人數(shù) 連續(xù) 短信特別關(guān)注人數(shù) 0~18是否使用短信特別關(guān)注 連續(xù) 短信特別關(guān)注人數(shù)不為 0 為使用,1 為使用 0,13.3 數(shù)據(jù)清洗從業(yè)務(wù)部門獲得的數(shù)據(jù)往往是一些臟數(shù)據(jù),對(duì)于建模還需對(duì)離群值、缺失值、極值等等進(jìn)行處理才能達(dá)到建模要求的數(shù)據(jù)質(zhì)量和形式。對(duì)于 26171 個(gè)會(huì)員數(shù)據(jù),先來看看數(shù)據(jù)質(zhì)量如何,spss modeler 里添加數(shù)據(jù)審核,得到完整字段的比例為 76.36%,完整記錄的比例為 68.95%。以三個(gè)標(biāo)準(zhǔn)差為離群值的話,有很多離群值和極值,且有很多缺失空值。

餅圖,樣本分布,餅圖


圖 3.2 樣本分布餅圖大部分樣本均為流失會(huì)員用戶,是一個(gè)不平衡樣本,這樣的樣本在采用欠抽樣或者過抽樣來減少樣本量差異對(duì)結(jié)果的影響。用戶的其他變量,可按照連續(xù)變量和離散變量來分析。續(xù)性變量的探索性分析大部分的變量均屬于連續(xù)型變量,如用戶的發(fā)博數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論可以先看一下這些會(huì)員的登陸情況,這樣可以反映他們上微博的活更好的直觀效果,30 天前的登陸天數(shù)每 5 天歸為一個(gè)登陸區(qū)間,

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 羅彬;邵培基;羅盡堯;劉獨(dú)玉;夏國(guó)恩;;基于多分類器動(dòng)態(tài)集成的電信客戶流失預(yù)測(cè)[J];系統(tǒng)工程學(xué)報(bào);2010年05期

2 肖進(jìn);賀昌政;;基于動(dòng)態(tài)分類器集成的客戶流失預(yù)測(cè)模型研究[J];預(yù)測(cè);2010年05期

3 夏國(guó)恩;;基于核主成分分析特征提取的客戶流失預(yù)測(cè)[J];計(jì)算機(jī)應(yīng)用;2008年01期

4 應(yīng)維云;覃正;趙宇;李兵;李秀;;SVM方法及其在客戶流失預(yù)測(cè)中的應(yīng)用研究[J];系統(tǒng)工程理論與實(shí)踐;2007年07期

5 葉進(jìn),程澤凱,林士敏;基于貝葉斯網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)分析[J];計(jì)算機(jī)工程與應(yīng)用;2005年14期

相關(guān)碩士學(xué)位論文 前5條

1 趙冬偉;基于數(shù)據(jù)挖掘的客戶流失預(yù)測(cè)研究[D];湘潭大學(xué);2012年

2 劉孝會(huì);基于決策樹算法的IT行業(yè)客戶流失預(yù)測(cè)技術(shù)研究[D];江西理工大學(xué);2011年

3 司學(xué)峰;基于數(shù)據(jù)挖掘的客戶流失預(yù)測(cè)實(shí)證研究[D];北京工業(yè)大學(xué);2009年

4 羅巧玲;面向客戶流失預(yù)測(cè)的關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用研究[D];河北工業(yè)大學(xué);2007年

5 程程;商業(yè)銀行高端個(gè)人客戶流失預(yù)測(cè)[D];清華大學(xué);2007年



本文編號(hào):2829366

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/tongjijuecelunwen/2829366.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶daaca***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com