基于交替最小二乘協(xié)同過(guò)濾算法的推薦系統(tǒng)
本文選題:推薦系統(tǒng) 切入點(diǎn):基于模型的協(xié)同過(guò)濾 出處:《北京交通大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:在當(dāng)今信息爆炸時(shí)代,Web是獲取任何信息的最佳來(lái)源或就某件事做出決策的重要途徑。人們?cè)谧龀瞿稠?xiàng)決定之前像購(gòu)買(mǎi)任何產(chǎn)品,預(yù)訂電影票等都或多或少受到來(lái)自Web推薦的影響。由此可見(jiàn),在這種情況下,推薦系統(tǒng)發(fā)揮重要作用。推薦系統(tǒng)已經(jīng)廣泛運(yùn)用在各個(gè)領(lǐng)域像電子商務(wù),電影,音樂(lè),搜索引擎和新聞網(wǎng)站等等。它的設(shè)計(jì)初衷就是基于用戶的長(zhǎng)期或短期喜好給它的所有注冊(cè)用戶和潛在用戶推薦符合他們自己興趣的產(chǎn)品,包括組合選擇。而這些用戶喜好可以分為顯式信息和隱式信息。由于隱式信息過(guò)于隱晦,需要推薦系統(tǒng)本身自發(fā)去收集和挖掘,而這些隱式信息往往存在于用戶過(guò)去的購(gòu)買(mǎi)記錄,用戶過(guò)去的瀏覽網(wǎng)站,用戶曾經(jīng)點(diǎn)擊的鏈接,瀏覽器cookies甚至地理位置信息。顯式信息就比隱式信息體現(xiàn)用戶的喜好顯著的多。顯式信息采用的是有效的反饋,比如說(shuō)購(gòu)買(mǎi)或使用過(guò)該項(xiàng)目后的一次用戶評(píng)分。綜上所述,我們就能將用戶喜好數(shù)據(jù)化表示成用戶評(píng)分記錄,以用戶-物品矩陣的形式存儲(chǔ)。協(xié)同過(guò)濾是推薦系統(tǒng)中眾所周知和最廣泛的技術(shù)之一,不僅在學(xué)術(shù)界得到了深入的研究,而且在工業(yè)界也有廣泛的應(yīng)用。其基本思想是根據(jù)用戶的偏好來(lái)預(yù)測(cè)用戶感興趣的項(xiàng)目。并且由于在電子商務(wù)中精準(zhǔn)推薦的出色表現(xiàn),該項(xiàng)技術(shù)已在該領(lǐng)域得到成熟的運(yùn)用。協(xié)同過(guò)濾算法可以簡(jiǎn)單分為兩類(lèi),一類(lèi)是基于近鄰的協(xié)同過(guò)濾算法,還有一類(lèi)是基于模型的協(xié)同過(guò)濾算法。一、基于近鄰的協(xié)同過(guò)濾算法。在這個(gè)算法中還需再細(xì)分,基于用戶的協(xié)同過(guò)濾算法和基于物品的協(xié)同過(guò)濾算法。他們的基本思想都是需充分運(yùn)用相似用戶或相似物品構(gòu)成的近鄰組合,去挖掘他們近鄰組合的信息來(lái)給近鄰組合的本體-被推薦的對(duì)象來(lái)進(jìn)行符合他的興趣物品推薦。在基于物品的協(xié)同過(guò)濾算法中,關(guān)于近鄰組合的定義是由不同用戶打分產(chǎn)生的有著相同或相似分?jǐn)?shù)的物品集合。然后系統(tǒng)推定用戶喜歡和他以前喜歡的東西相似的東西—近鄰集合,進(jìn)行打分。在基于用戶的協(xié)同過(guò)濾算法中,對(duì)于近鄰組合的定義是一組對(duì)同一個(gè)物品打分相同或類(lèi)似的用戶集合。該算法的主要思想是為了將有著相同或相似的興趣愛(ài)好的用戶聚集在一起。因?yàn)閷?duì)于一個(gè)物品,用戶甲是存在潛在可能性喜歡在過(guò)去記錄中有著相同或相似愛(ài)好的用戶乙喜歡的商品。鑒于該算法必須對(duì)所有用戶的所有商品的評(píng)分?jǐn)?shù)據(jù)進(jìn)行處理才能對(duì)單個(gè)用戶進(jìn)行預(yù)測(cè)推薦,所以該算法提出了嚴(yán)重的可擴(kuò)展性問(wèn)題。倘若存在海量的用戶、海量的項(xiàng)目以及海量的用戶對(duì)物品的評(píng)分記錄,此法不適合實(shí)時(shí)推薦系統(tǒng)。此外該法比推薦系統(tǒng)中的基于模型的協(xié)同過(guò)濾的推薦算法更加敏感。二、基于模型的協(xié)同過(guò)濾算法。不同于基于近鄰的協(xié)同過(guò)濾算法直接采用用戶評(píng)分矩陣來(lái)學(xué)習(xí)預(yù)測(cè)模型進(jìn)而產(chǎn)生推薦的方法,基于模型的協(xié)同過(guò)濾算法的模型建立過(guò)程是由不同的機(jī)器學(xué)習(xí)算法如貝葉斯網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)和奇異值分解進(jìn)行學(xué)習(xí)預(yù)測(cè)模型進(jìn)而給單個(gè)用戶產(chǎn)生推薦結(jié)果。例如在線系統(tǒng)需要高效可用性和低時(shí)延的響應(yīng)時(shí)間,因?yàn)樗鼈儽仨殔f(xié)同合作并快速處理來(lái)自所有用戶活動(dòng)所產(chǎn)生的數(shù)據(jù)流,進(jìn)而產(chǎn)生推薦結(jié)果。而所有這些過(guò)程都必須在用戶等待幾秒的時(shí)間里開(kāi)始并結(jié)束。因?yàn)橥扑]算法會(huì)選擇的最符合用戶興趣的物品,這當(dāng)然必須在用戶瀏覽網(wǎng)站時(shí)向用戶顯示。繼而就有需要服務(wù)的用戶數(shù)量越多,要推薦的商品越多,所產(chǎn)生的計(jì)算量繼而會(huì)隨之增大大,從而增加生成給每個(gè)用戶建議所需的時(shí)間。為了解決這個(gè)問(wèn)題,一些學(xué)者提出了一類(lèi)快速簡(jiǎn)單的基于模型的協(xié)同過(guò)濾算法,稱(chēng)為潛在因子模型。他們?cè)噲D確定解釋觀察到的用戶評(píng)分的相關(guān)特征,也被稱(chēng)為潛在因素。這些功能或者說(shuō)是潛在因素可以解釋為用戶的偏好和推薦的項(xiàng)目的特征。充分使用這些潛在因素,可以推斷出用戶的偏好,并為他或她推薦符合自己興趣的物品。而成功對(duì)潛在因素建模的關(guān)鍵技術(shù)是矩陣分解。由于基于模型的協(xié)同過(guò)濾算法它們結(jié)合了可擴(kuò)展性和預(yù)測(cè)準(zhǔn)確性,因此它們已經(jīng)在實(shí)時(shí)推薦系統(tǒng)中得到廣泛運(yùn)用。此外,基于模型的協(xié)同過(guò)濾算法它們對(duì)不同現(xiàn)實(shí)實(shí)際情況建模的靈活性提供了不同的建模方法。因?yàn)樗鼈冊(cè)试S并入附加信息,如隱含反饋,時(shí)間效應(yīng)和置信水平,這樣使得會(huì)優(yōu)于基于近鄰的協(xié)同過(guò)濾算法產(chǎn)生推薦結(jié)果?蓴U(kuò)展性和高性能也是一個(gè)推薦系統(tǒng)的重要指標(biāo),因?yàn)橛?jì)算的復(fù)雜度會(huì)隨用戶和物品的增多而有指數(shù)爆炸性增長(zhǎng)?紤]到推薦算法的效率,Map-Reduce的編程模型在對(duì)于機(jī)器學(xué)習(xí)的算法上并沒(méi)有體現(xiàn)出很好的優(yōu)勢(shì),原因在于機(jī)器學(xué)習(xí)的算法需要Map-Reduce編程框架隨著迭代的次數(shù)而不斷進(jìn)行在磁盤(pán)進(jìn)行讀寫(xiě)的I/O操作;谏鲜龅默F(xiàn)狀,Apache Spark提出了基于內(nèi)存的處理大數(shù)據(jù)的快速通用引擎。Spark是在Map-Reduce上發(fā)展而來(lái)的,保留了分布式并行計(jì)算的特點(diǎn)并改進(jìn)了 Map-Reduce的明顯缺陷。Spark是將中間數(shù)據(jù)保存在了內(nèi)存中,迭代運(yùn)算效率大大提高;其次Spark提出彈性分布式數(shù)據(jù)集RDD的抽象,達(dá)到了提高了自身對(duì)數(shù)據(jù)的容錯(cuò)性;最后,Spark對(duì)于數(shù)據(jù)集的操作沒(méi)有像Hadoop一樣只提供了 Map和reduce的操作。大致可以分為兩類(lèi),一類(lèi)是轉(zhuǎn)化(Transformations)操作,一類(lèi)是執(zhí)行(Actions)操作,對(duì)于使用者提供了很好的友好性。本文工作目標(biāo)是能夠充分運(yùn)用Spark自帶的機(jī)器學(xué)習(xí)庫(kù)構(gòu)建并實(shí)現(xiàn)基于最小二乘法的協(xié)同過(guò)濾系統(tǒng)。交替最小二乘算法(ALS)可以隨著數(shù)據(jù)量規(guī)模的增大而對(duì)其進(jìn)行并行和優(yōu)化處理。在現(xiàn)實(shí)數(shù)據(jù)中,用戶評(píng)分矩陣往往都是比較稀疏的,這給計(jì)算并推薦產(chǎn)生巨大的計(jì)算壓力,但交替最小二乘算法能克服這點(diǎn)。在實(shí)驗(yàn)中,本文會(huì)比較部署在Linux單節(jié)點(diǎn)和部署在Linux集群的推薦效果。實(shí)驗(yàn)中使用的數(shù)據(jù)集是MovieLens。本論文的貢獻(xiàn)如下:1)介紹了現(xiàn)有的基本推薦算法,比較了各個(gè)算法之間的優(yōu)缺點(diǎn)以及適應(yīng)的場(chǎng)景。結(jié)合自身工作的特點(diǎn),本文選取了適合自己的工作場(chǎng)景的協(xié)同過(guò)濾算法。2)本文根據(jù)大數(shù)據(jù)平臺(tái)Spark的實(shí)驗(yàn)要求,搭建了一個(gè)主節(jié)點(diǎn),兩個(gè)附節(jié)點(diǎn)的實(shí)驗(yàn)集群。各個(gè)節(jié)點(diǎn)安裝的操作系統(tǒng)版本是Ubuntu 16.04 LTS.1,使用HDFS存儲(chǔ)數(shù)據(jù)集并保存計(jì)算中的輸出結(jié)果,其中Hadoop的安裝版本是2.7.0,Spark快速通用大數(shù)據(jù)計(jì)算平臺(tái)安裝的版本是1.6.1.3)本文在Spark大數(shù)據(jù)處理平臺(tái)上使用Scala編程語(yǔ)言實(shí)現(xiàn)交替最小二乘算法(ALS)。實(shí)驗(yàn)中的數(shù)據(jù)集是來(lái)自電影領(lǐng)域的公開(kāi)發(fā)布的MovieLens數(shù)據(jù)集。首先,筆者了解了公開(kāi)MovieLens數(shù)據(jù)集的相關(guān)資料并為其找到最適合的ALS模型,換句話說(shuō),就是本文使用不同參數(shù)值的組合在公開(kāi)數(shù)據(jù)集MovieLens訓(xùn)練了交替最小二乘模型,進(jìn)而發(fā)現(xiàn)在測(cè)試集上具有較低均方根誤差(RMSE)的組合。充分使用訓(xùn)練出且優(yōu)化的參數(shù)來(lái)得到交替最小二乘法(ALS)模型。本文采用的實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)是根據(jù)測(cè)試集上的執(zhí)行時(shí)間和精度結(jié)果呈現(xiàn)實(shí)驗(yàn)結(jié)果的好壞。實(shí)驗(yàn)結(jié)果表明,通過(guò)使用Spark的MLlib庫(kù)實(shí)現(xiàn)的最佳匹配交替最小二乘模型展現(xiàn)了比較好的性能。該解決方案具有更好的性能。對(duì)于MovieLens數(shù)據(jù)集,測(cè)試集上的均方根誤差(RMSE)為0.800689025。本文還繼續(xù)在實(shí)驗(yàn)研究中增加了具有可擴(kuò)展性實(shí)驗(yàn),換句話說(shuō)就是在搭建的三臺(tái)機(jī)器的實(shí)驗(yàn)集群上運(yùn)行訓(xùn)練好的最佳參數(shù)交替最小二乘模型。本文作者發(fā)現(xiàn)結(jié)果非常有利于Spark,因?yàn)樽钚《朔?ALS)在大數(shù)據(jù)方面展現(xiàn)的計(jì)算加速能力十分可觀,結(jié)果就是采用MovieLens數(shù)據(jù)集在搭建的三臺(tái)機(jī)器的實(shí)驗(yàn)集群上的訓(xùn)練時(shí)間比在單節(jié)點(diǎn)上的訓(xùn)練時(shí)間上更快。一臺(tái)單節(jié)點(diǎn)計(jì)算機(jī)上的實(shí)驗(yàn)推薦的準(zhǔn)確度也令人滿意。
[Abstract]:......
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;電商推薦系統(tǒng)進(jìn)階[J];IT經(jīng)理世界;2013年11期
2 米可菲;張勇;邢春曉;蔚欣;;面向大數(shù)據(jù)的開(kāi)源推薦系統(tǒng)分析[J];計(jì)算機(jī)與數(shù)字工程;2013年10期
3 脫建勇;王嵩;李秀;劉文煌;;精品課共享中的推薦系統(tǒng)框架與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年17期
4 蘇冠賢;張麗霞;林丕源;劉吉平;;生物信息學(xué)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2007年05期
5 王改芬;;推薦系統(tǒng)研究綜述[J];軟件導(dǎo)刊;2007年23期
6 葉群來(lái);;營(yíng)銷(xiāo)與網(wǎng)絡(luò)推薦系統(tǒng)[J];電子商務(wù);2007年10期
7 李媚;;個(gè)性化網(wǎng)絡(luò)學(xué)習(xí)資源推薦系統(tǒng)研究[J];福建電腦;2008年12期
8 潘冉;姜麗紅;;基于經(jīng)濟(jì)學(xué)模型的推薦系統(tǒng)的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2008年03期
9 劉魯;任曉麗;;推薦系統(tǒng)研究進(jìn)展及展望[J];信息系統(tǒng)學(xué)報(bào);2008年01期
10 劉小燕;陳艷麗;賈宗璞;沈記全;;基于增強(qiáng)學(xué)習(xí)的旅行計(jì)劃推薦系統(tǒng)[J];計(jì)算機(jī)工程;2010年21期
相關(guān)會(huì)議論文 前8條
1 張燕;李燕萍;;基于內(nèi)容分析和點(diǎn)擊率記錄的混合音樂(lè)推薦系統(tǒng)[A];2009年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2009年
2 趙欣;寇綱;鄔文帥;盧艷群;;基于時(shí)間密集性的推薦系統(tǒng)攻擊檢測(cè)[A];第六屆(2011)中國(guó)管理學(xué)年會(huì)論文摘要集[C];2011年
3 張玉連;張波;張敏;;改進(jìn)的個(gè)性化信息推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年
4 王君;許潔萍;;層次音樂(lè)推薦系統(tǒng)的研究[A];第18屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2009)、第5屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2009)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2009)論文集[C];2009年
5 潘宇;林鴻飛;楊志豪;;基于用戶聚類(lèi)的電子商務(wù)推薦系統(tǒng)[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
6 尤忠彬;陳越;張英;朱揚(yáng)勇;;基于Web服務(wù)的技術(shù)轉(zhuǎn)移平臺(tái)推薦系統(tǒng)研究[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
7 王國(guó)霞;劉賀平;李擎;;二部圖影射及其在推薦系統(tǒng)中的應(yīng)用[A];第25屆中國(guó)控制與決策會(huì)議論文集[C];2013年
8 王雪;董愛(ài)華;吳怡之;;基于RFID技術(shù)的智能服裝推薦系統(tǒng)設(shè)計(jì)[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)重要報(bào)紙文章 前2條
1 ;大數(shù)據(jù)如何“落地”[N];中國(guó)新聞出版報(bào);2014年
2 本報(bào)記者 鄒大斌;大數(shù)據(jù):電商新武器[N];計(jì)算機(jī)世界;2012年
相關(guān)博士學(xué)位論文 前10條
1 周魏;推薦系統(tǒng)中基于目標(biāo)項(xiàng)目分析的托攻擊檢測(cè)研究[D];重慶大學(xué);2015年
2 田剛;融合維基知識(shí)的情境感知Web服務(wù)發(fā)現(xiàn)方法研究[D];武漢大學(xué);2015年
3 胡亮;集成多元信息的推薦系統(tǒng)建模方法的研究[D];上海交通大學(xué);2015年
4 孫麗梅;Web-based推薦系統(tǒng)中若干關(guān)鍵問(wèn)題研究[D];東北大學(xué);2013年
5 鄭麟;基于屬性提升與偏好集成的上下文感知推薦[D];武漢大學(xué);2017年
6 于鵬華;數(shù)據(jù)數(shù)量與質(zhì)量敏感的推薦系統(tǒng)若干問(wèn)題研究[D];浙江大學(xué);2016年
7 王宏宇;商務(wù)推薦系統(tǒng)的設(shè)計(jì)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年
8 楊東輝;基于情感相似度的社會(huì)化推薦系統(tǒng)研究[D];哈爾濱工業(yè)大學(xué);2014年
9 曹渝昆;基于神經(jīng)網(wǎng)絡(luò)和模糊邏輯的智能推薦系統(tǒng)研究[D];重慶大學(xué);2006年
10 王立才;上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 朱孔真;基于云計(jì)算的電子商務(wù)智能推薦系統(tǒng)研究[D];武漢理工大學(xué);2014年
2 郭敬澤;基于賦權(quán)評(píng)分和Dpark的分布式推薦系統(tǒng)研究與實(shí)現(xiàn)[D];天津理工大學(xué);2015年
3 周俊宇;信息推薦系統(tǒng)的研究與設(shè)計(jì)[D];江南大學(xué);2015年
4 李煒;基于電子商務(wù)平臺(tái)的保險(xiǎn)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年
5 車(chē)豐;基于排序主題模型的論文推薦系統(tǒng)[D];大連海事大學(xué);2015年
6 秦大路;基于因式分解機(jī)模型的上下文感知推薦系統(tǒng)研究[D];鄭州大學(xué);2015年
7 徐霞婷;動(dòng)態(tài)路網(wǎng)監(jiān)控與導(dǎo)航推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2015年
8 黃學(xué)峰;基于Hadoop的電影推薦系統(tǒng)研究與實(shí)現(xiàn)[D];南京師范大學(xué);2015年
9 路小瑞;基于Hadoop平臺(tái)的職位推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
10 李?lèi)?ài)寶;基于組合消費(fèi)行為分析的團(tuán)購(gòu)?fù)扑]系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
,本文編號(hào):1590103
本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/1590103.html