地學(xué)數(shù)據(jù)共享網(wǎng)用戶Web行為預(yù)測及數(shù)據(jù)推薦方法
發(fā)布時間:2019-12-03 03:38
【摘要】:網(wǎng)絡(luò)環(huán)境下,如何讓用戶快速發(fā)現(xiàn)所需數(shù)據(jù)是地學(xué)數(shù)據(jù)共享平臺長期面臨的挑戰(zhàn)之一。本文基于國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺網(wǎng)站服務(wù)器日志數(shù)據(jù)獲取用戶搜索行為及數(shù)據(jù)集訪問行為,使用聚類算法挖掘用戶行為模式,并基于會話聚類模式開發(fā)在線搜索和訪問預(yù)測算法。在數(shù)據(jù)預(yù)處理階段,對原始服務(wù)器日志數(shù)據(jù)進行清洗、用戶識別、用戶會話識別、搜索詞提取。在模式挖掘階段,采用DBSCAN算法對會話進行聚類?紤]到會話向量值的二元性,聚類算法中的距離采用Jaccard距離函數(shù)計算。視每個會話聚類包含的搜索詞集合為一個文本,所有用戶歷史搜索詞集合為語料庫,統(tǒng)計各聚類中搜索詞的TF-IDF值。在線搜索推薦,以搜索詞檢索各聚類中TF-IDF值,返回TF-IDF值最高的搜索詞所屬聚類,并給出該聚類的高頻項目作為推薦。在線訪問推薦,則以用戶實時訪問向量為查詢向量,計算該向量與聚類中心的聚類。根據(jù)聚類排序,給出距離最近的聚類,并產(chǎn)生該聚類中高頻項目作為推薦。實驗結(jié)果表明基于TF-IDF和聚類的搜索推薦有較高的準(zhǔn)確率和召回率,訪問推薦效果基于高頻統(tǒng)計的推薦有較大提高。研究可得出以下結(jié)論:(1)地學(xué)共享網(wǎng)用戶訪問和搜索行為體現(xiàn)了專業(yè)性的特點,其行為較普通網(wǎng)站用戶可預(yù)測性更好;(2)對于地學(xué)數(shù)據(jù)共享用戶行為預(yù)測,需明確定義用戶行為,并采用合適的距離函數(shù)描述行為相似性;(3)通過搜索詞TF-IDF值來預(yù)測用戶數(shù)據(jù)需求的方法可行,以此產(chǎn)生的推薦可作為搜索結(jié)果的補充。本研究可服務(wù)于地學(xué)領(lǐng)域數(shù)據(jù)共享平臺建設(shè),提高共享服務(wù)質(zhì)量,也可為其他領(lǐng)域科學(xué)數(shù)據(jù)共享提供技術(shù)方法借鑒。
本文編號:2569044
【相似文獻】
相關(guān)碩士學(xué)位論文 前2條
1 馬瑩瑩;微博用戶轉(zhuǎn)發(fā)行為及情感預(yù)測研究[D];哈爾濱工業(yè)大學(xué);2015年
2 王千;基于視頻的籃球持球隊員行為預(yù)測研究[D];中南大學(xué);2012年
,本文編號:2569044
本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/2569044.html
最近更新
教材專著