大規(guī)模中文搜索引擎的用戶日志分析
本文關(guān)鍵詞:大規(guī)模中文搜索引擎的用戶日志分析,由筆耕文化傳播整理發(fā)布。
高級搜索殷勤的論文
華南理工大學(xué)學(xué)報(自然科學(xué)版)
第32卷增刊
2004年11月
JourIlalofSoumChinaUniversity0fTechnology
(NatllmlscienceEdmon)
vol_32November
suppl2004
丈章編號:1000一565x(2004)s一000l—05
大規(guī)模中文搜索引擎的用戶日志分析
王繼民
陳種
彭
波
(北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京100871)
摘要:北大“天網(wǎng)”是一個大規(guī)模分布式搜索引擎系統(tǒng).文中對其用戶日志進行了分析和研究.結(jié)果顯示:用戶對系統(tǒng)的訪問時間并不均等,一天中早晨、下午和晚上各出現(xiàn)一個波峰;通常用戶在一天內(nèi)只進行l一2次內(nèi)容不同的查詢,多于2/3的用戶點擊了結(jié)果頁面中的某些罔址(uRL);多數(shù)用戶輸入的查詢串中只含有一個詞項并且包含中文字符,,其中以2—4個漢字居多;用戶查看結(jié)果頁面的時間大約是2~3min;只有少數(shù)用戶查看歷史網(wǎng)頁(或稱網(wǎng)頁快照).用戶日志中不同查詢串、不同用戶和點擊不同uRL的數(shù)量滿足He。蠖桑
關(guān)鍵詞:搜索引擎;用戶目志;用戶行為;Heaps定律
中圖分類號:TP393文獻標識碼:A
www搜索引擎是一種web上的應(yīng)用軟件系統(tǒng)。它以一定的策略在web上發(fā)現(xiàn)和收集信息,對信息進行組織和處理,為用戶提供web信息查詢服務(wù).目前搜索引擎已經(jīng)成為繼email之后人們用得最多的網(wǎng)上信息眼務(wù)系統(tǒng).
搜索引擎的工作原理來源于信息檢索(IR)的
中文用戶日志的分析和研究相對較少,而中英文兩種語言具有一定的差異,如英文句子由若干個用空格分開的單詞組成,中文則是由連續(xù)的漢字字符組成.這些差異在搜索引擎的使用上有什么樣的差異呢?王建勇等”1基于北大天網(wǎng)1999年4~6月的用戶日志分析得到:用戶查詢串的分布具有明顯的局部性。查詢串的出現(xiàn)過程具有自相似性特征,據(jù)此設(shè)計了系統(tǒng)的查詢緩存,并比較了FIF0,LRu及帶衰減的LFu等三種cache替換策略.本文是對該項研究工作的補充和擴展,試圖解答:中文用戶輸入的查詢串中包含多少個詞項?有多大比例的查詢串包含中文字符?用戶查看結(jié)果頁面的時間大概有多
理論,但其用戶的檢索行為與傳統(tǒng)的珉系統(tǒng),如在
線數(shù)據(jù)庫(OLDB)、光盤檢索(CD—RoM)、聯(lián)機公共檢索目錄(oPAc)等,存在很大的差異…,如用戶的并發(fā)訪問量比較大,查詢內(nèi)容比較寬泛,用戶的查詢不需要任何領(lǐng)域知識等.搜索gl擎的用戶日志一般分為用戶查詢?nèi)罩竞陀脩酎c擊日志(有的系統(tǒng)也合在一起)兩類,它們分別在用戶進行查詢和點擊時由系統(tǒng)自動記錄.
長?用戶對系統(tǒng)的訪問時間是如何分布的?如何根
據(jù)日志中用戶的訪問量估計不同查詢串、不同用戶量和點擊不同uRL的數(shù)量?
對搜索引擎使用記錄進行挖掘,發(fā)現(xiàn)用戶的行
為規(guī)律,可以有效地改善和提高搜索引擎系統(tǒng)的性能.目前,對英文搜索引擎如Al協(xié)Vista,Exc恤等用戶日志的統(tǒng)計分析已有一些研究成果”“’.但針對
1數(shù)據(jù)準備
北大天網(wǎng)搜索引擎”1于1997年10月正式在cEItNErr上為廣大用戶提供web信息導(dǎo)航服務(wù),目
收稿日期:2004一oB~30
+基金項目:國家973計劃資助項目(G1999032706)作者簡介:王繼民(1966一),男,北京大學(xué)博士后,蘭州大學(xué)信息科學(xué)與工程學(xué)院教授,主要從事網(wǎng)絡(luò)與分布式系統(tǒng)以及web挖掘的研究.E.m蚰:wjm@nct
pku,edu.cn
前已成為國內(nèi)最好的公益性搜索引擎.到2004年初天網(wǎng)搜集系統(tǒng)已搜集到國內(nèi)靜態(tài)網(wǎng)頁2.58億個(不包括通過提交查詢詞動態(tài)生成的網(wǎng)頁),平均每天用戶進行20余萬次查詢。用戶點擊記錄lO余萬次.
萬方數(shù)據(jù)
本文關(guān)鍵詞:大規(guī)模中文搜索引擎的用戶日志分析,由筆耕文化傳播整理發(fā)布。
本文編號:93609
本文鏈接:http://lk138.cn/kejilunwen/sousuoyinqinglunwen/93609.html