面向商品的垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【圖文】:
圖2-1邋Simhash流程圖逡逑Figure邋2-1邋Flow邋Chart邋of邋Simhash逡逑詞:第一步就是給句子進(jìn)行分詞,接下來(lái)給每一個(gè)詞加上權(quán)重,越高。權(quán)重設(shè)置了五個(gè)等級(jí),分別用數(shù)值1?5表示,數(shù)字越“全面屏改變的不僅僅是信息呈現(xiàn)”,分詞后為“全面屏(5)改僅(2)是(1)信息(4)呈現(xiàn)(2)”,括號(hào)里是代表單詞的重希:通過(guò)哈希算法把每個(gè)詞變成哈希值,比如“全面屏”通過(guò)0101,“信息”通過(guò)Hash算法計(jì)算為101011。這樣每個(gè)詞語(yǔ)就我們進(jìn)行相似度計(jì)算打下了很好的基礎(chǔ)。逡逑:通過(guò)步驟二的哈希生成結(jié)果,需要按照單詞的權(quán)重形成加權(quán)屏”的哈希值為“110010”,通過(guò)加權(quán)計(jì)算為“5邋5邋-5邋-5邋5邋-5”,h值為“100100”,通過(guò)加權(quán)計(jì)算為“3邋-3邋-3邋3邋-3邋-3”。逡逑:把上面各個(gè)單詞算出來(lái)的序列值累加,變成只有一個(gè)序列的“5邋5邋-5邋-5邋5邋-5”,“改變”的“3-3-3邋3-3-3”,把每一位進(jìn)
的數(shù)據(jù)是海量的這一特點(diǎn),我們應(yīng)該考慮使用一些更具效率的存儲(chǔ)。其實(shí)Simhash逡逑算法輸出的Simhash簽名可以為我們很好建立索引,,從而大大減少索引的時(shí)間。逡逑Simhash存儲(chǔ)圖如圖2-2所不。逡逑邐邋邐邐邐邐邐邐邐逡逑;邐n^n邐I邋丨1咐邋 ̄ ̄1邐I逡逑°邐邐邋放大;邐邋:逡逑10邐101...邋101..邋.邋010...邋ilO...邋邐?邋:邋|邋000R[]嫞癛[...邐:逡逑1邐:邋1邋0邋0邋0邋0邋0邋0邋00邋00邋0邋0邋0邋0 ̄邋3-^S>邐<s>邋I逡逑n邐重備位邐!邋I邐.…-邋I邐*逡逑邐=='""=■邐邋i邋I邋0000000000()00Oil邋\...邋<5>N>邋:逡逑?分枿邐i邐’邐s逡逑0邐^邐I」6位邋1邐:邐;逡逑J邐101...邋101邋..邋.010...邋110...邐:邐^邐i邐:逡逑0邐:邐1邐11邋i邋1111邋n邋11111邋0邋1邐]—...邐:逡逑1邐1邋啦邐::|邋1111邋ill邋mini邋iTl ̄:逡逑\邐j邐rniTTTTnn—n_?命邋I逡逑0邐:邐\逡逑圖2-2邋Simhash存儲(chǔ)圖逡逑Figure2-2邋Diagram邋of邋Simhash邋Storeage逡逑我們使用的Simhash是局部敏感哈希,這個(gè)算法的特點(diǎn)是只要相似的字符串逡逑9逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 于秀麗;王陽(yáng);齊幸輝;;基于樸素貝葉斯的垂直搜索引擎分類(lèi)器設(shè)計(jì)[J];無(wú)線電工程;2015年11期
2 趙龍;江榮安;;基于Hive的海量搜索日志分析系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期
3 吳潔明;冀單單;韓云輝;;基于Web的DCI垂直搜索引擎的研究與設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年04期
4 馮汝偉;謝強(qiáng);丁秋林;;基于文本聚類(lèi)與分布式Lucene的知識(shí)檢索[J];計(jì)算機(jī)應(yīng)用;2013年01期
5 覃雄派;王會(huì)舉;杜小勇;王珊;;大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J];軟件學(xué)報(bào);2012年01期
6 王新;劉曉霞;;基于關(guān)聯(lián)規(guī)則挖掘的垂直元搜索引擎研究[J];計(jì)算機(jī)工程;2011年04期
7 謝桂蘭;羅省賢;;基于Hadoop MapReduce模型的應(yīng)用研究[J];微型機(jī)與應(yīng)用;2010年08期
8 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁(yè)快速去重算法研究[J];中文信息學(xué)報(bào);2003年02期
相關(guān)碩士學(xué)位論文 前2條
1 王朝;面向網(wǎng)上訂餐的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
2 林印華;垂直搜索引擎在團(tuán)購(gòu)網(wǎng)站中的研究與應(yīng)用[D];中國(guó)海洋大學(xué);2013年
本文編號(hào):2680772
本文鏈接:http://lk138.cn/kejilunwen/sousuoyinqinglunwen/2680772.html