中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于相關性判據(jù)的信息檢索優(yōu)化

發(fā)布時間:2020-11-20 21:47
   信息檢索的出現(xiàn)使得人們獲取信息的效率得到了較大的提高,信息檢索的其本質是用戶需求與文獻集的匹配過程,用戶將需求通過初始查詢式的形式表達出來,根據(jù)某種檢索模型在檢索系統(tǒng)中查找自己所需的信息,也就是說,信息檢索是個用戶需求與檢索對象相匹配的一個過程,本質是種相關性檢索。在21世紀之前,學界對于信息檢索的研究側重于系統(tǒng)觀的相關性,通過對檢索系統(tǒng)的檢索機制、信息源的組織形式和相關性評級算法的探討以期能提高信息系統(tǒng)的檢索性能。 隨著科技和社會發(fā)展,尤其是最近幾年人機互動和智能檢索的興起,信息檢索中人的作用越來越受到重視,以人為本的相關反饋在未來應該是信息檢索的主流,學者們對信息檢索中相關性的影響因素和提高技術開始進行深入的研究,典型的有相關反饋技術。影響相關性的因素多種多樣,學者們進行了廣泛的摸索,用戶決定了查詢式的質量,查詢式依賴于用戶,因此用戶是相關反饋的最重要影響因素。信息檢索系統(tǒng)的核心是相關性評價,在相關反饋中,用戶是相關性評價的主導,這個評價過程受用戶自身和情境影響,主觀性很強。在信息檢索領域尤其是在國內,針對信息檢索系統(tǒng)的查詢擴展研究較為成熟,但是基于用戶的相關反饋研究比較少,且目前為止還大部分研究還是基于理論,對相關性影響因素的實證研究較少。 鑒于此,本文綜述了目前國內外的信息檢索優(yōu)化技術和相關性研究現(xiàn)狀,歸納了相關性定義、評價、影響因素和提高技術,重點介紹了用戶相關反饋技術,并建立了一個信息檢索系統(tǒng),采用國際標準五大測試集Cranfield, Medline, CISI, NPL和CACM作為語料庫,并建立索引,將廣為應用的向量空間模型作為信息檢索模型,利用TF-IDF算法計算權重,檢索系統(tǒng)采用改進的計算公式Ide Dec-hi優(yōu)化查詢向量,在此平臺上運行了三部分信息檢索實驗,第一部分沒有相關反饋,用戶不需要參與反饋,輸入檢索查詢式后,檢索系統(tǒng)輸出檢索文獻集,這個部分作為BASELINE,檢索結果作為參照基準;第二部分基于相關反饋,檢索系統(tǒng)輸出檢索結果后,用戶需要判斷排在前面的N(參照Salton和Buckley的實驗,N值取15)篇文獻哪些是相關文獻和不相關文獻,然后進行二次檢索,檢索系統(tǒng)根據(jù)用戶反饋的結果,利用Ide Dec-hi算法重新計算文獻集和查詢式的相似度,再將檢索結果反饋給用戶,這部分是為對照組。第三部分基于相關性判據(jù)集和相關反饋,類似于第二部分,不同在于用戶在進行相關性判斷時不是隨性的,而是根據(jù)既定的判斷依據(jù)來,此部分即為實驗組。本文試圖通過實證研究證實相關反饋技術和依據(jù)相關性判據(jù)集對提高相關性具有良好的效果,并提出了本文的不足和后期研究應該做的工作。
【學位單位】:南京大學
【學位級別】:碩士
【學位年份】:2013
【中圖分類】:G354
【文章目錄】:
中文摘要
Abstract
論文表格目錄
論文圖表目錄
1. 緒論
    1.1. 研究背景
    1.2. 研究內容
    1.3. 研究意義
    1.4. 論文組織結構
2. 信息檢索及查詢擴展技術研究
    2.1. 信息檢索概述
        2.1.1. 向量模型
        2.1.2. 概率模型
        2.1.3. 布爾模型
    2.2. 查詢擴展
        2.2.1. 基于全局分析的查詢擴展技術
            2.2.1.1. 文本聚類
            2.2.1.2. 潛在語義索引
            2.2.1.3. 相似性詞典
        2.2.2. 基于局部分析的查詢擴展技術
            2.2.2.1. 局部聚類
            2.2.2.2. 局部上下文分析
        2.2.3. 基于語義詞表的查詢擴展技術
3. 信息檢索中相關性研究
    3.1. 相關性定義
        3.1.1. 面向系統(tǒng)的相關性
        3.1.2. 面向用戶的相關性
        3.1.3. 系統(tǒng)和用戶相結合的相關性
    3.2. 相關性度量和評價
        3.2.1. 系統(tǒng)觀相關性度量及其評價指標
            3.2.1.1. 基于不同檢索方式的相關性度量
                3.2.1.1.1. 基于向量空間模型的相關性度量
                3.2.1.1.2. 基于概率模型的相關性度量
                3.2.1.1.3. 基于布爾模型的相關性度量
            3.2.1.2. 常用評價指標
        3.2.2. 用戶相關性度量判斷和評價
    3.3. 相關性影響因素
    3.4. 相關性提高技術研究
        3.4.1. 用戶相關性
        3.4.2. 系統(tǒng)觀相關性
        3.4.3. 用戶相關反饋技術
            3.4.3.1. 基于向量空間模型的相關反饋
                3.4.3.1.1. 向量空間模型的相關反饋權重計算
                3.4.3.1.2. 向量空間模型的相關反饋的優(yōu)缺點
            3.4.3.2. 基于概率模型的相關反饋
                3.4.3.2.1. 經(jīng)典概率模型的相關反饋權重計算
                3.4.3.2.2. 經(jīng)典概率模型相關反饋優(yōu)缺點
            3.4.3.3. 基于布爾模型的相關反饋
            3.4.3.4. 用戶相關反饋小結
4. 實驗及結果分析
    4.1. 實驗框架
    4.2. 數(shù)據(jù)預處理
        4.2.1. 測試集簡介
        4.2.2. 文獻和查詢的預處理
        4.2.3. 相似度計算和評價
    4.3. 實驗內容
        4.3.1. BASELINE
        4.3.2. 對照組
        4.3.3. 實驗組
    4.4. 結果分析
        4.4.1. 實驗結果
        4.4.2. 結果分析
5. 總結與展望
    5.1. 研究總結
    5.2. 進一步工作
參考文獻
攻讀碩士期間主要科研及成果
致謝

【參考文獻】

相關期刊論文 前10條

1 王雅坤;成全;;信息檢索相關性研究綜述及發(fā)展趨勢[J];圖書與情報;2012年01期

2 袁占亭,張愛民,張秋余;基于概念的Web信息檢索[J];計算機工程與應用;2003年36期

3 顧榕,王小平,曹立明;一種基于潛在語義分析的查詢擴展算法[J];計算機工程與應用;2004年18期

4 閉劍婷;蘇一丹;;基于潛在語義分析的跨語言查詢擴展方法[J];計算機工程;2009年10期

5 張敏,宋睿華,馬少平;基于語義關系查詢擴展的文檔重構方法[J];計算機學報;2004年10期

6 馮運;陳治平;;基于局部類別分析的查詢擴展[J];計算機應用;2007年01期

7 賀宏朝,何丕廉,高劍峰,黃昌寧;一種基于上下文的中文信息檢索查詢擴展[J];中文信息學報;2002年06期

8 劉遠超;王曉龍;徐志明;關毅;;文檔聚類綜述[J];中文信息學報;2006年03期

9 丁國棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴展方法[J];中文信息學報;2006年03期

10 張保明;;查全率—查準率互逆相關性的數(shù)學解釋[J];情報科學;1982年02期


相關博士學位論文 前1條

1 成穎;信息檢索相關性判據(jù)及應用研究[D];南京大學;2011年



本文編號:2892039

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/tushudanganlunwen/2892039.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶064b4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com