中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

數(shù)據(jù)挖掘技術(shù)在隨書光盤中的應(yīng)用

發(fā)布時間:2015-02-12 18:06

摘 要:

摘 要:本文分析了目前圖書館隨書光盤管理方面存在的問題,闡述了數(shù)據(jù)挖掘技術(shù)在隨書光盤應(yīng)用中的需要,通過對隨書光盤信息進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)讀者借閱歷史記錄中隱藏的一些關(guān)系,并對隱藏的這些關(guān)系進(jìn)行了具體的分析。

關(guān)鍵詞:

關(guān)鍵詞:隨書光盤 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則

  隨著科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步,現(xiàn)在越來越多的圖書都附帶隨書光盤,它主要是存儲與書籍內(nèi)容相關(guān)的圖像、音頻和視頻。讀者通過對光盤內(nèi)容的進(jìn)一步學(xué)習(xí),不僅可以大大地豐富其理論知識,而且還能夠相應(yīng)的拓展其知識面,主要是可以把他們學(xué)習(xí)到的理論知識很好地運用到實際工作和生活中。

  目前,已經(jīng)有許多圖書館采用數(shù)據(jù)挖掘技術(shù)為圖書館的信息管理服務(wù),但一般以書籍借閱信息作為原始數(shù)據(jù)進(jìn)行處理。隨著圖書館隨書光盤的不斷增多,讀者自由選擇范圍的增大,圖書館的圖書借閱量呈直線上升趨勢。如何對隨書光盤借閱產(chǎn)生的大量數(shù)據(jù)進(jìn)行有效的分析,怎樣找出有價值的信息更好地為圖書館的管理服務(wù),讓圖書館的紙制資源、隨書光盤和電子資源整合并統(tǒng)一進(jìn)行數(shù)據(jù)挖掘,具有重大的理論價值和現(xiàn)實意義。


1 隨書光盤管理的現(xiàn)狀

    圖書館隨書光盤的管理主要有三種模式:一是光盤隨書進(jìn)行流通管理,這種方式管理方便,,缺點是容易造成混亂和損失。二是光盤和圖書分開進(jìn)行管理,讀者需要借閱光盤時進(jìn)行單位借閱和拷貝,優(yōu)點是減少損失,缺點是借閱不便。三是通過計算機(jī)網(wǎng)絡(luò)進(jìn)行數(shù)字化管理,優(yōu)點是方便讀者借閱,缺點是管理成本高[1]。

  在光盤和圖書分開借閱的管理方式下,

讀者需要進(jìn)行二次借閱,造成借閱量不高,使得許多圖書資源得不到有效利用,為知識的傳播帶來不便。為了更好的向讀者提供服務(wù),方便讀者使用隨書光盤,提高圖書館資源的使用率,目前隨書光盤正越來越多的采用網(wǎng)絡(luò)存儲管理。網(wǎng)絡(luò)管理的方式需要有相應(yīng)軟硬件設(shè)備,比如網(wǎng)絡(luò)設(shè)施、存儲設(shè)備和相應(yīng)的軟件,不僅要對原始光盤的數(shù)據(jù)進(jìn)行相應(yīng)的處理和存儲,還要在使用過程中對相應(yīng)的軟硬件設(shè)施進(jìn)行相應(yīng)的維護(hù)。隨書光盤的網(wǎng)絡(luò)借閱管理將會產(chǎn)生大量與讀者查詢下載相關(guān)的借閱信息,如何利用這些借閱信息進(jìn)行有效的數(shù)據(jù)分析,是提高圖書館服務(wù)水平的重要工具。


2 數(shù)據(jù)挖掘

2.1 數(shù)據(jù)挖掘概述

  數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或者“挖掘”知識,但這些數(shù)據(jù)是不完全的、模糊的、含噪聲的和隨機(jī)的,而數(shù)據(jù)挖掘就是要從中提取出那些隱含的、未知的、有價值的和潛在的信息的過程,它也可以看作是一種決策支持過程,通過對各組織的海量數(shù)據(jù)進(jìn)行分析,歸納推理并從中挖掘出潛在的模式,其結(jié)果將可為管理層的決策提供支持[2]。

2.2 數(shù)據(jù)挖掘工作的流程(見圖1)

               

數(shù)據(jù)挖掘技術(shù)在隨書光盤中的應(yīng)用

第一,確定數(shù)據(jù)源對象。確定數(shù)據(jù)挖掘任務(wù)的應(yīng)用要求,對所需要處理的大量原始數(shù)據(jù)進(jìn)行收集。第二,確定目標(biāo)數(shù)據(jù)。根據(jù)數(shù)據(jù)挖掘的任務(wù)要求確定數(shù)據(jù)目標(biāo),從原始數(shù)據(jù)中選出需要進(jìn)行挖掘的數(shù)據(jù)。第三,預(yù)處理及轉(zhuǎn)換數(shù)據(jù)。預(yù)處理需要對目標(biāo)數(shù)據(jù)進(jìn)行處理,檢查數(shù)據(jù)是否符合一致性要求,去除掉數(shù)據(jù)含有的噪聲。數(shù)據(jù)轉(zhuǎn)換的主要任務(wù)是對預(yù)處理的數(shù)據(jù)進(jìn)行相應(yīng)操作,用以降低數(shù)據(jù)維數(shù),減少數(shù)據(jù)數(shù)量。第四,數(shù)據(jù)挖掘。根據(jù)對數(shù)據(jù)進(jìn)行挖掘的目標(biāo)和用戶的需要,確定要用到的挖掘算法,因為根據(jù)不同的任務(wù)目標(biāo),可能用到的挖掘方法也不一樣,比如有分類、總結(jié)、聚類和關(guān)聯(lián)規(guī)則等方法。對數(shù)據(jù)通過確定的算法進(jìn)行相應(yīng)的數(shù)據(jù)挖掘,得到用戶需要的模式。第五,解釋評價。對得到的模式進(jìn)行解釋評價,經(jīng)過用戶或機(jī)器的評估后,當(dāng)有冗余或無關(guān)的模式,要將其去掉;當(dāng)發(fā)現(xiàn)模式不是用戶期望要求,就需要重新選取數(shù)據(jù),采用新的數(shù)據(jù)變換方法,設(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至換一種挖掘算法重新進(jìn)行數(shù)據(jù)的挖掘。第六,得到用戶需要的模式,并對它進(jìn)行評價以用戶可以理解的方式顯示給出來[3]。


3 圖書館隨書光盤的數(shù)據(jù)挖掘 

3.1 關(guān)聯(lián)規(guī)則挖掘概述

  關(guān)聯(lián)規(guī)則挖掘是為了發(fā)現(xiàn)數(shù)據(jù)庫中不同數(shù)據(jù)項集間隱藏的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則有兩個重要的標(biāo)準(zhǔn):一是支持度(Support),表示在事務(wù)中A和B同時出現(xiàn)的概率有多大,可用概率 P(AB)表示;二是可信度(confidence), 它表示關(guān)聯(lián)規(guī)則A出現(xiàn)時B同時出現(xiàn)的可能性有多大,它可用條件概率P(B|A)表示。關(guān)聯(lián)規(guī)則的挖掘算法是要在事務(wù)中找出具有設(shè)定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。

3.2 Apriori算法及在光盤挖掘中的應(yīng)用

  目前有大量關(guān)于關(guān)聯(lián)規(guī)則挖掘的研究成果,出現(xiàn)了各種各樣的挖掘算法。如Apriori、抽樣算法和DIC算法等[4]。 在隨書光盤挖掘中將使用Apriori算法對光盤借閱信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘。

  Apriori算法中首先要生成頻繁項集然后頻繁項集根據(jù)最小支持度和最小可信度產(chǎn)生關(guān)聯(lián)規(guī)則。

Apriori算法的步驟如下[5]:

輸入:事務(wù)數(shù)據(jù)庫D,最小支持度閾值minsup

輸出:D中的所有的頻繁項集

L1=search_frequent_1_itemsets( D );// ?所有頻繁?1?項集?

for(k=2;Lk-1 !=φ;k++)? 

begin

     Ck=apriori_gen(Lk-1,minsup);   //生成候選項集  所有的k-項集中滿足其(k-1)- 子集都在Lk-1里的全體

     //掃描數(shù)據(jù)庫事物集

  for?each?transaction?t?in?D    

     begin

    Ct=subset(Ck,t);  

       // Ct是Ck中被t包含的候選集的集合

       for?each?candidate?c?in Ct

           ?c.count++;?      

     end

     Lk?={c?∈Ck|c.count>=minsup};  

     // Lk?是Ck中滿足不小于minsup的全體項集

end

Result=Result∪Lk;   //得到所有頻繁項集

3.3 隨書光盤的信息挖掘形式

  其一,利用圖書查詢和借閱信息進(jìn)行綜合的數(shù)據(jù)分析,可以找到光盤的關(guān)聯(lián)關(guān)系。由于現(xiàn)在知識更新的非?,所以只提取近十年的數(shù)據(jù)。首先需要把讀者按專業(yè)和年級進(jìn)行分類,然后根據(jù)學(xué)生的專業(yè)、班級等內(nèi)容按學(xué)期把學(xué)生借閱歷史信息提取出來。

  從借閱歷史記錄中搜尋的原始數(shù)據(jù)可能存在許多空的數(shù)據(jù)和含有噪聲的數(shù)據(jù),這會影響最后挖掘結(jié)果的準(zhǔn)確性。在進(jìn)行數(shù)據(jù)挖掘前要對這些數(shù)據(jù)進(jìn)行預(yù)處理以消除噪聲和冗余信息。以一年級計算機(jī)專業(yè)為例,對光盤按登錄號進(jìn)行排序。下表1為根據(jù)學(xué)期分類的借閱信息。

  

                                                         表1 光盤借閱信息表

借書證號 

班級號

光盤1

光盤2

光盤3

光盤4

光盤5

光盤6

光盤7

……

14010112

030402

1

1

1

 

 

1

1

……

14010113

030402

 

1

1

 

1

1

 

……

14010202

030402

1

 

 

1

 

 

1

……

14010212

030402

 

 

 

1

1

1

1

……



本文編號:14582

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/14582.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5e89e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com