數(shù)據(jù)挖掘技術(shù)在隨書光盤中的應(yīng)用

發(fā)布時間：2015-02-12 18:06

摘　要：

摘　要：本文分析了目前圖書館隨書光盤管理方面存在的問題，闡述了數(shù)據(jù)挖掘技術(shù)在隨書光盤應(yīng)用中的需要，通過對隨書光盤信息進(jìn)行數(shù)據(jù)挖掘，發(fā)現(xiàn)讀者借閱歷史記錄中隱藏的一些關(guān)系,并對隱藏的這些關(guān)系進(jìn)行了具體的分析。

關(guān)鍵詞：

關(guān)鍵詞：隨書光盤　數(shù)據(jù)挖掘　關(guān)聯(lián)規(guī)則

　隨著科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步，現(xiàn)在越來越多的圖書都附帶隨書光盤，它主要是存儲與書籍內(nèi)容相關(guān)的圖像、音頻和視頻。讀者通過對光盤內(nèi)容的進(jìn)一步學(xué)習(xí)，不僅可以大大地豐富其理論知識，而且還能夠相應(yīng)的拓展其知識面，主要是可以把他們學(xué)習(xí)到的理論知識很好地運用到實際工作和生活中。

　　目前，已經(jīng)有許多圖書館采用數(shù)據(jù)挖掘技術(shù)為圖書館的信息管理服務(wù)，但一般以書籍借閱信息作為原始數(shù)據(jù)進(jìn)行處理。隨著圖書館隨書光盤的不斷增多，讀者自由選擇范圍的增大，圖書館的圖書借閱量呈直線上升趨勢。如何對隨書光盤借閱產(chǎn)生的大量數(shù)據(jù)進(jìn)行有效的分析，怎樣找出有價值的信息更好地為圖書館的管理服務(wù)，讓圖書館的紙制資源、隨書光盤和電子資源整合并統(tǒng)一進(jìn)行數(shù)據(jù)挖掘，具有重大的理論價值和現(xiàn)實意義。

1　隨書光盤管理的現(xiàn)狀

圖書館隨書光盤的管理主要有三種模式：一是光盤隨書進(jìn)行流通管理，這種方式管理方便，，缺點是容易造成混亂和損失。二是光盤和圖書分開進(jìn)行管理，讀者需要借閱光盤時進(jìn)行單位借閱和拷貝，優(yōu)點是減少損失，缺點是借閱不便。三是通過計算機(jī)網(wǎng)絡(luò)進(jìn)行數(shù)字化管理，優(yōu)點是方便讀者借閱，缺點是管理成本高[1]。

　　在光盤和圖書分開借閱的管理方式下，

讀者需要進(jìn)行二次借閱，造成借閱量不高，使得許多圖書資源得不到有效利用，為知識的傳播帶來不便。為了更好的向讀者提供服務(wù)，方便讀者使用隨書光盤，提高圖書館資源的使用率，目前隨書光盤正越來越多的采用網(wǎng)絡(luò)存儲管理。網(wǎng)絡(luò)管理的方式需要有相應(yīng)軟硬件設(shè)備，比如網(wǎng)絡(luò)設(shè)施、存儲設(shè)備和相應(yīng)的軟件，不僅要對原始光盤的數(shù)據(jù)進(jìn)行相應(yīng)的處理和存儲，還要在使用過程中對相應(yīng)的軟硬件設(shè)施進(jìn)行相應(yīng)的維護(hù)。隨書光盤的網(wǎng)絡(luò)借閱管理將會產(chǎn)生大量與讀者查詢下載相關(guān)的借閱信息，如何利用這些借閱信息進(jìn)行有效的數(shù)據(jù)分析，是提高圖書館服務(wù)水平的重要工具。

2　數(shù)據(jù)挖掘

2.1　數(shù)據(jù)挖掘概述

　　數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或者“挖掘”知識，但這些數(shù)據(jù)是不完全的、模糊的、含噪聲的和隨機(jī)的，而數(shù)據(jù)挖掘就是要從中提取出那些隱含的、未知的、有價值的和潛在的信息的過程，它也可以看作是一種決策支持過程，通過對各組織的海量數(shù)據(jù)進(jìn)行分析，歸納推理并從中挖掘出潛在的模式，其結(jié)果將可為管理層的決策提供支持[2]。

2.2　數(shù)據(jù)挖掘工作的流程（見圖1）

數(shù)據(jù)挖掘技術(shù)在隨書光盤中的應(yīng)用

第一，確定數(shù)據(jù)源對象。確定數(shù)據(jù)挖掘任務(wù)的應(yīng)用要求，對所需要處理的大量原始數(shù)據(jù)進(jìn)行收集。第二，確定目標(biāo)數(shù)據(jù)。根據(jù)數(shù)據(jù)挖掘的任務(wù)要求確定數(shù)據(jù)目標(biāo)，從原始數(shù)據(jù)中選出需要進(jìn)行挖掘的數(shù)據(jù)。第三，預(yù)處理及轉(zhuǎn)換數(shù)據(jù)。預(yù)處理需要對目標(biāo)數(shù)據(jù)進(jìn)行處理，檢查數(shù)據(jù)是否符合一致性要求，去除掉數(shù)據(jù)含有的噪聲。數(shù)據(jù)轉(zhuǎn)換的主要任務(wù)是對預(yù)處理的數(shù)據(jù)進(jìn)行相應(yīng)操作，用以降低數(shù)據(jù)維數(shù)，減少數(shù)據(jù)數(shù)量。第四，數(shù)據(jù)挖掘。根據(jù)對數(shù)據(jù)進(jìn)行挖掘的目標(biāo)和用戶的需要，確定要用到的挖掘算法，因為根據(jù)不同的任務(wù)目標(biāo)，可能用到的挖掘方法也不一樣，比如有分類、總結(jié)、聚類和關(guān)聯(lián)規(guī)則等方法。對數(shù)據(jù)通過確定的算法進(jìn)行相應(yīng)的數(shù)據(jù)挖掘，得到用戶需要的模式。第五，解釋評價。對得到的模式進(jìn)行解釋評價，經(jīng)過用戶或機(jī)器的評估后，當(dāng)有冗余或無關(guān)的模式，要將其去掉；當(dāng)發(fā)現(xiàn)模式不是用戶期望要求，就需要重新選取數(shù)據(jù)，采用新的數(shù)據(jù)變換方法，設(shè)定新的數(shù)據(jù)挖掘參數(shù)值，甚至換一種挖掘算法重新進(jìn)行數(shù)據(jù)的挖掘。第六，得到用戶需要的模式，并對它進(jìn)行評價以用戶可以理解的方式顯示給出來[3]。

3　圖書館隨書光盤的數(shù)據(jù)挖掘

3.1　關(guān)聯(lián)規(guī)則挖掘概述

　　關(guān)聯(lián)規(guī)則挖掘是為了發(fā)現(xiàn)數(shù)據(jù)庫中不同數(shù)據(jù)項集間隱藏的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則有兩個重要的標(biāo)準(zhǔn)：一是支持度(Support),表示在事務(wù)中A和B同時出現(xiàn)的概率有多大，可用概率 P(AB)表示；二是可信度(confidence), 它表示關(guān)聯(lián)規(guī)則A出現(xiàn)時B同時出現(xiàn)的可能性有多大，它可用條件概率P(B|A)表示。關(guān)聯(lián)規(guī)則的挖掘算法是要在事務(wù)中找出具有設(shè)定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。

3.2　Apriori算法及在光盤挖掘中的應(yīng)用

　　目前有大量關(guān)于關(guān)聯(lián)規(guī)則挖掘的研究成果,出現(xiàn)了各種各樣的挖掘算法。如Apriori、抽樣算法和DIC算法等[4]。在隨書光盤挖掘中將使用Apriori算法對光盤借閱信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘。

　　Apriori算法中首先要生成頻繁項集然后頻繁項集根據(jù)最小支持度和最小可信度產(chǎn)生關(guān)聯(lián)規(guī)則。

Apriori算法的步驟如下[5]：

輸入:事務(wù)數(shù)據(jù)庫D，最小支持度閾值minsup

輸出:D中的所有的頻繁項集

L1=search_frequent_1_itemsets( D );// ?所有頻繁?1?項集?

for(k=2;Lk-1 !=φ;k++)?

begin

Ck=apriori_gen(Lk-1,minsup); //生成候選項集所有的k-項集中滿足其(k-1)- 子集都在Lk-1里的全體

//掃描數(shù)據(jù)庫事物集

　　for?each?transaction?t?in?D

begin

　　　　Ct=subset(Ck，t);

// Ct是Ck中被t包含的候選集的集合

for?each?candidate?c?in Ct

?c.count++;?

end

Lk?={c?∈Ck|c.count>=minsup}；

// Lk?是Ck中滿足不小于minsup的全體項集

end

Result=Result∪Lk; //得到所有頻繁項集

3.3　隨書光盤的信息挖掘形式

　　其一，利用圖書查詢和借閱信息進(jìn)行綜合的數(shù)據(jù)分析，可以找到光盤的關(guān)聯(lián)關(guān)系。由于現(xiàn)在知識更新的非�？�，所以只提取近十年的數(shù)據(jù)。首先需要把讀者按專業(yè)和年級進(jìn)行分類，然后根據(jù)學(xué)生的專業(yè)、班級等內(nèi)容按學(xué)期把學(xué)生借閱歷史信息提取出來。

　　從借閱歷史記錄中搜尋的原始數(shù)據(jù)可能存在許多空的數(shù)據(jù)和含有噪聲的數(shù)據(jù)，這會影響最后挖掘結(jié)果的準(zhǔn)確性。在進(jìn)行數(shù)據(jù)挖掘前要對這些數(shù)據(jù)進(jìn)行預(yù)處理以消除噪聲和冗余信息。以一年級計算機(jī)專業(yè)為例，對光盤按登錄號進(jìn)行排序。下表1為根據(jù)學(xué)期分類的借閱信息。

表1　光盤借閱信息表

借書證號　

班級號

光盤1

光盤2

光盤3

光盤4

光盤5

光盤6

光盤7

……

14010112

030402

……

14010113

030402

……

14010202

030402

……

14010212

030402

……

本文編號：14582

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/14582.html

上一篇：基于混合蟻群算法的多模式下模具車間調(diào)度系統(tǒng)研究
下一篇：PLC和計算機(jī)間串行通訊方式及程序設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

數(shù)據(jù)挖掘技術(shù)在隨書光盤中的應(yīng)用