中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 碩博論文 > 社科碩士論文 >

數(shù)字版權(quán)資源庫的構(gòu)建中Lucene技術(shù)的應(yīng)用研究

發(fā)布時間:2014-09-26 09:37

【摘要】 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息的存儲與傳播方式發(fā)生了巨大的變化。由于數(shù)字資源的易擴散和易傳播性,數(shù)字資源給人們帶來極大便利的同時,也給數(shù)字版權(quán)管理工作帶來了前所未有的挑戰(zhàn)。首先,數(shù)字版權(quán)資源依靠傳統(tǒng)的存儲方式,不能有效解決日益增長的數(shù)字資源的存儲問題。其次,對于海量的數(shù)字作品如何從中快速搜索有用的信息變的越來越困難。因此構(gòu)建一個對數(shù)字作品具有海量存儲和快速搜索功能的數(shù)字版權(quán)資源庫是必要的。本文采用Hadoop框架下的HDFS分布式文件系統(tǒng),解決數(shù)字作品的海量存儲問題;在數(shù)字版權(quán)資源庫的快速搜索方面,先采用Lucene全文檢索技術(shù)對版權(quán)元數(shù)據(jù)信息創(chuàng)建索引,并對索引文件進行搜索;然后采用Elasticsearch分布式搜索技術(shù)對Luc ene的索引文件進行分片存儲和分布式搜索;最后本搜索引擎為用戶提供友好的操作功能:數(shù)字作品管理,數(shù)字版權(quán)管理,資源庫索引,資源庫搜索等。本文的難點和創(chuàng)新點如下:分析了數(shù)字版權(quán)資源的特征,設(shè)計了易于擴展、高度容錯、支持海量數(shù)據(jù)集的云存儲方案;研究Lucene技術(shù),設(shè)計了數(shù)字版權(quán)資源元數(shù)據(jù)全文檢索方案;采用Elasticsearch對資源庫的索引文件進行分片處理,實現(xiàn)了數(shù)字版權(quán)資源庫的分布式索引和分布式搜索。本文主要成果是運用HDFS分布式文件系統(tǒng)實現(xiàn)數(shù)字版權(quán)資源的海量存儲,采用Lucene全文檢索和Elasticsearch索引分片技術(shù)對版權(quán)資源庫進行分布式索引和快速檢索。最終構(gòu)建了一個高效的、分布式的數(shù)字版權(quán)資源庫,保證海量數(shù)字作品的安全可靠存儲,促進數(shù)字版權(quán)產(chǎn)業(yè)的資源整合,減少數(shù)字作品的傳播成本,為數(shù)字作品版權(quán)信息的登記、備案、搜索和檢測提供底層支撐。 


1緒論

1.1課題研究背景
在數(shù)字版權(quán)管理方面,國內(nèi)外上有許多著名的數(shù)字版權(quán)管理系統(tǒng)及產(chǎn)品,比如微軟公司的公司的公司的和北大方正的等。另外中科院自動化所和香港大學等研究機構(gòu)也都對數(shù)字版權(quán)管理技術(shù)的體系結(jié)構(gòu)和關(guān)鍵算法進行了深入的探索與研究⑴。在各種數(shù)字版權(quán)管理系統(tǒng)及產(chǎn)品研究中,為方便數(shù)字版權(quán)資源的數(shù)據(jù)整合,需要構(gòu)建一個完整的、規(guī)范的數(shù)字版權(quán)資源庫,這樣可以有效的促進數(shù)字版權(quán)資源的貿(mào)易和流通,提高了數(shù)字版權(quán)管理工作效率。中國版權(quán)保護中心在對版權(quán)保護技術(shù)和法律法規(guī)的研究分析后,認為從根本上解決數(shù)字作品產(chǎn)業(yè)鏈各個參弓者的利益分享和技術(shù)創(chuàng)新,實現(xiàn)快速高效的維權(quán)機制,是瓦聯(lián)網(wǎng)上數(shù)字版權(quán)保護的主要問題。為了解決述問題,中國版權(quán)保護中心結(jié)合中國國情提出了數(shù)字版權(quán)唯一標識符簡稱,并通過高新技術(shù)乎段解決的數(shù)字版權(quán)資源信總的海量存儲和快速搜索題,提出了數(shù)字版權(quán)資源庫的構(gòu)建與應(yīng)用研究,并實現(xiàn)數(shù)字作品的海量存儲和快速搜索。

1.2國內(nèi)外研究現(xiàn)狀及趨勢
近年來,數(shù)字版權(quán)管理技術(shù)已經(jīng)應(yīng)用到電子書、圖片、音頻、視頻等領(lǐng)域,但還存在一些有待解決的難點問題,針對國內(nèi)數(shù)字內(nèi)容服務(wù)方面,還有一定的研究空間。比如數(shù)字版權(quán)元數(shù)據(jù)的標準化,數(shù)字版權(quán)資源庫的構(gòu)建,數(shù)字作品的盜版檢測和數(shù)字作品的權(quán)利轉(zhuǎn)移等技術(shù)的研究。目前國內(nèi)外有很多各種各樣的資源庫,如醫(yī)學資源庫、教育資源庫、圖書資源庫,但是對于數(shù)字版權(quán)資源庫卻很少,數(shù)字版權(quán)資源庫主要存儲的是數(shù)字作品的版權(quán)信息,為數(shù)字版權(quán)管理提供底層支撐。本課題以數(shù)字版權(quán)內(nèi)容備案和數(shù)字版權(quán)內(nèi)容搜索為核心,收集整理大量數(shù)字版權(quán)信息,利用技術(shù)手段針對數(shù)字內(nèi)容進行特征備案,形成數(shù)字版權(quán)資源數(shù)據(jù)庫。數(shù)字版權(quán)資源信息包括數(shù)字作品元數(shù)據(jù)信息和和數(shù)字作品源文件,同時為數(shù)字作品信息提供海量存儲和快速搜索等服務(wù)。
..............

2相關(guān)技術(shù)介紹

2.1云存儲技術(shù)
傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)越來越不適應(yīng)海故數(shù)據(jù)的處要求,憑借其在海量數(shù)據(jù)處理領(lǐng)域的領(lǐng)先技術(shù),在激烈的行業(yè)競爭中街很大的優(yōu)勢,其中的兩個技術(shù)就是分布式存儲和分布式計算框架。其設(shè)汁想來源于的和這兩篇學術(shù)文章,它最年的應(yīng)用是為搜索引擎建立索引和提供快速搜索功能“?蚣苤幸怖ǚ植际轿募到y(tǒng)和并行計算,其中分布式文件系統(tǒng)具有靠性、高安全性和擴展性等優(yōu)點。云存儲不只是具體的存儲設(shè)備,而是釆用集群技術(shù)將大量的機器集合起來組成一個具有海量存儲和并行訪問等功能的集群這種通過應(yīng)用軟件和存儲設(shè)備來實現(xiàn)存儲服務(wù)的功能,即是云儲存。

如上圖所示在集群中有多個集群節(jié)點組成,在集群中有一個名節(jié)點和多個數(shù)據(jù)節(jié)點。名節(jié)點保存元數(shù)據(jù)信息和志操作信息,通過名節(jié)點可以獲取具體的數(shù)據(jù)存放的塊位置信息和塊的操作信息。數(shù)據(jù)節(jié)點保存具體的塊集群中的塊默認大小是,每個塊都有多個副本來保證數(shù)據(jù)的可靠性。名節(jié)點是任務(wù)的管理者數(shù)掘節(jié)點執(zhí)行具體的任務(wù)。同樣集群中只能有一個,可以有多個。客戶端可以通過來訪問也可以直接訪問。

2.2 Lucene全文檢索技術(shù)
下面來介紹一下全文檢索工具包的優(yōu)點:是基于語言開發(fā)的,具有面丨句對象的特性。提供了簡單易用的索引和搜索,具有良好的擴展性。具有獨立的文本分〗處理接口,通過實現(xiàn)索引文件的創(chuàng)建,程序員可以根據(jù)業(yè)務(wù)需要實現(xiàn)具體的文本分析接口來擴展新的文件格式。工具包對于文本索引和搜索其冇一套高效解決方案,程序員只需要根據(jù)具體業(yè)務(wù)調(diào)的接—就可以實現(xiàn)自己的搜索引擎,其查詢包括:布爾查詢、短語查詢、模糊査詢、多字段査詢等等。

3數(shù)字版權(quán)資源痄搜索引擎的研究............14
3.1數(shù)字版權(quán)資源庫的休系架構(gòu).................14
3.2數(shù)字版權(quán)資源庫的二存儲技術(shù)...........................15
4數(shù)字版權(quán)資源庫搜索引擎的設(shè)計與實現(xiàn).........................26
4.1數(shù)字版權(quán)資源庫搜索引擎的設(shè)計............................26
4.1.1需求分析....................26
5實驗結(jié)果分析..................44
5.1系統(tǒng)實驗環(huán)境...............44
5.2實驗數(shù)據(jù)準備.....................44
5.3海量存儲...............45

5實驗結(jié)果分析

5.1系統(tǒng)實驗環(huán)境
云存儲集群:臺機器系統(tǒng);分布式搜索集群:臺機器系統(tǒng);主要技術(shù)、開發(fā)環(huán)境;運行環(huán)境;框架。

5.2實驗數(shù)據(jù)準備
數(shù)字版權(quán)資源庫包括數(shù)字版權(quán)元數(shù)據(jù)和數(shù)字作品的源文件,均來源于中國版權(quán)保護中心的真實的數(shù)字作品信息,木文測試數(shù)據(jù)量在選擇大小在四個數(shù)量級:萬條記錄、條記錄、萬條記錄、萬條記萬條記錄。在此四個數(shù)量級上比較索引的創(chuàng)建時間和索引文件大小,搜索的查詢時間,比較查詢的內(nèi)容對于查詢字段有:作品名稱、作者、作品說明,對于和分布式搜索査詢內(nèi)容都是全文檢索,本系統(tǒng)測試比較了查詢詞“家鄉(xiāng)基礎(chǔ)閱讀”。其體的測試數(shù)據(jù)準備如下表所示。本文所采用的支持高并發(fā)的數(shù)掘存儲,在集群搭建完畢后,采用文件大小分別是等四個級別來測試分布式文件系統(tǒng)的上傳和下載性能,將四類文件上傳到文件系統(tǒng)上,如下圖所示。
..............

6總結(jié)與展望

目前數(shù)字版權(quán)產(chǎn)業(yè)的發(fā)展趨勢是要求系統(tǒng)平臺化、服務(wù)規(guī)范化、功能一體化。數(shù)字版權(quán)資源庫搜索引擎的相關(guān)技術(shù)和策略正在面臨巨大的挑戰(zhàn),數(shù)字版權(quán)資源信息的飛速增長,缺乏規(guī)范統(tǒng)一的資源庫,并對其提供快速搜索服務(wù)等問題,從而不利于數(shù)字版權(quán)的監(jiān)管和發(fā)展。為了解決這些問題,本文采用了基于的全文檢索技術(shù),在海量數(shù)字源文件存儲方面采用了云存儲技術(shù);其中對的索引文件,采用進行分布式索引和分布式搜索,從而構(gòu)建了基于的數(shù)字版權(quán)資源庫搜索引擎,并且對數(shù)字版權(quán)資源庫的構(gòu)建過程做了詳細的介紹,本文的難點和創(chuàng)新點如下:分析了數(shù)字版權(quán)資源的特征,設(shè)計了易于擴展、高度容錯、支持海量數(shù)據(jù)集的云存儲方案;研究技術(shù),設(shè)計了數(shù)字版權(quán)資源元數(shù)據(jù)全文檢索方案;對資源庫的索引文件進行分片處理,實現(xiàn)了數(shù)字版權(quán)資源厙的分布式索引和分布式搜索。該系統(tǒng)中,也可能存在很多問題,比如,與其他系統(tǒng)的集成問題。基于的數(shù)字版權(quán)資源庳搜索引擎已基本成形,從最辱接觸全文檢索技術(shù),到學習分布式文件系統(tǒng),到堪于對的索引文件;行分片段存儲和搜索的各種工、技術(shù)研究學,最后實現(xiàn)整個數(shù)字版資源庫搜索引擎,在研究學習過,不僅提高了軟件編程實現(xiàn)的能力,而且對云存儲和全文檢索技術(shù)了一定的理解。
...................

參考文獻:



本文編號:9233

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/shuoshibiyelunwen/9233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b6bdc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com