基于知識圖譜的開放空間知識采集系統(tǒng)

發(fā)布時間：2020-06-03 19:49

【摘要】：互聯(lián)網(wǎng)的信息大多以網(wǎng)頁形式進行存儲,通過超鏈接將網(wǎng)絡上的文檔鏈接起來。人們能夠理解文檔中的信息,但是計算機卻不能充分理解文檔信息。傳統(tǒng)的知識庫主要是幫助用戶直觀地理解處理,無法提供可以被計算機理解的語義信息,對知識服務與組織過程中的邏輯推理和智能聯(lián)想有很大的限制和局限性�；谥R圖譜,復雜的語義處理可以依據(jù)本體模型對信息實體進行語義標注,生成關于生物學科的知識網(wǎng)絡,達到對知識語義層面的組織。基于知識圖譜,開發(fā)此開放空間知識采集系統(tǒng),為其他系統(tǒng)提供外部數(shù)據(jù)支持。本文主要工作如下:(1)對涉及的相關技術進行介紹。主要包含資源描述框架、圖數(shù)據(jù)庫、MVC模式和網(wǎng)絡爬蟲。(2)在充分進行調研的基礎上,對系統(tǒng)進行需求分析。主要包含系統(tǒng)的用戶需求、功能需求、性能需求和安全性需求。(3)在需求分析的基礎上,對系統(tǒng)進行詳細設計。主要包含系統(tǒng)總體設計、系統(tǒng)具體模塊設計、系統(tǒng)數(shù)據(jù)庫和類設計。其中系統(tǒng)具體模塊設計包含詞條加工模塊、數(shù)據(jù)爬取模塊、數(shù)據(jù)加工模塊、數(shù)據(jù)存儲模塊、接口調用模塊和用戶管理模塊。系統(tǒng)數(shù)據(jù)庫設計包含數(shù)據(jù)庫概念結構設計和數(shù)據(jù)庫物理結構設計。(4)基于詳細設計,采用MVC模式對系統(tǒng)進行了開發(fā)。前端采用JQuery、Bootstrap等框架實現(xiàn)頁面展示,BeetlSQL框架實現(xiàn)系統(tǒng)的增刪改查,JavaScript實現(xiàn)頁面交互,Apache Shiro安全框架保證系統(tǒng)的安全登錄和權限管理,完成系統(tǒng)的功能模塊開發(fā)。其中采用NEO4J存儲RDF數(shù)據(jù),網(wǎng)絡爬蟲為數(shù)據(jù)的爬取工具。(5)基于軟件測試的方法,對開發(fā)的系統(tǒng)進行了測試。對系統(tǒng)進行用戶界面和功能模塊測試,測試結果表明系統(tǒng)界面簡潔,功能滿足要求。
【圖文】：

實體信息,數(shù)據(jù)分析,實體,摘要信息

半結構化信息主要包括百科實體的屬性信息（主要是謂語信息盒infobox），非結構化信息主要包括介紹實體摘要信息，實體描述文本等。對于百科頁面信息抽取內容分析如下：對于結構化數(shù)據(jù)，抽取實體名稱、實體屬性信息，對于非結構化數(shù)據(jù)，主要抽取實體摘要信息及實體描述性文本信息。如圖 4.3 所示。

詞條,頁面,百度

圖 5.1 詞條導入頁面5.2.2 數(shù)據(jù)爬取數(shù)據(jù)的爬取主要是根據(jù)詞條訓練形成的詞條，通過爬蟲對百度百科數(shù)據(jù)進行爬取。本采集系統(tǒng)的開發(fā)主要是基于 SpringMVC 框架實現(xiàn)的，用戶通過瀏覽器登錄系統(tǒng)后，發(fā)送采集請求，前端控制器對請求進行攔截，，調用映射處理器查找控制器，分發(fā)給采集系統(tǒng)控制層。采集系統(tǒng)控制層調用相應的函數(shù)，進行網(wǎng)絡爬取，返回數(shù)據(jù)給系統(tǒng)。系統(tǒng)能夠對百度百科頁面進行有效爬取，并能實時監(jiān)控任務狀態(tài)。系統(tǒng)新增詞條后，需要對新增的詞條進行搜索、抓取信息。抓取成功后，系統(tǒng)依照相應的爬取規(guī)則，對百度百科實體內容進行解析，形成如圖 5.2 所示的詞條解析頁面。
【學位授予單位】：中南民族大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：TP274.2

【參考文獻】

相關期刊論文前10條

1 曹倩;趙一鳴;;知識圖譜的技術實現(xiàn)流程及相關應用[J];情報理論與實踐;2015年12期

2 鄭志蘊;劉博;李倫;王振飛;;基于關鍵詞的RDF數(shù)據(jù)圖查詢模型研究[J];計算機科學;2015年07期

3 康杰華;羅章璇;;基于圖形數(shù)據(jù)庫Neo4j的RDF數(shù)據(jù)存儲研究[J];信息技術;2015年06期

4 杜亞軍;吳越;;微博知識圖譜構建方法研究[J];西華大學學報(自然科學版);2015年01期

5 宦臣;;Java Web開發(fā)中MVC模式的研究[J];時代教育;2012年21期

6 薛峰;梁鋒;徐書勛;王彪任;;基于Spring MVC框架的Web研究與應用[J];合肥工業(yè)大學學報(自然科學版);2012年03期

7 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術[J];北京交通大學學報;2009年05期

8 唐波;;網(wǎng)絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2009年11期

9 陳悅;劉則淵;陳勁;侯劍華;;科學知識圖譜的發(fā)展歷程[J];科學學研究;2008年03期

10 賀智平;徐學洲;李愛玲;;一種基于信息熵的Web頁面主題信息抽取方法[J];計算機工程與應用;2007年04期

相關碩士學位論文前2條

1 李紅亮;基于規(guī)則的百科人物屬性抽取算法的研究[D];西南交通大學;2013年

2 吉向文;標簽樹模板在網(wǎng)頁關鍵信息抽取及話題識別中的應用[D];復旦大學;2009年

本文編號：2695307

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/sousuoyinqinglunwen/2695307.html

上一篇：數(shù)據(jù)庫加密代理系統(tǒng)研究與設計
下一篇：基于受限路徑相容的約束傳播算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于知識圖譜的開放空間知識采集系統(tǒng)