基于知識圖譜的開放空間知識采集系統(tǒng)
【圖文】:
半結構化信息主要包括百科實體的屬性信息(主要是謂語信息盒infobox),非結構化信息主要包括介紹實體摘要信息,實體描述文本等。對于百科頁面信息抽取內容分析如下:對于結構化數(shù)據(jù),抽取實體名稱、實體屬性信息,對于非結構化數(shù)據(jù),主要抽取實體摘要信息及實體描述性文本信息。如圖 4.3 所示。
圖 5.1 詞條導入頁面5.2.2 數(shù)據(jù)爬取數(shù)據(jù)的爬取主要是根據(jù)詞條訓練形成的詞條,通過爬蟲對百度百科數(shù)據(jù)進行爬取。 本采集系統(tǒng)的開發(fā)主要是基于 SpringMVC 框架實現(xiàn)的,用戶通過瀏覽器登錄系統(tǒng)后,發(fā)送采集請求,前端控制器對請求進行攔截,,調用映射處理器查找控制器,分發(fā)給采集系統(tǒng)控制層。采集系統(tǒng)控制層調用相應的函數(shù),進行網(wǎng)絡爬取,返回數(shù)據(jù)給系統(tǒng)。系統(tǒng)能夠對百度百科頁面進行有效爬取,并能實時監(jiān)控任務狀態(tài)。系統(tǒng)新增詞條后,需要對新增的詞條進行搜索、抓取信息。抓取成功后,系統(tǒng)依照相應的爬取規(guī)則,對百度百科實體內容進行解析,形成如圖 5.2 所示的詞條解析頁面。
【學位授予單位】:中南民族大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP274.2
【參考文獻】
相關期刊論文 前10條
1 曹倩;趙一鳴;;知識圖譜的技術實現(xiàn)流程及相關應用[J];情報理論與實踐;2015年12期
2 鄭志蘊;劉博;李倫;王振飛;;基于關鍵詞的RDF數(shù)據(jù)圖查詢模型研究[J];計算機科學;2015年07期
3 康杰華;羅章璇;;基于圖形數(shù)據(jù)庫Neo4j的RDF數(shù)據(jù)存儲研究[J];信息技術;2015年06期
4 杜亞軍;吳越;;微博知識圖譜構建方法研究[J];西華大學學報(自然科學版);2015年01期
5 宦臣;;Java Web開發(fā)中MVC模式的研究[J];時代教育;2012年21期
6 薛峰;梁鋒;徐書勛;王彪任;;基于Spring MVC框架的Web研究與應用[J];合肥工業(yè)大學學報(自然科學版);2012年03期
7 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術[J];北京交通大學學報;2009年05期
8 唐波;;網(wǎng)絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2009年11期
9 陳悅;劉則淵;陳勁;侯劍華;;科學知識圖譜的發(fā)展歷程[J];科學學研究;2008年03期
10 賀智平;徐學洲;李愛玲;;一種基于信息熵的Web頁面主題信息抽取方法[J];計算機工程與應用;2007年04期
相關碩士學位論文 前2條
1 李紅亮;基于規(guī)則的百科人物屬性抽取算法的研究[D];西南交通大學;2013年
2 吉向文;標簽樹模板在網(wǎng)頁關鍵信息抽取及話題識別中的應用[D];復旦大學;2009年
本文編號:2695307
本文鏈接:http://lk138.cn/kejilunwen/sousuoyinqinglunwen/2695307.html