關聯(lián)型實體名稱數(shù)據(jù)語義聚合研究
發(fā)布時間:2020-10-22 15:52
關聯(lián)型實體名稱數(shù)據(jù)是采用關聯(lián)數(shù)據(jù)的發(fā)布形式,表示各種實體命名性指稱的數(shù)據(jù),包括對應實體的主題和外部特征信息,蘊含著豐富的語義性和復雜的關聯(lián)性,對研究數(shù)據(jù)挖掘和重塑知識體系具有重要的價值。當前,眾多語義知識庫對個人、機構、地點等實體數(shù)據(jù)的構建都是基于開放和關聯(lián)的;在同一個知識庫中,不同名稱數(shù)據(jù)表征的實體之間擁有較強的相關性,它們潛在的關系往往不止是為用戶展示的單一關聯(lián),而是更多的表征數(shù)據(jù)多維特征及數(shù)據(jù)價值,然而潛在關系的缺失嚴重影響了知識庫的整體水平和數(shù)據(jù)質量;在不同知識庫中,針對客觀世界同一指向的實體對象在構建方法、表達形式、描述范圍及揭示深度上表現(xiàn)出明顯的區(qū)別,致使數(shù)據(jù)間的異構性強、共享程度難、數(shù)據(jù)利用率低,暴露出信息超載和信息污染等導致信息生態(tài)失衡的問題,加重了用戶在網(wǎng)絡環(huán)境下的認知負擔。語義聚合成為解決上述問題的有效途徑,既能動態(tài)關聯(lián)和組織“知識碎片”,為發(fā)現(xiàn)新知識提供明確的方向和思路,又能消除多源異構數(shù)據(jù)的差異,重新形成有機的、緊密的數(shù)據(jù)聚合模式,以滿足多元的知識需求和服務。本文分別基于同源數(shù)據(jù)和跨源數(shù)據(jù)對數(shù)據(jù)語義聚合問題進行了理論探討和實證研究,主要圍繞以下幾個方面開展:(1)分析了目前幾個典型知識庫中實體名稱數(shù)據(jù)的總體建設情況和差異問題,通過比較闡述了各自的優(yōu)勢和特征,為明晰語義聚合問題提供了現(xiàn)實需求。在此基礎上明確了關聯(lián)型實體名稱數(shù)據(jù)內涵和特點,提出了關聯(lián)型實體名稱數(shù)據(jù)的通用關聯(lián)模型。(2)通過歸納語義聚合的實現(xiàn)方法及應用場景,據(jù)此作為聚合研究的理論基礎,探討了本文選取的兩個聚合依據(jù),即利用數(shù)據(jù)的關聯(lián)性實現(xiàn)同源數(shù)據(jù)聚合,利用數(shù)據(jù)的語義性實現(xiàn)跨數(shù)據(jù)源聚合,并據(jù)此設計了語義聚合整體框架。(3)基于因果鏈求解方法和關聯(lián)規(guī)則技術,分別以民國四大家族人物數(shù)據(jù)集和諾貝爾文學獎作家數(shù)據(jù)集,實現(xiàn)了采用單一人物關系和多種實體關系的同源語義聚合實驗;基于對GADES相似度測度方法及字符串編輯距離算法的改良,以源于Wikidata和YAGO的兩組諾貝爾文學獎作家數(shù)據(jù)集為對象,實現(xiàn)了強調語義性的跨數(shù)據(jù)源匹配聚合實現(xiàn),從而為以集群整體數(shù)據(jù)挖掘特征、建立關聯(lián)、發(fā)現(xiàn)資源、消除數(shù)據(jù)的多源異構差異提供參考。
【學位單位】:山西大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:G254
【部分圖文】:
第二章 實體名稱數(shù)據(jù)與語義聚合年份_1920”,保留其余的項構成 1-頻繁項集 L1;當 k=2 時,將 L1中的項兩兩連接產(chǎn)生長度等于 2 的項,計算項的支持度,同理,確定滿足最小支持度閾值的項,構成 2-頻繁項集 L2;以此類推,L3中僅包含一個長度為 3 的項,不能產(chǎn)生 4-頻繁項集,停止掃描指令,合并所有的 Lk(k=1,2,3),即為真正的頻繁項集。
本文設計了基于關聯(lián)型實體名稱數(shù)據(jù)語義聚合整體框架,如圖2.6 所示,首先基于因果鏈求解理論及實體關系測度方法,運用單一關系實現(xiàn)同源實體名稱數(shù)據(jù)的語義聚合;再從多種實體關系考慮,利用關聯(lián)規(guī)則挖掘技術將實體關聯(lián)引申為左右為不同實體類型數(shù)據(jù)的各類規(guī)則,并對聚合規(guī)則進行詳細的分析;最后抽取跨數(shù)據(jù)源的實體名稱數(shù)據(jù),通過模式層映射及實體相似匹配算法將指向同一對象的實體名稱整合在一起,對異源異構數(shù)據(jù)進行語義聚合實踐。圖 2.6 語義聚合整體框架
并通過多個人物節(jié)點揭示出潛在的人物隱性關系。例如,在圖3.1 所示的配偶關系中,以“魯迅”為主節(jié)點,“許廣平”為值節(jié)點,由圖可知共有兩條人物關系因果鏈,分別是“‘魯迅’→‘許廣平’”和“‘魯迅’→‘周海
【參考文獻】
本文編號:2851801
【學位單位】:山西大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:G254
【部分圖文】:
第二章 實體名稱數(shù)據(jù)與語義聚合年份_1920”,保留其余的項構成 1-頻繁項集 L1;當 k=2 時,將 L1中的項兩兩連接產(chǎn)生長度等于 2 的項,計算項的支持度,同理,確定滿足最小支持度閾值的項,構成 2-頻繁項集 L2;以此類推,L3中僅包含一個長度為 3 的項,不能產(chǎn)生 4-頻繁項集,停止掃描指令,合并所有的 Lk(k=1,2,3),即為真正的頻繁項集。
本文設計了基于關聯(lián)型實體名稱數(shù)據(jù)語義聚合整體框架,如圖2.6 所示,首先基于因果鏈求解理論及實體關系測度方法,運用單一關系實現(xiàn)同源實體名稱數(shù)據(jù)的語義聚合;再從多種實體關系考慮,利用關聯(lián)規(guī)則挖掘技術將實體關聯(lián)引申為左右為不同實體類型數(shù)據(jù)的各類規(guī)則,并對聚合規(guī)則進行詳細的分析;最后抽取跨數(shù)據(jù)源的實體名稱數(shù)據(jù),通過模式層映射及實體相似匹配算法將指向同一對象的實體名稱整合在一起,對異源異構數(shù)據(jù)進行語義聚合實踐。圖 2.6 語義聚合整體框架
并通過多個人物節(jié)點揭示出潛在的人物隱性關系。例如,在圖3.1 所示的配偶關系中,以“魯迅”為主節(jié)點,“許廣平”為值節(jié)點,由圖可知共有兩條人物關系因果鏈,分別是“‘魯迅’→‘許廣平’”和“‘魯迅’→‘周海
【參考文獻】
相關期刊論文 前10條
1 牟冬梅;王萍;張艷俠;;基于關聯(lián)數(shù)據(jù)的數(shù)字資源語義聚合策略[J];情報資料工作;2015年05期
2 高廣尚;張智雄;;關系數(shù)據(jù)庫中實體解析研究綜述[J];現(xiàn)代圖書情報技術;2015年Z1期
3 王穎;張智雄;孫輝;雷楓;;國史知識的語義揭示與組織方法研究[J];中國圖書館學報;2015年04期
4 孫建軍;徐芳;;基于關聯(lián)數(shù)據(jù)的學科網(wǎng)絡信息深度聚合框架構建[J];圖書館;2015年07期
5 趙森棟;劉挺;;因果關系及其在社會媒體上的應用研究綜述[J];軟件學報;2014年12期
6 邱均平;方國平;;高校圖書館語義化館藏資源深度聚合模式及其應用研究[J];圖書館學研究;2014年21期
7 翟東升;張欣琦;張杰;;Derwent專利本體設計與構建[J];情報科學;2013年12期
8 何超;張玉峰;;基于本體的館藏數(shù)字資源語義聚合與可視化研究[J];情報理論與實踐;2013年10期
9 游毅;成全;;試論基于關聯(lián)數(shù)據(jù)的館藏資源聚合模式[J];情報理論與實踐;2013年01期
10 賀德方;曾建勛;;基于語義的館藏資源深度聚合研究[J];中國圖書館學報;2012年04期
本文編號:2851801
本文鏈接:http://www.lk138.cn/tushudanganlunwen/2851801.html
教材專著