關聯(lián)型實體名稱數(shù)據(jù)語義聚合研究

發(fā)布時間：2020-10-22 15:52

　　關聯(lián)型實體名稱數(shù)據(jù)是采用關聯(lián)數(shù)據(jù)的發(fā)布形式,表示各種實體命名性指稱的數(shù)據(jù),包括對應實體的主題和外部特征信息,蘊含著豐富的語義性和復雜的關聯(lián)性,對研究數(shù)據(jù)挖掘和重塑知識體系具有重要的價值。當前,眾多語義知識庫對個人、機構、地點等實體數(shù)據(jù)的構建都是基于開放和關聯(lián)的;在同一個知識庫中,不同名稱數(shù)據(jù)表征的實體之間擁有較強的相關性,它們潛在的關系往往不止是為用戶展示的單一關聯(lián),而是更多的表征數(shù)據(jù)多維特征及數(shù)據(jù)價值,然而潛在關系的缺失嚴重影響了知識庫的整體水平和數(shù)據(jù)質量;在不同知識庫中,針對客觀世界同一指向的實體對象在構建方法、表達形式、描述范圍及揭示深度上表現(xiàn)出明顯的區(qū)別,致使數(shù)據(jù)間的異構性強、共享程度難、數(shù)據(jù)利用率低,暴露出信息超載和信息污染等導致信息生態(tài)失衡的問題,加重了用戶在網(wǎng)絡環(huán)境下的認知負擔。語義聚合成為解決上述問題的有效途徑,既能動態(tài)關聯(lián)和組織“知識碎片”,為發(fā)現(xiàn)新知識提供明確的方向和思路,又能消除多源異構數(shù)據(jù)的差異,重新形成有機的、緊密的數(shù)據(jù)聚合模式,以滿足多元的知識需求和服務。本文分別基于同源數(shù)據(jù)和跨源數(shù)據(jù)對數(shù)據(jù)語義聚合問題進行了理論探討和實證研究,主要圍繞以下幾個方面開展:(1)分析了目前幾個典型知識庫中實體名稱數(shù)據(jù)的總體建設情況和差異問題,通過比較闡述了各自的優(yōu)勢和特征,為明晰語義聚合問題提供了現(xiàn)實需求。在此基礎上明確了關聯(lián)型實體名稱數(shù)據(jù)內(nèi)涵和特點,提出了關聯(lián)型實體名稱數(shù)據(jù)的通用關聯(lián)模型。(2)通過歸納語義聚合的實現(xiàn)方法及應用場景,據(jù)此作為聚合研究的理論基礎,探討了本文選取的兩個聚合依據(jù),即利用數(shù)據(jù)的關聯(lián)性實現(xiàn)同源數(shù)據(jù)聚合,利用數(shù)據(jù)的語義性實現(xiàn)跨數(shù)據(jù)源聚合,并據(jù)此設計了語義聚合整體框架。(3)基于因果鏈求解方法和關聯(lián)規(guī)則技術,分別以民國四大家族人物數(shù)據(jù)集和諾貝爾文學獎作家數(shù)據(jù)集,實現(xiàn)了采用單一人物關系和多種實體關系的同源語義聚合實驗;基于對GADES相似度測度方法及字符串編輯距離算法的改良,以源于Wikidata和YAGO的兩組諾貝爾文學獎作家數(shù)據(jù)集為對象,實現(xiàn)了強調(diào)語義性的跨數(shù)據(jù)源匹配聚合實現(xiàn),從而為以集群整體數(shù)據(jù)挖掘特征、建立關聯(lián)、發(fā)現(xiàn)資源、消除數(shù)據(jù)的多源異構差異提供參考。
【學位單位】：山西大學
【學位級別】：碩士
【學位年份】：2018
【中圖分類】：G254
【部分圖文】：

關聯(lián)規(guī)則挖掘,示例,頻繁項集

第二章實體名稱數(shù)據(jù)與語義聚合年份_1920”，保留其余的項構成 1-頻繁項集 L1；當 k=2 時，將 L1中的項兩兩連接產(chǎn)生長度等于 2 的項，計算項的支持度，同理，確定滿足最小支持度閾值的項，構成 2-頻繁項集 L2；以此類推，L3中僅包含一個長度為 3 的項，不能產(chǎn)生 4-頻繁項集，停止掃描指令，合并所有的 Lk（k=1,2,3），即為真正的頻繁項集。

整體框架,實體名,實體關系

本文設計了基于關聯(lián)型實體名稱數(shù)據(jù)語義聚合整體框架，如圖2.6 所示，首先基于因果鏈求解理論及實體關系測度方法，運用單一關系實現(xiàn)同源實體名稱數(shù)據(jù)的語義聚合；再從多種實體關系考慮，利用關聯(lián)規(guī)則挖掘技術將實體關聯(lián)引申為左右為不同實體類型數(shù)據(jù)的各類規(guī)則，并對聚合規(guī)則進行詳細的分析；最后抽取跨數(shù)據(jù)源的實體名稱數(shù)據(jù)，通過模式層映射及實體相似匹配算法將指向同一對象的實體名稱整合在一起，對異源異構數(shù)據(jù)進行語義聚合實踐。圖 2.6 語義聚合整體框架

人物關系,知識表達模型,許廣平,魯迅