基于特征的本體詞語相似度算法研究

發(fā)布時間：2018-11-11 12:21

【摘要】：詞語相似度計算不僅是自然語言處理中的一個重要基礎性研究課題,它也被廣泛應用于知識管理、信息檢索、生物醫(yī)學、認知科學和心理學等領域。隨著信息時代的到來,人們更迫切需要解決詞語相似度計算的問題。鑒于本體中豐富的語義關系和便于計算的結構,越來越多研究學者開始對基于本體的詞語相似度算法進行研究,因此本文針對本體,提出了一種概念特征與分類學參數的映射模型,并在以往基于特征的計算詞語相似度的基本算法模型的基礎上提出了本文基于特征計算詞語相似度的基本算法公式。以該映射模型和本文基于特征計算詞語相似度的基本算法公式為基礎,針對《知網》和WordNet兩個知識本體分別提出了幾種基于特征的詞語相似度算法模型去解決以往算法中出現的一些尚未解決的問題并提高其算法精度。對《知網》提出了一種基于特征的快速計算詞語相似度的算法模型。為使《知網》可以直接利用上下位關系計算詞語相似度,省去計算義項相似度前需要計算義原相似度的過程,進而簡化計算詞語相似度的過程,本文根據《知網》義項語義表達式(DEF)中各義原的關系,在以往義原樹的基礎上構建了一棵義項樹。首先,將《知網》義項DEF中帶有關系約束的第一獨立義原定義成抽象概念,從而將義項語義表達式轉換成一個多層次的抽象概念組。然后根據義項定義中的抽象概念將義項掛到《知網》現有的義原樹中,形成一棵包含義原、抽象概念與義項的義項樹。通過本文提出的概念特征與分類學參數的映射模型將概念特征映射為義項樹中概念間的深度和路徑,并以本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎上對公式進行改進,并利用兩個概念對應義項DEF中的義原對概念特征進行補償,通過參數調節(jié)義項定義中各義原對特征的貢獻大小。另外考慮到深度和路徑對計算詞語相似度的貢獻并不相同,通過映射模型將概念特征映射為義項樹中概念間的深度和路徑,并采用本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎上將公式變換成公共特征和不相同特征均帶參數的公式,提出了一種基于加權特征的詞語相似度計算模型。實驗證明,針對《知網》提出的兩種計算模型,MC30詞對計算的相似度值與人工判定值相比,分別取得了 0.85和0.86的皮爾森相關系數,該結果達到了目前優(yōu)秀詞語相似度算法的水平。另外本文測試了以往相關論文中使用的測試詞對,實驗結果表明,本文的兩個算法模型計算效果都較之前的要好。對WordNet提出了一種基于特征的多源信息的融合模型計算詞語相似度。通過本文提出的概念特征與分類學參數的映射模型將概念特征映射為概念間路徑和深度以及信息內容這些分類學參數,以概念間最近公共上位的深度為概念間共有特征,概念間最短路徑為概念間不相同特征,并以本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎上對公式進行改進,并利用密度補償概念間特征差異,改善了前人優(yōu)秀算法計算的相似度呈現的非線性偏高問題,并引入編碼差異性克服了信息源單一造成的計算結果區(qū)分度不高的缺陷并微調概念間特征差異問題。最后,通過引入正弦計算的邊權重和調節(jié)參數合理的考慮了路徑、深度和獨立編碼對計算詞語相似度的貢獻程度。實驗證明,對于RG65、MC30、SimLex999中的666對名詞、SimLex999中的222對動詞、YP130詞對,采用相同參數本文計算的相似度值與人工判定值計算可以分別取得0.88、0.88、0.61、0.52、0.80的皮爾森相關系數,不使用相同參數最好可以分別取得0.88、0.89、0.61、0.55、0.81的皮爾森相關系數,該結果均達到了目前優(yōu)秀詞語相似度算法的水平。為證明算法通用性,本文將該算法移植到和WordNet結構極為相似的SNOMED CT醫(yī)學本體中利用國際通用的醫(yī)學測試集Pedersen30數據集進行測試。實驗證明,本文的算法模型應用到SNOMED CT中與Pedersen30數據集的人工判定值計算最好可以取得0.86的皮爾森相關系數,該結果也達到了目前優(yōu)秀詞語相似度算法的水平。
[Abstract]:......
【學位授予單位】：廣西師范大學
【學位級別】：碩士
【學位授予年份】：2017
【分類號】：TP391.1

【參考文獻】

相關期刊論文前10條

1 朱新華;馬潤聰;孫柳;陳宏朝;;基于知網與詞林的詞語語義相似度計算[J];中文信息學報;2016年04期

2 朱征宇;孫俊華;;改進的基于《知網》的詞匯語義相似度計算[J];計算機應用;2013年08期

3 張瑞霞;楊國增;吳慧欣;;基于《知網》的漢語未登錄詞語義相似度計算[J];中文信息學報;2012年01期

4 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期

5 張亮;尹存燕;陳家駿;;基于語義樹的中文詞語相似度計算與分析[J];中文信息學報;2010年06期

6 劉青磊;顧小豐;;基于《知網》的詞語相似度算法研究[J];中文信息學報;2010年06期

7 蔣溢;丁優(yōu);熊安萍;王化晶;;一種基于知網的詞匯語義相似度改進計算方法[J];重慶郵電大學學報(自然科學版);2009年04期

8 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進的語義相似度計算模型及應用[J];吉林大學學報(工學版);2009年01期

9 周粉;夏幼明;;一種改進的基于知網的語義相似度計算方法[J];云南大學學報(自然科學版);2008年S2期

10 江敏;肖詩斌;王弘蔚;施水才;;一種改進的基于《知網》的詞語語義相似度計算[J];中文信息學報;2008年05期

相關博士學位論文前1條

1 劉宏哲;文本語義相似度計算方法研究[D];北京交通大學;2012年

，

本文編號：2324818

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/ruanjiangongchenglunwen/2324818.html

上一篇：基于最大熵模糊聚類的快速多目標跟蹤算法研究
下一篇：數據驅動的細粒度中文屬性對齊方法

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于特征的本體詞語相似度算法研究