【摘要】:詞語相似度計算不僅是自然語言處理中的一個重要基礎(chǔ)性研究課題,它也被廣泛應用于知識管理、信息檢索、生物醫(yī)學、認知科學和心理學等領(lǐng)域。隨著信息時代的到來,人們更迫切需要解決詞語相似度計算的問題。鑒于本體中豐富的語義關(guān)系和便于計算的結(jié)構(gòu),越來越多研究學者開始對基于本體的詞語相似度算法進行研究,因此本文針對本體,提出了一種概念特征與分類學參數(shù)的映射模型,并在以往基于特征的計算詞語相似度的基本算法模型的基礎(chǔ)上提出了本文基于特征計算詞語相似度的基本算法公式。以該映射模型和本文基于特征計算詞語相似度的基本算法公式為基礎(chǔ),針對《知網(wǎng)》和WordNet兩個知識本體分別提出了幾種基于特征的詞語相似度算法模型去解決以往算法中出現(xiàn)的一些尚未解決的問題并提高其算法精度。對《知網(wǎng)》提出了一種基于特征的快速計算詞語相似度的算法模型。為使《知網(wǎng)》可以直接利用上下位關(guān)系計算詞語相似度,省去計算義項相似度前需要計算義原相似度的過程,進而簡化計算詞語相似度的過程,本文根據(jù)《知網(wǎng)》義項語義表達式(DEF)中各義原的關(guān)系,在以往義原樹的基礎(chǔ)上構(gòu)建了一棵義項樹。首先,將《知網(wǎng)》義項DEF中帶有關(guān)系約束的第一獨立義原定義成抽象概念,從而將義項語義表達式轉(zhuǎn)換成一個多層次的抽象概念組。然后根據(jù)義項定義中的抽象概念將義項掛到《知網(wǎng)》現(xiàn)有的義原樹中,形成一棵包含義原、抽象概念與義項的義項樹。通過本文提出的概念特征與分類學參數(shù)的映射模型將概念特征映射為義項樹中概念間的深度和路徑,并以本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上對公式進行改進,并利用兩個概念對應義項DEF中的義原對概念特征進行補償,通過參數(shù)調(diào)節(jié)義項定義中各義原對特征的貢獻大小。另外考慮到深度和路徑對計算詞語相似度的貢獻并不相同,通過映射模型將概念特征映射為義項樹中概念間的深度和路徑,并采用本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上將公式變換成公共特征和不相同特征均帶參數(shù)的公式,提出了一種基于加權(quán)特征的詞語相似度計算模型。實驗證明,針對《知網(wǎng)》提出的兩種計算模型,MC30詞對計算的相似度值與人工判定值相比,分別取得了 0.85和0.86的皮爾森相關(guān)系數(shù),該結(jié)果達到了目前優(yōu)秀詞語相似度算法的水平。另外本文測試了以往相關(guān)論文中使用的測試詞對,實驗結(jié)果表明,本文的兩個算法模型計算效果都較之前的要好。對WordNet提出了一種基于特征的多源信息的融合模型計算詞語相似度。通過本文提出的概念特征與分類學參數(shù)的映射模型將概念特征映射為概念間路徑和深度以及信息內(nèi)容這些分類學參數(shù),以概念間最近公共上位的深度為概念間共有特征,概念間最短路徑為概念間不相同特征,并以本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上對公式進行改進,并利用密度補償概念間特征差異,改善了前人優(yōu)秀算法計算的相似度呈現(xiàn)的非線性偏高問題,并引入編碼差異性克服了信息源單一造成的計算結(jié)果區(qū)分度不高的缺陷并微調(diào)概念間特征差異問題。最后,通過引入正弦計算的邊權(quán)重和調(diào)節(jié)參數(shù)合理的考慮了路徑、深度和獨立編碼對計算詞語相似度的貢獻程度。實驗證明,對于RG65、MC30、SimLex999中的666對名詞、SimLex999中的222對動詞、YP130詞對,采用相同參數(shù)本文計算的相似度值與人工判定值計算可以分別取得0.88、0.88、0.61、0.52、0.80的皮爾森相關(guān)系數(shù),不使用相同參數(shù)最好可以分別取得0.88、0.89、0.61、0.55、0.81的皮爾森相關(guān)系數(shù),該結(jié)果均達到了目前優(yōu)秀詞語相似度算法的水平。為證明算法通用性,本文將該算法移植到和WordNet結(jié)構(gòu)極為相似的SNOMED CT醫(yī)學本體中利用國際通用的醫(yī)學測試集Pedersen30數(shù)據(jù)集進行測試。實驗證明,本文的算法模型應用到SNOMED CT中與Pedersen30數(shù)據(jù)集的人工判定值計算最好可以取得0.86的皮爾森相關(guān)系數(shù),該結(jié)果也達到了目前優(yōu)秀詞語相似度算法的水平。
[Abstract]:......
【學位授予單位】:廣西師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 朱新華;馬潤聰;孫柳;陳宏朝;;基于知網(wǎng)與詞林的詞語語義相似度計算[J];中文信息學報;2016年04期
2 朱征宇;孫俊華;;改進的基于《知網(wǎng)》的詞匯語義相似度計算[J];計算機應用;2013年08期
3 張瑞霞;楊國增;吳慧欣;;基于《知網(wǎng)》的漢語未登錄詞語義相似度計算[J];中文信息學報;2012年01期
4 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期
5 張亮;尹存燕;陳家駿;;基于語義樹的中文詞語相似度計算與分析[J];中文信息學報;2010年06期
6 劉青磊;顧小豐;;基于《知網(wǎng)》的詞語相似度算法研究[J];中文信息學報;2010年06期
7 蔣溢;丁優(yōu);熊安萍;王化晶;;一種基于知網(wǎng)的詞匯語義相似度改進計算方法[J];重慶郵電大學學報(自然科學版);2009年04期
8 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進的語義相似度計算模型及應用[J];吉林大學學報(工學版);2009年01期
9 周粉;夏幼明;;一種改進的基于知網(wǎng)的語義相似度計算方法[J];云南大學學報(自然科學版);2008年S2期
10 江敏;肖詩斌;王弘蔚;施水才;;一種改進的基于《知網(wǎng)》的詞語語義相似度計算[J];中文信息學報;2008年05期
相關(guān)博士學位論文 前1條
1 劉宏哲;文本語義相似度計算方法研究[D];北京交通大學;2012年
,
本文編號:
2324818
本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/2324818.html