基于改進(jìn)凝聚層次聚類的人名消歧應(yīng)用研究——以校友識別為例
發(fā)布時間:2024-05-28 20:27
校友資源作為學(xué)校建設(shè)最重要的資源之一,在學(xué)校發(fā)展傳承中有著其特殊而重要的作用,如何挖掘、整合與利用好校友資源是一個重要的課題。但由于人名具有歧義現(xiàn)象,直接利用互聯(lián)網(wǎng)進(jìn)行人名的檢索往往得到大量非目標(biāo)信息,為此本文試圖利用人名消歧技術(shù),完成對校友身份的確認(rèn)。本文首先研究了層次聚類算法,通過文獻(xiàn)計量與知識圖譜的繪制,對近二十年層次聚類算法相關(guān)研究文獻(xiàn)進(jìn)行了分析,從發(fā)文趨勢、文獻(xiàn)的學(xué)科分布、作者合作情況、以及研究熱點(diǎn)與前沿等多個角度進(jìn)行了細(xì)致的分析,為文本的算法改進(jìn)提供了依據(jù)。隨后本文對傳統(tǒng)層次聚類算法進(jìn)行了改進(jìn),基于分位數(shù)的思想提出了新的基于分位數(shù)的類簇間距離計算方法,用分位數(shù)區(qū)間內(nèi)數(shù)據(jù)點(diǎn)間距離的平均值度量類簇間的距離,從而在一定程度上排除了離群點(diǎn)對聚類精度的影響,并提高了聚類的準(zhǔn)確度,更適合本文的人名消歧與校友識別的應(yīng)用場景。之后提出了基于改進(jìn)層次聚類算法的校友信息識別模型,模型主要包括文本預(yù)處理、文本關(guān)鍵詞的提取、文本特征向量的生成、人名消歧與校友識別四個模塊組成。模型首先利用word2vec工具對網(wǎng)頁文本進(jìn)行文本表示與詞向量的生成,基于均值word2vec思想對文本關(guān)鍵詞詞向量進(jìn)行均值...
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
變量注釋表
1 緒論
1.1 引言
1.2 國內(nèi)外研究現(xiàn)狀綜述
1.3 問題的提出及研究意義
1.4 研究思路及安排
1.5 論文的主要內(nèi)容及創(chuàng)新點(diǎn)
2 人名消歧相關(guān)理論基礎(chǔ)
2.1 文本預(yù)處理
2.2 關(guān)鍵詞提取
2.3 文本表示方法
2.4 傳統(tǒng)文本相似度計算模型
2.5 傳統(tǒng)聚類算法
2.6 聚類算法的評價指標(biāo)
2.7 本章小節(jié)
3 層次聚類算法研究發(fā)展布局分析
3.1 數(shù)據(jù)來源與研究工具
3.2 層次聚類算法研究發(fā)展布局分析
3.3 本章小節(jié)
4 層次聚類算法的改進(jìn)
4.1 層次聚類算法概述
4.2 基于分位數(shù)的類簇間距離計算方式改進(jìn)
4.3 算法實驗
4.4 本章小結(jié)
5 基于改進(jìn)層次聚類算法的校友識別模型構(gòu)建
5.1 基于改進(jìn)層次聚類算法的校友識別模型設(shè)計
5.2 基于改進(jìn)層次聚類算法的校友識別實驗
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 論文主要研究工作總結(jié)
6.2 今后研究工作展望
參考文獻(xiàn)
附錄1
作者簡歷
致謝
學(xué)位論文數(shù)據(jù)集
本文編號:3983686
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
變量注釋表
1 緒論
1.1 引言
1.2 國內(nèi)外研究現(xiàn)狀綜述
1.3 問題的提出及研究意義
1.4 研究思路及安排
1.5 論文的主要內(nèi)容及創(chuàng)新點(diǎn)
2 人名消歧相關(guān)理論基礎(chǔ)
2.1 文本預(yù)處理
2.2 關(guān)鍵詞提取
2.3 文本表示方法
2.4 傳統(tǒng)文本相似度計算模型
2.5 傳統(tǒng)聚類算法
2.6 聚類算法的評價指標(biāo)
2.7 本章小節(jié)
3 層次聚類算法研究發(fā)展布局分析
3.1 數(shù)據(jù)來源與研究工具
3.2 層次聚類算法研究發(fā)展布局分析
3.3 本章小節(jié)
4 層次聚類算法的改進(jìn)
4.1 層次聚類算法概述
4.2 基于分位數(shù)的類簇間距離計算方式改進(jìn)
4.3 算法實驗
4.4 本章小結(jié)
5 基于改進(jìn)層次聚類算法的校友識別模型構(gòu)建
5.1 基于改進(jìn)層次聚類算法的校友識別模型設(shè)計
5.2 基于改進(jìn)層次聚類算法的校友識別實驗
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 論文主要研究工作總結(jié)
6.2 今后研究工作展望
參考文獻(xiàn)
附錄1
作者簡歷
致謝
學(xué)位論文數(shù)據(jù)集
本文編號:3983686
本文鏈接:http://www.lk138.cn/tushudanganlunwen/3983686.html
最近更新
教材專著