基于改進(jìn)凝聚層次聚類的人名消歧應(yīng)用研究——以校友識(shí)別為例
發(fā)布時(shí)間:2024-05-28 20:27
校友資源作為學(xué)校建設(shè)最重要的資源之一,在學(xué)校發(fā)展傳承中有著其特殊而重要的作用,如何挖掘、整合與利用好校友資源是一個(gè)重要的課題。但由于人名具有歧義現(xiàn)象,直接利用互聯(lián)網(wǎng)進(jìn)行人名的檢索往往得到大量非目標(biāo)信息,為此本文試圖利用人名消歧技術(shù),完成對(duì)校友身份的確認(rèn)。本文首先研究了層次聚類算法,通過(guò)文獻(xiàn)計(jì)量與知識(shí)圖譜的繪制,對(duì)近二十年層次聚類算法相關(guān)研究文獻(xiàn)進(jìn)行了分析,從發(fā)文趨勢(shì)、文獻(xiàn)的學(xué)科分布、作者合作情況、以及研究熱點(diǎn)與前沿等多個(gè)角度進(jìn)行了細(xì)致的分析,為文本的算法改進(jìn)提供了依據(jù)。隨后本文對(duì)傳統(tǒng)層次聚類算法進(jìn)行了改進(jìn),基于分位數(shù)的思想提出了新的基于分位數(shù)的類簇間距離計(jì)算方法,用分位數(shù)區(qū)間內(nèi)數(shù)據(jù)點(diǎn)間距離的平均值度量類簇間的距離,從而在一定程度上排除了離群點(diǎn)對(duì)聚類精度的影響,并提高了聚類的準(zhǔn)確度,更適合本文的人名消歧與校友識(shí)別的應(yīng)用場(chǎng)景。之后提出了基于改進(jìn)層次聚類算法的校友信息識(shí)別模型,模型主要包括文本預(yù)處理、文本關(guān)鍵詞的提取、文本特征向量的生成、人名消歧與校友識(shí)別四個(gè)模塊組成。模型首先利用word2vec工具對(duì)網(wǎng)頁(yè)文本進(jìn)行文本表示與詞向量的生成,基于均值word2vec思想對(duì)文本關(guān)鍵詞詞向量進(jìn)行均值...
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
變量注釋表
1 緒論
1.1 引言
1.2 國(guó)內(nèi)外研究現(xiàn)狀綜述
1.3 問(wèn)題的提出及研究意義
1.4 研究思路及安排
1.5 論文的主要內(nèi)容及創(chuàng)新點(diǎn)
2 人名消歧相關(guān)理論基礎(chǔ)
2.1 文本預(yù)處理
2.2 關(guān)鍵詞提取
2.3 文本表示方法
2.4 傳統(tǒng)文本相似度計(jì)算模型
2.5 傳統(tǒng)聚類算法
2.6 聚類算法的評(píng)價(jià)指標(biāo)
2.7 本章小節(jié)
3 層次聚類算法研究發(fā)展布局分析
3.1 數(shù)據(jù)來(lái)源與研究工具
3.2 層次聚類算法研究發(fā)展布局分析
3.3 本章小節(jié)
4 層次聚類算法的改進(jìn)
4.1 層次聚類算法概述
4.2 基于分位數(shù)的類簇間距離計(jì)算方式改進(jìn)
4.3 算法實(shí)驗(yàn)
4.4 本章小結(jié)
5 基于改進(jìn)層次聚類算法的校友識(shí)別模型構(gòu)建
5.1 基于改進(jìn)層次聚類算法的校友識(shí)別模型設(shè)計(jì)
5.2 基于改進(jìn)層次聚類算法的校友識(shí)別實(shí)驗(yàn)
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 論文主要研究工作總結(jié)
6.2 今后研究工作展望
參考文獻(xiàn)
附錄1
作者簡(jiǎn)歷
致謝
學(xué)位論文數(shù)據(jù)集
本文編號(hào):3983686
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
變量注釋表
1 緒論
1.1 引言
1.2 國(guó)內(nèi)外研究現(xiàn)狀綜述
1.3 問(wèn)題的提出及研究意義
1.4 研究思路及安排
1.5 論文的主要內(nèi)容及創(chuàng)新點(diǎn)
2 人名消歧相關(guān)理論基礎(chǔ)
2.1 文本預(yù)處理
2.2 關(guān)鍵詞提取
2.3 文本表示方法
2.4 傳統(tǒng)文本相似度計(jì)算模型
2.5 傳統(tǒng)聚類算法
2.6 聚類算法的評(píng)價(jià)指標(biāo)
2.7 本章小節(jié)
3 層次聚類算法研究發(fā)展布局分析
3.1 數(shù)據(jù)來(lái)源與研究工具
3.2 層次聚類算法研究發(fā)展布局分析
3.3 本章小節(jié)
4 層次聚類算法的改進(jìn)
4.1 層次聚類算法概述
4.2 基于分位數(shù)的類簇間距離計(jì)算方式改進(jìn)
4.3 算法實(shí)驗(yàn)
4.4 本章小結(jié)
5 基于改進(jìn)層次聚類算法的校友識(shí)別模型構(gòu)建
5.1 基于改進(jìn)層次聚類算法的校友識(shí)別模型設(shè)計(jì)
5.2 基于改進(jìn)層次聚類算法的校友識(shí)別實(shí)驗(yàn)
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 論文主要研究工作總結(jié)
6.2 今后研究工作展望
參考文獻(xiàn)
附錄1
作者簡(jiǎn)歷
致謝
學(xué)位論文數(shù)據(jù)集
本文編號(hào):3983686
本文鏈接:http://www.lk138.cn/tushudanganlunwen/3983686.html
最近更新
教材專著