中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

文本向量表示模型及其改進(jìn)研究

發(fā)布時(shí)間:2020-12-26 01:48
  文本挖掘是實(shí)現(xiàn)知識發(fā)現(xiàn)、自然語言處理最為關(guān)鍵的一步.文本挖掘與一般數(shù)據(jù)挖掘的本質(zhì)的區(qū)別在于,文本的數(shù)據(jù)形式是半結(jié)構(gòu)化的,因之對文本數(shù)據(jù)進(jìn)行挖掘的首要任務(wù)是文本數(shù)據(jù)的結(jié)構(gòu)化表示.然而,現(xiàn)有的文本表示方法存在語義信息提取不充分、表示模型的維數(shù)很高、模型構(gòu)建復(fù)雜度大等問題.從而對文本表示模型進(jìn)行深入研究并對模型中現(xiàn)有的問題著手改進(jìn)是十分必要的.圍繞文本挖掘的核心文本表示問題,本文在梳理、歸納現(xiàn)有文本向量表示模型的基礎(chǔ)上,以共現(xiàn)分析理論、長尾理論、布爾運(yùn)算法則為支撐,對文本向量表示模型中的幾個(gè)核心問題展開了較為深入的研究并作出相應(yīng)改進(jìn).本文首先介紹了文本向量表示模型的研究背景,目的,意義及國內(nèi)外研究現(xiàn)狀,并指出文章的主要研究內(nèi)容、研究方法及創(chuàng)新之處.其次是對文本向量表示模型的相關(guān)理論研究.對本文的所用到的共現(xiàn)分析理論、長尾理論、布爾代數(shù)運(yùn)算法則作了介紹;詳細(xì)梳理、歸納了文本表示模型的發(fā)展路徑.對發(fā)展過程中的重要關(guān)鍵模型構(gòu)建的數(shù)學(xué)思想作了對比分析并指出各模型的適用范圍和不足之處,厘清文本向量表示模型的構(gòu)建原理和發(fā)展脈絡(luò);第三,是對文本向量表示模型的關(guān)鍵技術(shù)的改進(jìn)研究.針對文本向量表示的新模型-共... 

【文章來源】:山西大學(xué)山西省

【文章頁數(shù)】:58 頁

【學(xué)位級別】:碩士

【部分圖文】:

文本向量表示模型及其改進(jìn)研究


特征詞共現(xiàn)關(guān)系圖

基本流程圖


實(shí)驗(yàn)基本流程圖

山丘,聚類,袋模


圖 4.2 GCLSVSM 聚類山丘圖圖可以看出山丘圖的峰是比較明顯的,這表明 GCLSVSM 可以對,故下面分別用詞袋模型、CLSVSM 和本文所提出的 GCLSVSM 三新聞數(shù)據(jù)進(jìn)行50次聚類實(shí)驗(yàn)并記錄其熵值和純度,用Excel表計(jì)算


本文編號:2938799

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/tongjijuecelunwen/2938799.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bf914***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com