基于圖書(shū)評(píng)論的數(shù)據(jù)挖掘技術(shù)研究
本文選題:圖書(shū)評(píng)論 切入點(diǎn):數(shù)據(jù)挖掘 出處:《北方工業(yè)大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息越來(lái)越龐雜,迫切需要使用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)文本進(jìn)行提取分析,以便得到有用信息。圖書(shū)評(píng)論中包含用戶對(duì)圖書(shū)產(chǎn)品屬性及購(gòu)買(mǎi)過(guò)程的評(píng)價(jià)意見(jiàn),如何從圖書(shū)評(píng)論中高效地提取到有價(jià)值的信息成為本文的研究重點(diǎn)。本文以亞馬遜和京東兩大網(wǎng)站的圖書(shū)評(píng)論為數(shù)據(jù)來(lái)源,研究圖書(shū)特征提取及情感分析中使用的數(shù)據(jù)挖掘技術(shù),得到圖書(shū)評(píng)論挖掘結(jié)果,從而幫助消費(fèi)者及生產(chǎn)商作出科學(xué)的決策。本文首先通過(guò)分析網(wǎng)頁(yè)的標(biāo)簽規(guī)則,抽取網(wǎng)站上的圖書(shū)評(píng)論信息,構(gòu)建原始評(píng)論數(shù)據(jù)集;利用分詞及詞性標(biāo)注技術(shù)對(duì)該數(shù)據(jù)集做處理,構(gòu)建停用詞表,對(duì)停用詞進(jìn)行過(guò)濾,從而形成原始語(yǔ)料庫(kù)。然后,通過(guò)冗余詞表處理評(píng)論語(yǔ)句。使用Apriori算法,FP-Growth算法以及TF-IDF算法從評(píng)論中提取圖書(shū)特征進(jìn)行性能比對(duì)。以此為基礎(chǔ),改進(jìn)FP-Growth算法并挖掘圖書(shū)特征。接著,構(gòu)建情感詞典,對(duì)評(píng)論進(jìn)行觀點(diǎn)句識(shí)別,研究?jī)?yōu)化SVM特征選擇,進(jìn)行圖書(shū)評(píng)論粗粒度情感挖掘;"雙向判定法"和情感詞典進(jìn)行評(píng)論細(xì)粒度情感挖掘,得到具體圖書(shū)特征的情感極性。最后,使用可視化技術(shù)展示圖書(shū)評(píng)論的挖掘結(jié)果,并計(jì)算用戶需求與圖書(shū)的匹配度,幫助消費(fèi)者作出購(gòu)買(mǎi)決策。本文的主要研究成果:第一,通過(guò)構(gòu)建冗余詞表進(jìn)行冗余詞的匹配替換,降低了提取頻繁項(xiàng)集的冗余度。第二,通過(guò)改進(jìn)FP-Growth算法,將評(píng)論長(zhǎng)度權(quán)重加入算法的支持度計(jì)算中,并對(duì)提取到的特征進(jìn)行置信度排序,提高了算法的查全率和準(zhǔn)確率。第三,通過(guò)優(yōu)化SVM特征選擇,將評(píng)論星級(jí)作為向量特征加入模型構(gòu)建過(guò)程,提高了情感分析準(zhǔn)確度。第四,利用"雙向判定法"構(gòu)建情感關(guān)系,實(shí)現(xiàn)了圖書(shū)評(píng)論的細(xì)粒度情感分析。
[Abstract]:With the rapid development of the Internet, the network information is becoming more and more complex, so it is urgent to use the data mining technology to extract and analyze the network text. In order to get useful information. Book reviews contain users' comments on the attributes of book products and the purchase process, How to efficiently extract valuable information from book reviews has become the focus of this paper. This paper studies the data mining techniques used in book feature extraction and emotional analysis, and obtains the results of book review mining, which can help consumers and manufacturers to make scientific decisions. Extract the book comment information from the website, construct the original comment data set, use participle and part of speech tagging technology to process the data set, construct the stop word table, filter the stop word, and then form the original corpus. The Apriori algorithm and TF-IDF algorithm are used to extract the book features from the comments for performance comparison. Based on this, the FP-Growth algorithm is improved and the book features are mined. Then, the emotion dictionary is constructed. Point sentence recognition of comment, optimization of SVM feature selection, coarse-grained emotion mining of book review, and fine-grained emotion mining of comment based on "bidirectional judgment" and emotion dictionary, Finally, the visual technology is used to show the mining results of book reviews, and to calculate the matching degree between users' needs and books to help consumers make purchase decisions. The main research results of this paper are as follows: first, By constructing redundant vocabulary to match and replace redundant words, the redundancy of extracting frequent itemsets is reduced. Secondly, by improving the FP-Growth algorithm, the weight of comment length is added to the calculation of support degree of the algorithm. Thirdly, by optimizing the SVM feature selection, the comment star is added to the model construction process, which improves the accuracy of emotion analysis. By using the bidirectional judgment method to construct the emotional relationship, the fine granularity emotional analysis of book review is realized.
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 欒錦驥;;數(shù)據(jù)挖掘技術(shù)在圖書(shū)選題策劃中的應(yīng)用研究[J];自動(dòng)化技術(shù)與應(yīng)用;2016年12期
2 何麗;郝文靜;;基于中文圖書(shū)評(píng)論的特征挖掘算法的研究[J];北方工業(yè)大學(xué)學(xué)報(bào);2016年03期
3 徐開(kāi)勇;龔雪容;成茂才;;基于改進(jìn)Apriori算法的審計(jì)日志關(guān)聯(lián)規(guī)則挖掘[J];計(jì)算機(jī)應(yīng)用;2016年07期
4 梁亞偉;;基于情感詞典的中文微博情感分析模型研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2015年18期
5 王樂(lè);閉應(yīng)洲;;基于特征模板提取及SVM的觀點(diǎn)句識(shí)別[J];廣西師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年03期
6 王永;張勤;楊曉潔;;中文網(wǎng)絡(luò)評(píng)論中產(chǎn)品特征提取方法研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2013年12期
7 王剛;楊善林;;基于RS-SVM的網(wǎng)絡(luò)商品評(píng)論情感分析研究[J];計(jì)算機(jī)科學(xué);2013年S2期
8 吳麗華;馮建平;曹均闊;;中文網(wǎng)絡(luò)評(píng)論的IT產(chǎn)品特征挖掘及情感傾向分析[J];計(jì)算機(jī)與數(shù)字工程;2012年11期
9 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學(xué)報(bào);2012年01期
10 楊經(jīng);林世平;;基于SVM的文本詞句情感分析[J];計(jì)算機(jī)應(yīng)用與軟件;2011年09期
相關(guān)會(huì)議論文 前2條
1 姚天f ;聶青陽(yáng);李建超;李林琳;婁德成;陳珂;付宇;;一個(gè)用于漢語(yǔ)汽車評(píng)論的意見(jiàn)挖掘系統(tǒng)[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
2 郝博一;夏云慶;鄭方;;OPINAX:一個(gè)有效的產(chǎn)品屬性挖掘系統(tǒng)[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
相關(guān)碩士學(xué)位論文 前6條
1 程斐斐;基于用戶上網(wǎng)日志的數(shù)據(jù)挖掘技術(shù)研究[D];貴州大學(xué);2016年
2 陳東河;基于圖書(shū)市場(chǎng)分析的選題方案研究及應(yīng)用[D];北方工業(yè)大學(xué);2016年
3 許江峰;數(shù)據(jù)挖掘技術(shù)在P2P網(wǎng)絡(luò)金融中的應(yīng)用研究[D];北京交通大學(xué);2016年
4 高會(huì)娟;產(chǎn)品屬性挖掘及應(yīng)用[D];北方工業(yè)大學(xué);2015年
5 李杏杏;B2C網(wǎng)站商品評(píng)論挖掘技術(shù)的研究[D];北京交通大學(xué);2014年
6 盧云玲;基于云服務(wù)模式的文本過(guò)濾關(guān)鍵技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2014年
,本文編號(hào):1676998
本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/1676998.html