微博僵尸粉識(shí)別技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-07-02 06:09
伴隨著微博平臺(tái)的開放,大量出于各種目的“僵尸粉”隨之產(chǎn)生。這些“僵尸粉”或用于制造虛假的人氣,或參與網(wǎng)絡(luò)營(yíng)銷,或作為某些事件甚至謠言的推手,進(jìn)而成為人們享受這項(xiàng)服務(wù)的困擾,甚至安全隱患。因此,對(duì)這種機(jī)器生成的“僵尸粉”的識(shí)別工作正變得越來越重要。對(duì)于僵尸粉識(shí)別問題,本文主要做了以下幾方面工作:(1)鑒于微博的短文本特征,利用現(xiàn)有文本分析技術(shù)處理微博文本存在一定困難。本文利用僵尸粉發(fā)帖的內(nèi)容特征,將文本復(fù)制檢測(cè)技術(shù)應(yīng)用到博文文本特征分析問題中,提出了一種基于信息指紋的微博文本查重技術(shù),并利用此技術(shù)實(shí)現(xiàn)了僵尸粉的識(shí)別。(2)國(guó)內(nèi)外僵尸粉識(shí)別研究中缺少對(duì)特征識(shí)別效力的討論,本文針對(duì)這一問題對(duì)常用的幾項(xiàng)僵尸粉的識(shí)別特征進(jìn)行了擴(kuò)展并完成了相應(yīng)的實(shí)驗(yàn)分析,最終給出各個(gè)特征識(shí)別效力的評(píng)估結(jié)果;(3)根據(jù)特征識(shí)別力將僵尸粉識(shí)別特征分為強(qiáng)特征與弱特征,進(jìn)而提出了基于強(qiáng)特征的僵尸粉過濾方法以及基于弱特征的用戶信任度投票方法。將兩種方法相結(jié)合可以給出用戶真實(shí)性的判斷結(jié)果。同時(shí),還制定了兩種判別機(jī)制的多級(jí)閾值選取策略。為了檢驗(yàn)算法的識(shí)別能力,利用標(biāo)注數(shù)據(jù)集對(duì)其識(shí)別效果進(jìn)行評(píng)測(cè),結(jié)果顯示,該算法對(duì)僵尸粉及真實(shí)用...
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景
1.1.1 微博的特點(diǎn)
1.1.2 僵尸粉的產(chǎn)生與發(fā)展
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 社交平臺(tái)應(yīng)對(duì)僵尸粉的策略
1.2.2 僵尸粉識(shí)別技術(shù)
1.3 本文的研究?jī)?nèi)容
1.4 本文的組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)
2.1 僵尸粉對(duì)微博影響的研究
2.1.1 僵尸粉對(duì)影響力模型的影響
2.1.2 僵尸粉對(duì)微博傳播的影響
2.2 微博文本分析技術(shù)
2.2.1 文本分類的一般技術(shù)
2.2.2 微博短文本分析技術(shù)
2.3 海量數(shù)據(jù)處理相關(guān)技術(shù)
2.3.1 大數(shù)據(jù)分析架構(gòu)
2.3.2 Hadoop原理
2.4 本章小結(jié)
第三章 基于信息指紋的僵尸粉微博文本分析方法
3.1 僵尸粉用戶的微博文本特征
3.1.1 僵尸粉的重定義
3.1.2 僵尸粉用戶的微博文本特征
3.2 文本復(fù)制檢測(cè)技術(shù)概述
3.3 基于信息指紋的微博文本查重算法實(shí)現(xiàn)
3.3.1 微博指紋庫(kù)的構(gòu)建
3.3.2 用戶博文內(nèi)容查重
3.4 本章小結(jié)
第四章 多元特征識(shí)別力分析
4.1 僵尸粉的產(chǎn)生原因及行為特征
4.2 僵尸粉識(shí)別特征
4.2.1 用戶賬號(hào)特征
4.2.2 用戶關(guān)系特征
4.2.3 博文特征
4.3 實(shí)驗(yàn)與分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集
4.3.2 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第五章 基于特征識(shí)別力的僵尸粉識(shí)別方法
5.1 僵尸粉判別的流程
5.2 強(qiáng)特征過濾算法實(shí)現(xiàn)
5.2.1 真實(shí)用戶過濾特征閾值選取
5.2.2 僵尸粉過濾特征的閾值選取
5.2.3 強(qiáng)特征過濾
5.3 弱特征投票算法實(shí)現(xiàn)
5.3.1 特征正向投票閾值的選取
5.3.2 特征反向投票閾值的選取
5.3.3 弱特征投票
5.4 僵尸粉識(shí)別結(jié)果評(píng)測(cè)
5.5 本章小結(jié)
第六章 一種僵尸粉分析服務(wù)架構(gòu)的實(shí)現(xiàn)
6.1 核心模塊設(shè)計(jì)
6.1.1 數(shù)據(jù)采集模塊
6.1.2 數(shù)據(jù)存儲(chǔ)與處理模塊
6.1.3 候選特征模塊
6.1.4 服務(wù)模塊
6.2 服務(wù)定制策略
6.2.1 單用戶判斷服務(wù)特征定制策略
6.2.2 粉絲質(zhì)量分析服務(wù)特征定制策略
6.2.3 事件分析服務(wù)特征定制策略
6.3 本章小結(jié)
第七章 結(jié)束語
7.1 全文工作總結(jié)
7.2 工作展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號(hào):3999797
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景
1.1.1 微博的特點(diǎn)
1.1.2 僵尸粉的產(chǎn)生與發(fā)展
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 社交平臺(tái)應(yīng)對(duì)僵尸粉的策略
1.2.2 僵尸粉識(shí)別技術(shù)
1.3 本文的研究?jī)?nèi)容
1.4 本文的組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)
2.1 僵尸粉對(duì)微博影響的研究
2.1.1 僵尸粉對(duì)影響力模型的影響
2.1.2 僵尸粉對(duì)微博傳播的影響
2.2 微博文本分析技術(shù)
2.2.1 文本分類的一般技術(shù)
2.2.2 微博短文本分析技術(shù)
2.3 海量數(shù)據(jù)處理相關(guān)技術(shù)
2.3.1 大數(shù)據(jù)分析架構(gòu)
2.3.2 Hadoop原理
2.4 本章小結(jié)
第三章 基于信息指紋的僵尸粉微博文本分析方法
3.1 僵尸粉用戶的微博文本特征
3.1.1 僵尸粉的重定義
3.1.2 僵尸粉用戶的微博文本特征
3.2 文本復(fù)制檢測(cè)技術(shù)概述
3.3 基于信息指紋的微博文本查重算法實(shí)現(xiàn)
3.3.1 微博指紋庫(kù)的構(gòu)建
3.3.2 用戶博文內(nèi)容查重
3.4 本章小結(jié)
第四章 多元特征識(shí)別力分析
4.1 僵尸粉的產(chǎn)生原因及行為特征
4.2 僵尸粉識(shí)別特征
4.2.1 用戶賬號(hào)特征
4.2.2 用戶關(guān)系特征
4.2.3 博文特征
4.3 實(shí)驗(yàn)與分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集
4.3.2 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第五章 基于特征識(shí)別力的僵尸粉識(shí)別方法
5.1 僵尸粉判別的流程
5.2 強(qiáng)特征過濾算法實(shí)現(xiàn)
5.2.1 真實(shí)用戶過濾特征閾值選取
5.2.2 僵尸粉過濾特征的閾值選取
5.2.3 強(qiáng)特征過濾
5.3 弱特征投票算法實(shí)現(xiàn)
5.3.1 特征正向投票閾值的選取
5.3.2 特征反向投票閾值的選取
5.3.3 弱特征投票
5.4 僵尸粉識(shí)別結(jié)果評(píng)測(cè)
5.5 本章小結(jié)
第六章 一種僵尸粉分析服務(wù)架構(gòu)的實(shí)現(xiàn)
6.1 核心模塊設(shè)計(jì)
6.1.1 數(shù)據(jù)采集模塊
6.1.2 數(shù)據(jù)存儲(chǔ)與處理模塊
6.1.3 候選特征模塊
6.1.4 服務(wù)模塊
6.2 服務(wù)定制策略
6.2.1 單用戶判斷服務(wù)特征定制策略
6.2.2 粉絲質(zhì)量分析服務(wù)特征定制策略
6.2.3 事件分析服務(wù)特征定制策略
6.3 本章小結(jié)
第七章 結(jié)束語
7.1 全文工作總結(jié)
7.2 工作展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號(hào):3999797
本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/3999797.html
上一篇:在線社會(huì)網(wǎng)絡(luò)用戶行為模型與應(yīng)用算法研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著