一種基于Spark平臺(tái)的帶有時(shí)間約束的頻繁序列挖掘算法
發(fā)布時(shí)間:2024-06-02 03:31
序列模式挖掘問(wèn)題,由于其在實(shí)踐中廣泛的應(yīng)用,已引起學(xué)術(shù)界的持續(xù)關(guān)注。雖然目前已經(jīng)有一些序列模式挖掘算法,但因?yàn)樗鼈冃枰啻螔呙枵麄(gè)數(shù)據(jù)庫(kù),所以效率相對(duì)較低,并且大多數(shù)算法都沒(méi)有考慮到時(shí)間因素對(duì)序列模式挖掘的影響,它們并不能對(duì)有時(shí)間限制要求的序列模式進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì)和挖掘。在對(duì)各個(gè)序列模式的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)的算法中,ONCE算法可以在只掃描一次數(shù)據(jù)庫(kù)的情況下,統(tǒng)計(jì)出帶有時(shí)間約束的序列模式在序列流中出現(xiàn)的頻率。但該算法只能應(yīng)用于處理序列模式之間無(wú)交叉的情況,當(dāng)序列模式之間存在某種交叉時(shí),使用ONCE算法統(tǒng)計(jì)出的結(jié)果就是不準(zhǔn)確的。在本文中,我們對(duì)ONCE算法進(jìn)行了修改,可以在序列模式之間存在交叉的情況下,也得到準(zhǔn)確無(wú)誤的結(jié)果。隨著因特網(wǎng),電信,工業(yè)系統(tǒng)的迅速發(fā)展,每天都會(huì)產(chǎn)生海量的信號(hào)序列和流式數(shù)據(jù)。一方面,由于海量序列中信號(hào)的數(shù)量十分巨大,分析這些序列是一件非常耗時(shí)的事情,所以要求處理的算法必須是高效的,可以并行化計(jì)算的。另一方面,由于流式數(shù)據(jù)是無(wú)限的,非勻速產(chǎn)生的,因此對(duì)于流式數(shù)據(jù)的計(jì)算方法,必須是可以動(dòng)態(tài)更新和存儲(chǔ)的,也同樣要是高效的,當(dāng)前的多數(shù)算法都無(wú)法達(dá)到要求。為了解決對(duì)海量數(shù)據(jù)...
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號(hào)對(duì)照表
縮略語(yǔ)對(duì)照表
第一章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀和發(fā)展方向
1.2.1 研究現(xiàn)狀
1.2.2 發(fā)展方向
1.3 本文主要貢獻(xiàn)
1.4 論文組織結(jié)構(gòu)
第二章 序列挖掘算法和相關(guān)概念
2.1 序列的基本概念
2.2 本文相關(guān)算法
2.2.1 Apriori算法
2.2.2 FP-growth算法及FP-tree結(jié)構(gòu)
2.2.3 ONCE算法
2.3 Spark的相關(guān)介紹
2.3.1 彈性數(shù)據(jù)集RDD
2.3.2 Spark Streaming組件
第三章 有交叉序列模式的統(tǒng)計(jì)方法
3.1 無(wú)交叉序列模式統(tǒng)計(jì)方法ONCE
3.1.1 建立OccMap
3.1.2 更新OccMap
3.1.3 尋找選中事件
3.1.4 判斷選中事件組成的序列模式是否滿(mǎn)足時(shí)間限制
3.1.5 初始化OccMap
3.2 有交叉序列模式統(tǒng)計(jì)方法ONCE+
3.3 ONCE和 ONCE+對(duì)比實(shí)驗(yàn)
3.4 本章小結(jié)
第四章 基于Spark的海量數(shù)據(jù)序列模式挖掘算法 . . . . .
4.1 基于Spark的海量數(shù)據(jù)序列模式頻率計(jì)算
4.1.1 邊界處理
4.1.2 并行頻率挖掘模型
4.1.3 SparkONCE的完整算法
4.2 SparkONCE的實(shí)驗(yàn)結(jié)果
4.2.1 |S|的影響
4.2.2 分區(qū)數(shù)量的影響
4.3 SparkONCE算法的適用性
4.3.1 SparkONCE結(jié)合FP-growth進(jìn)行序列挖掘
4.3.2 SparkONCE算法與Apriori算結(jié)合進(jìn)行序列挖掘
4.4 本章小結(jié)
第五章 基于Spark Streaming的流式數(shù)據(jù)序列模式挖掘算法. .
5.1 基于Spark Streaming的流式數(shù)據(jù)序列模式頻率計(jì)算
5.2 實(shí)驗(yàn)結(jié)果
5.3 使用StreamingONCE對(duì)流式數(shù)據(jù)進(jìn)行頻繁序列挖掘
5.3.1 時(shí)間傾斜窗口
5.3.2 結(jié)合時(shí)間傾斜窗口的FP-tree結(jié)構(gòu)
5.3.3 FP-tree的剪枝
5.4 SparkONCE和 StreamingONCE的正確性
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 進(jìn)一步工作
參考文獻(xiàn)
致謝
作者簡(jiǎn)介
本文編號(hào):3986788
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號(hào)對(duì)照表
縮略語(yǔ)對(duì)照表
第一章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀和發(fā)展方向
1.2.1 研究現(xiàn)狀
1.2.2 發(fā)展方向
1.3 本文主要貢獻(xiàn)
1.4 論文組織結(jié)構(gòu)
第二章 序列挖掘算法和相關(guān)概念
2.1 序列的基本概念
2.2 本文相關(guān)算法
2.2.1 Apriori算法
2.2.2 FP-growth算法及FP-tree結(jié)構(gòu)
2.2.3 ONCE算法
2.3 Spark的相關(guān)介紹
2.3.1 彈性數(shù)據(jù)集RDD
2.3.2 Spark Streaming組件
第三章 有交叉序列模式的統(tǒng)計(jì)方法
3.1 無(wú)交叉序列模式統(tǒng)計(jì)方法ONCE
3.1.1 建立OccMap
3.1.2 更新OccMap
3.1.3 尋找選中事件
3.1.4 判斷選中事件組成的序列模式是否滿(mǎn)足時(shí)間限制
3.1.5 初始化OccMap
3.2 有交叉序列模式統(tǒng)計(jì)方法ONCE+
3.3 ONCE和 ONCE+對(duì)比實(shí)驗(yàn)
3.4 本章小結(jié)
第四章 基于Spark的海量數(shù)據(jù)序列模式挖掘算法 . . . . .
4.1 基于Spark的海量數(shù)據(jù)序列模式頻率計(jì)算
4.1.1 邊界處理
4.1.2 并行頻率挖掘模型
4.1.3 SparkONCE的完整算法
4.2 SparkONCE的實(shí)驗(yàn)結(jié)果
4.2.1 |S|的影響
4.2.2 分區(qū)數(shù)量的影響
4.3 SparkONCE算法的適用性
4.3.1 SparkONCE結(jié)合FP-growth進(jìn)行序列挖掘
4.3.2 SparkONCE算法與Apriori算結(jié)合進(jìn)行序列挖掘
4.4 本章小結(jié)
第五章 基于Spark Streaming的流式數(shù)據(jù)序列模式挖掘算法. .
5.1 基于Spark Streaming的流式數(shù)據(jù)序列模式頻率計(jì)算
5.2 實(shí)驗(yàn)結(jié)果
5.3 使用StreamingONCE對(duì)流式數(shù)據(jù)進(jìn)行頻繁序列挖掘
5.3.1 時(shí)間傾斜窗口
5.3.2 結(jié)合時(shí)間傾斜窗口的FP-tree結(jié)構(gòu)
5.3.3 FP-tree的剪枝
5.4 SparkONCE和 StreamingONCE的正確性
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 進(jìn)一步工作
參考文獻(xiàn)
致謝
作者簡(jiǎn)介
本文編號(hào):3986788
本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/3986788.html
最近更新
教材專(zhuān)著