一種基于Spark平臺的帶有時間約束的頻繁序列挖掘算法
發(fā)布時間:2024-06-02 03:31
序列模式挖掘問題,由于其在實踐中廣泛的應(yīng)用,已引起學(xué)術(shù)界的持續(xù)關(guān)注。雖然目前已經(jīng)有一些序列模式挖掘算法,但因為它們需要多次掃描整個數(shù)據(jù)庫,所以效率相對較低,并且大多數(shù)算法都沒有考慮到時間因素對序列模式挖掘的影響,它們并不能對有時間限制要求的序列模式進行出現(xiàn)頻率的統(tǒng)計和挖掘。在對各個序列模式的出現(xiàn)頻率進行統(tǒng)計的算法中,ONCE算法可以在只掃描一次數(shù)據(jù)庫的情況下,統(tǒng)計出帶有時間約束的序列模式在序列流中出現(xiàn)的頻率。但該算法只能應(yīng)用于處理序列模式之間無交叉的情況,當序列模式之間存在某種交叉時,使用ONCE算法統(tǒng)計出的結(jié)果就是不準確的。在本文中,我們對ONCE算法進行了修改,可以在序列模式之間存在交叉的情況下,也得到準確無誤的結(jié)果。隨著因特網(wǎng),電信,工業(yè)系統(tǒng)的迅速發(fā)展,每天都會產(chǎn)生海量的信號序列和流式數(shù)據(jù)。一方面,由于海量序列中信號的數(shù)量十分巨大,分析這些序列是一件非常耗時的事情,所以要求處理的算法必須是高效的,可以并行化計算的。另一方面,由于流式數(shù)據(jù)是無限的,非勻速產(chǎn)生的,因此對于流式數(shù)據(jù)的計算方法,必須是可以動態(tài)更新和存儲的,也同樣要是高效的,當前的多數(shù)算法都無法達到要求。為了解決對海量數(shù)據(jù)...
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀和發(fā)展方向
1.2.1 研究現(xiàn)狀
1.2.2 發(fā)展方向
1.3 本文主要貢獻
1.4 論文組織結(jié)構(gòu)
第二章 序列挖掘算法和相關(guān)概念
2.1 序列的基本概念
2.2 本文相關(guān)算法
2.2.1 Apriori算法
2.2.2 FP-growth算法及FP-tree結(jié)構(gòu)
2.2.3 ONCE算法
2.3 Spark的相關(guān)介紹
2.3.1 彈性數(shù)據(jù)集RDD
2.3.2 Spark Streaming組件
第三章 有交叉序列模式的統(tǒng)計方法
3.1 無交叉序列模式統(tǒng)計方法ONCE
3.1.1 建立OccMap
3.1.2 更新OccMap
3.1.3 尋找選中事件
3.1.4 判斷選中事件組成的序列模式是否滿足時間限制
3.1.5 初始化OccMap
3.2 有交叉序列模式統(tǒng)計方法ONCE+
3.3 ONCE和 ONCE+對比實驗
3.4 本章小結(jié)
第四章 基于Spark的海量數(shù)據(jù)序列模式挖掘算法 . . . . .
4.1 基于Spark的海量數(shù)據(jù)序列模式頻率計算
4.1.1 邊界處理
4.1.2 并行頻率挖掘模型
4.1.3 SparkONCE的完整算法
4.2 SparkONCE的實驗結(jié)果
4.2.1 |S|的影響
4.2.2 分區(qū)數(shù)量的影響
4.3 SparkONCE算法的適用性
4.3.1 SparkONCE結(jié)合FP-growth進行序列挖掘
4.3.2 SparkONCE算法與Apriori算結(jié)合進行序列挖掘
4.4 本章小結(jié)
第五章 基于Spark Streaming的流式數(shù)據(jù)序列模式挖掘算法. .
5.1 基于Spark Streaming的流式數(shù)據(jù)序列模式頻率計算
5.2 實驗結(jié)果
5.3 使用StreamingONCE對流式數(shù)據(jù)進行頻繁序列挖掘
5.3.1 時間傾斜窗口
5.3.2 結(jié)合時間傾斜窗口的FP-tree結(jié)構(gòu)
5.3.3 FP-tree的剪枝
5.4 SparkONCE和 StreamingONCE的正確性
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 進一步工作
參考文獻
致謝
作者簡介
本文編號:3986788
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀和發(fā)展方向
1.2.1 研究現(xiàn)狀
1.2.2 發(fā)展方向
1.3 本文主要貢獻
1.4 論文組織結(jié)構(gòu)
第二章 序列挖掘算法和相關(guān)概念
2.1 序列的基本概念
2.2 本文相關(guān)算法
2.2.1 Apriori算法
2.2.2 FP-growth算法及FP-tree結(jié)構(gòu)
2.2.3 ONCE算法
2.3 Spark的相關(guān)介紹
2.3.1 彈性數(shù)據(jù)集RDD
2.3.2 Spark Streaming組件
第三章 有交叉序列模式的統(tǒng)計方法
3.1 無交叉序列模式統(tǒng)計方法ONCE
3.1.1 建立OccMap
3.1.2 更新OccMap
3.1.3 尋找選中事件
3.1.4 判斷選中事件組成的序列模式是否滿足時間限制
3.1.5 初始化OccMap
3.2 有交叉序列模式統(tǒng)計方法ONCE+
3.3 ONCE和 ONCE+對比實驗
3.4 本章小結(jié)
第四章 基于Spark的海量數(shù)據(jù)序列模式挖掘算法 . . . . .
4.1 基于Spark的海量數(shù)據(jù)序列模式頻率計算
4.1.1 邊界處理
4.1.2 并行頻率挖掘模型
4.1.3 SparkONCE的完整算法
4.2 SparkONCE的實驗結(jié)果
4.2.1 |S|的影響
4.2.2 分區(qū)數(shù)量的影響
4.3 SparkONCE算法的適用性
4.3.1 SparkONCE結(jié)合FP-growth進行序列挖掘
4.3.2 SparkONCE算法與Apriori算結(jié)合進行序列挖掘
4.4 本章小結(jié)
第五章 基于Spark Streaming的流式數(shù)據(jù)序列模式挖掘算法. .
5.1 基于Spark Streaming的流式數(shù)據(jù)序列模式頻率計算
5.2 實驗結(jié)果
5.3 使用StreamingONCE對流式數(shù)據(jù)進行頻繁序列挖掘
5.3.1 時間傾斜窗口
5.3.2 結(jié)合時間傾斜窗口的FP-tree結(jié)構(gòu)
5.3.3 FP-tree的剪枝
5.4 SparkONCE和 StreamingONCE的正確性
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 進一步工作
參考文獻
致謝
作者簡介
本文編號:3986788
本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/3986788.html
最近更新
教材專著