一種基于Spark平臺的帶有時間約束的頻繁序列挖掘算法

發(fā)布時間：2024-06-02 03:31

　　序列模式挖掘問題,由于其在實踐中廣泛的應(yīng)用,已引起學(xué)術(shù)界的持續(xù)關(guān)注。雖然目前已經(jīng)有一些序列模式挖掘算法,但因為它們需要多次掃描整個數(shù)據(jù)庫,所以效率相對較低,并且大多數(shù)算法都沒有考慮到時間因素對序列模式挖掘的影響,它們并不能對有時間限制要求的序列模式進(jìn)行出現(xiàn)頻率的統(tǒng)計和挖掘。在對各個序列模式的出現(xiàn)頻率進(jìn)行統(tǒng)計的算法中,ONCE算法可以在只掃描一次數(shù)據(jù)庫的情況下,統(tǒng)計出帶有時間約束的序列模式在序列流中出現(xiàn)的頻率。但該算法只能應(yīng)用于處理序列模式之間無交叉的情況,當(dāng)序列模式之間存在某種交叉時,使用ONCE算法統(tǒng)計出的結(jié)果就是不準(zhǔn)確的。在本文中,我們對ONCE算法進(jìn)行了修改,可以在序列模式之間存在交叉的情況下,也得到準(zhǔn)確無誤的結(jié)果。隨著因特網(wǎng),電信,工業(yè)系統(tǒng)的迅速發(fā)展,每天都會產(chǎn)生海量的信號序列和流式數(shù)據(jù)。一方面,由于海量序列中信號的數(shù)量十分巨大,分析這些序列是一件非常耗時的事情,所以要求處理的算法必須是高效的,可以并行化計算的。另一方面,由于流式數(shù)據(jù)是無限的,非勻速產(chǎn)生的,因此對于流式數(shù)據(jù)的計算方法,必須是可以動態(tài)更新和存儲的,也同樣要是高效的,當(dāng)前的多數(shù)算法都無法達(dá)到要求。為了解決對海量數(shù)據(jù)...

【文章頁數(shù)】：69 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章緒論
    1.1 研究背景與意義
    1.2 研究現(xiàn)狀和發(fā)展方向
        1.2.1 研究現(xiàn)狀
        1.2.2 發(fā)展方向
    1.3 本文主要貢獻(xiàn)
    1.4 論文組織結(jié)構(gòu)
第二章序列挖掘算法和相關(guān)概念
    2.1 序列的基本概念
    2.2 本文相關(guān)算法
        2.2.1 Apriori算法
        2.2.2 FP-growth算法及FP-tree結(jié)構(gòu)
        2.2.3 ONCE算法
    2.3 Spark的相關(guān)介紹
        2.3.1 彈性數(shù)據(jù)集RDD
        2.3.2 Spark Streaming組件
第三章有交叉序列模式的統(tǒng)計方法
    3.1 無交叉序列模式統(tǒng)計方法ONCE
        3.1.1 建立OccMap
        3.1.2 更新OccMap
        3.1.3 尋找選中事件
        3.1.4 判斷選中事件組成的序列模式是否滿足時間限制
        3.1.5 初始化OccMap
    3.2 有交叉序列模式統(tǒng)計方法ONCE+
    3.3 ONCE和 ONCE+對比實驗
    3.4 本章小結(jié)
第四章基于Spark的海量數(shù)據(jù)序列模式挖掘算法 . . . . .
    4.1 基于Spark的海量數(shù)據(jù)序列模式頻率計算
        4.1.1 邊界處理
        4.1.2 并行頻率挖掘模型
        4.1.3 SparkONCE的完整算法
    4.2 SparkONCE的實驗結(jié)果
        4.2.1 |S|的影響
        4.2.2 分區(qū)數(shù)量的影響
    4.3 SparkONCE算法的適用性
        4.3.1 SparkONCE結(jié)合FP-growth進(jìn)行序列挖掘
        4.3.2 SparkONCE算法與Apriori算結(jié)合進(jìn)行序列挖掘
    4.4 本章小結(jié)
第五章基于Spark Streaming的流式數(shù)據(jù)序列模式挖掘算法. .
    5.1 基于Spark Streaming的流式數(shù)據(jù)序列模式頻率計算
    5.2 實驗結(jié)果
    5.3 使用StreamingONCE對流式數(shù)據(jù)進(jìn)行頻繁序列挖掘
        5.3.1 時間傾斜窗口
        5.3.2 結(jié)合時間傾斜窗口的FP-tree結(jié)構(gòu)
        5.3.3 FP-tree的剪枝
    5.4 SparkONCE和 StreamingONCE的正確性
    5.5 本章小結(jié)
第六章總結(jié)與展望
    6.1 總結(jié)
    6.2 進(jìn)一步工作
參考文獻(xiàn)
致謝
作者簡介

本文編號：3986788

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/ruanjiangongchenglunwen/3986788.html

上一篇：基于合作學(xué)習(xí)的高中化學(xué)翻轉(zhuǎn)課堂教學(xué)設(shè)計與應(yīng)用研究
下一篇：面向協(xié)作式眾包測試推薦系統(tǒng)的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

一種基于Spark平臺的帶有時間約束的頻繁序列挖掘算法