中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于Hadoop平臺的數(shù)據(jù)遷移系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2024-06-10 22:19
  隨著各種新興互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)體量呈現(xiàn)出指數(shù)型增長。數(shù)據(jù)的不斷累積,使得企業(yè)現(xiàn)有業(yè)務平臺面臨著性能不足、資源花費過多等問題,已無法較好的滿足高性能、高并發(fā)的需求。而大數(shù)據(jù)平臺存儲容量巨大且支持大規(guī)模數(shù)據(jù)的復雜計算,能夠?qū)?shù)據(jù)進行更深層次的價值分析,因此把一些存在價值的歷史數(shù)據(jù)遷移到大數(shù)據(jù)平臺十分有必要,不僅可以緩解現(xiàn)有業(yè)務平臺的生產(chǎn)壓力,還可以發(fā)掘新的業(yè)務方向。本文結(jié)合某世界前五百強通信企業(yè)的實際需求,設計實現(xiàn)了一個將數(shù)據(jù)從Teradata數(shù)據(jù)庫遷移至Hadoop平臺并自動存儲歸檔的數(shù)據(jù)遷移系統(tǒng)。本系統(tǒng)針對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的特征,設計實施了兩種不同的遷移方案,即基于MapReduce的結(jié)構(gòu)化數(shù)據(jù)遷移和基于FTP方式的非結(jié)構(gòu)化數(shù)據(jù)遷移。與現(xiàn)有遷移工具相比,本系統(tǒng)能夠完成一些特定需求,例如按業(yè)務邏輯清洗數(shù)據(jù)、回傳部分數(shù)據(jù)等,并且只需在遷移任務開始前配置好相關(guān)參數(shù),便能夠自動實現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)校驗、數(shù)據(jù)加載、數(shù)據(jù)回傳等一系列流程。最后根據(jù)業(yè)務邏輯和調(diào)度周期的不同,選擇不同的數(shù)據(jù)格式,存儲在Hadoop平臺不同的層級。經(jīng)過測試,本系統(tǒng)各個功能滿足預期設計目標,具...

【文章頁數(shù)】:67 頁

【學位級別】:碩士

【部分圖文】:

圖2-1數(shù)據(jù)遷移系統(tǒng)流程圖(Teradata到Hadoop)??

圖2-1數(shù)據(jù)遷移系統(tǒng)流程圖(Teradata到Hadoop)??

?山東大學碩士學位論文???主要功能和流程如圖2-1。??r ̄^?r ̄^????????????????>????Tijaia?-?數(shù)據(jù)抽取+數(shù)據(jù)溝洗—數(shù)賺數(shù)雛驗?數(shù)據(jù)臓—?Hado叩??數(shù)據(jù)庫?|丨?[__?1丨?平臺???數(shù)鮰傳???圖2-1數(shù)據(jù)遷移系統(tǒng)流程圖(Teradat....


圖2-2系統(tǒng)業(yè)務架構(gòu)圖??本系統(tǒng)研究的重點是把Teradata中的部分數(shù)據(jù)遷移至Hadoop,需要特別注??意的是系統(tǒng)連接和文件讀取

圖2-2系統(tǒng)業(yè)務架構(gòu)圖??本系統(tǒng)研究的重點是把Teradata中的部分數(shù)據(jù)遷移至Hadoop,需要特別注??意的是系統(tǒng)連接和文件讀取

?山東大學碩士學位論文???2.4系統(tǒng)業(yè)務流程分析??結(jié)合企業(yè)現(xiàn)有系統(tǒng)的實際情況,本系統(tǒng)的處理流程分為三個域:源數(shù)據(jù)域、??數(shù)據(jù)處理域、目標數(shù)據(jù)域,具體架構(gòu)如圖2-2所示。源數(shù)據(jù)域是指待遷移數(shù)據(jù)??所在的業(yè)務系統(tǒng),在本文中具體是指Teradata數(shù)據(jù)庫中的接口詳單表、中間匯??總....


圖3-2?MapReduce數(shù)據(jù)處理流程圖??(1)?Ma階段運行開始前,計算文件數(shù)量并進行分片,每個分片對應于一??

圖3-2?MapReduce數(shù)據(jù)處理流程圖??(1)?Ma階段運行開始前,計算文件數(shù)量并進行分片,每個分片對應于一??

源。??3丄2?MapReduce數(shù)據(jù)處理流程??MapReduce是一種編程范式,使應用程序不需要進行復雜的分布式編程便??可以在分布式系統(tǒng)上執(zhí)行?梢詫ⅲ停幔穑遥澹洌酰悖謇斫鉃楦鶕(jù)某些特征對無序數(shù)據(jù)??進行歸納匯總,然后按需求進行處理以獲得最終結(jié)果。Map階段的任務主要是??....


圖3-3?Hive數(shù)據(jù)倉庫架構(gòu)圖??用戶接口:最常見的用戶接口是Cli,它通過命令行方式訪問Hive,啟動時會??在Hive中生成一個副本

圖3-3?Hive數(shù)據(jù)倉庫架構(gòu)圖??用戶接口:最常見的用戶接口是Cli,它通過命令行方式訪問Hive,啟動時會??在Hive中生成一個副本

?山東大學碩士學位論文???用戶接口??(、Shell/CLI?j?I^IDBC客戶端?j?l〇DB客戶端^?(?WEI接口?^??\?'Zff?乂」??Thrift?服務器?Z??\?(?解析器?)?、/????(?編譯器?)?、??(?^元數(shù)據(jù)庫??(執(zhí)行器)?^??w??J....



本文編號:3991981

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/xixikjs/3991981.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶27756***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com