HDFS高可用性方案的優(yōu)化與實現(xiàn)
發(fā)布時間:2020-12-09 04:47
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,越來越多的數(shù)據(jù)在后臺服務器中產(chǎn)生。如何科學地存儲這些海量數(shù)據(jù)成了當前行業(yè)面臨的挑戰(zhàn)之一。近些年,隨著大數(shù)據(jù)技術(shù)的迭代與發(fā)展,分布式文件存儲系統(tǒng)HDFS(Hadoop Distributed File System)得到了業(yè)界廣泛的認可與應用。但當前版本的HDFS為了保證系統(tǒng)的高可用性所采用的主-從架構(gòu)的多副本機制只能剛剛滿足了基本功能需求,在應對單點故障和數(shù)據(jù)存儲利用率這兩個方面還存在著不少優(yōu)化空間。針對上述兩個問題,本文做了以下工作:(1)提出了一種基于局部校驗糾刪碼算法的HDFS數(shù)據(jù)存儲策略。通過對HDFS當前版本的研究與分析,系統(tǒng)采用的是對原始數(shù)據(jù)創(chuàng)建副本的方式來避免因某些節(jié)點失效而導致的數(shù)據(jù)丟失問題。不難看出,在今天這個信息量俱增的互聯(lián)網(wǎng)時代,副本策略需要消耗大量的底層硬件存儲設備。所以本文提出一種基于局部校驗糾刪碼算法的HDFS數(shù)據(jù)存儲策略。該算法相較于副本策略能夠顯著降低磁盤的存儲開銷,而在對失效數(shù)據(jù)的重構(gòu)過程又不像RS編碼一樣需要從各個網(wǎng)絡節(jié)點中拉取所有剩余數(shù)據(jù),與EVENODD編碼與X編碼這一類陣列碼相比,改進算法在數(shù)據(jù)節(jié)點的個數(shù)上設置更加靈活。(...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
編碼時間在圖3.6中,圖的橫坐標為文件大小,縱坐標為編碼時間
圖 3.7 單個數(shù)據(jù)塊丟失文件重構(gòu)時間 3.7 所示,范德蒙德 RS 編碼在單個數(shù)據(jù)塊丟失后重構(gòu)原數(shù)據(jù)所耗費的時間碼相較于范德蒙德 RS 編碼,有一定的優(yōu)化。而得益于分組校驗思想的 H在重構(gòu)原數(shù)據(jù)時不需要從各個網(wǎng)絡節(jié)點上拉取所有剩余文件分塊,從而獲小結(jié)先介紹了兩種當前最常用的保障數(shù)據(jù)可靠性的冗余策略,分別是備份策略解釋了為什么云計算、大數(shù)據(jù)領域在底層數(shù)據(jù)存儲方面更適合采用基于糾略。接著介紹了一種在分布式存儲領域中常用的糾刪碼算法——RS 糾刪碼不同,它又分為范德蒙德 RS 編碼和柯西 RS 編碼,并陳述了其各自的優(yōu)缺礎上設計實現(xiàn)了一種 HDFS-LRC 局部校驗算法。該算法可以在分組中的某
(lastTermfollower>lastTermcandidate)||((lastTermfollower==lastTermcandidate)&&(lastIndexfollower>lastTermcandidate))可以保證最終贏得選舉的 NameNode 服務器擁有比大多數(shù)投票者更完整的日志記錄。經(jīng)過上面步驟選舉出領導者 NameNode 后,新的領導者 NameNode 會不斷地向跟隨ameNode 發(fā)送包含自己日志信息的心跳消息。跟隨者 NameNode 根據(jù)接收到的心跳消息除所有跟領導者 NameNode 不同的日志記錄,并將所有丟失的日志記錄依照領導者的日行補足。.4主備節(jié)點切換測試在同一臺服務器上,分別對 Secondary NameNode 方案、Buckup Node 方案、Avatar 方扁平化 NameNode 方案在 1000、5000、10000 和 15000 個不同數(shù)量級的文件上進行了多備節(jié)點切換測試,切換時間對比情況如圖 4.7 所示。
【參考文獻】:
期刊論文
[1]基于Hadoop的云計算平臺研究與實現(xiàn)[J]. 范素娟,田軍鋒. 計算機技術(shù)與發(fā)展. 2016(07)
[2]云計算環(huán)境下的分布存儲關鍵技術(shù)研究[J]. 張樂. 電子技術(shù)與軟件工程. 2015(23)
[3]基于內(nèi)存云架構(gòu)的帶寬負載均衡算法[J]. 劉建礦,于炯,英昌甜,魯亮. 計算機工程與設計. 2015(11)
[4]基于范德蒙碼的HDFS優(yōu)化存儲策略研究[J]. 宋寶燕,王俊陸,王妍. 計算機學報. 2015(09)
[5]利用Zookeeper對HDFS中Namenode單點失敗的改進方法[J]. 魯陽,鄭巖. 軟件. 2012(12)
[6]Namenode單點故障解決方案研究[J]. 鄧鵬,李枚毅,何誠. 計算機工程. 2012(21)
[7]分布式文件系統(tǒng)中元數(shù)據(jù)管理機制的研究[J]. 蒙安泰. 電腦知識與技術(shù). 2011(35)
碩士論文
[1]HDFS高可用性方案的研究與優(yōu)化[D]. 韓佩.西北大學 2013
[2]基于HDFS的分布式Namenode節(jié)點模型的研究[D]. 李寬.華南理工大學 2011
本文編號:2906299
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
編碼時間在圖3.6中,圖的橫坐標為文件大小,縱坐標為編碼時間
圖 3.7 單個數(shù)據(jù)塊丟失文件重構(gòu)時間 3.7 所示,范德蒙德 RS 編碼在單個數(shù)據(jù)塊丟失后重構(gòu)原數(shù)據(jù)所耗費的時間碼相較于范德蒙德 RS 編碼,有一定的優(yōu)化。而得益于分組校驗思想的 H在重構(gòu)原數(shù)據(jù)時不需要從各個網(wǎng)絡節(jié)點上拉取所有剩余文件分塊,從而獲小結(jié)先介紹了兩種當前最常用的保障數(shù)據(jù)可靠性的冗余策略,分別是備份策略解釋了為什么云計算、大數(shù)據(jù)領域在底層數(shù)據(jù)存儲方面更適合采用基于糾略。接著介紹了一種在分布式存儲領域中常用的糾刪碼算法——RS 糾刪碼不同,它又分為范德蒙德 RS 編碼和柯西 RS 編碼,并陳述了其各自的優(yōu)缺礎上設計實現(xiàn)了一種 HDFS-LRC 局部校驗算法。該算法可以在分組中的某
(lastTermfollower>lastTermcandidate)||((lastTermfollower==lastTermcandidate)&&(lastIndexfollower>lastTermcandidate))可以保證最終贏得選舉的 NameNode 服務器擁有比大多數(shù)投票者更完整的日志記錄。經(jīng)過上面步驟選舉出領導者 NameNode 后,新的領導者 NameNode 會不斷地向跟隨ameNode 發(fā)送包含自己日志信息的心跳消息。跟隨者 NameNode 根據(jù)接收到的心跳消息除所有跟領導者 NameNode 不同的日志記錄,并將所有丟失的日志記錄依照領導者的日行補足。.4主備節(jié)點切換測試在同一臺服務器上,分別對 Secondary NameNode 方案、Buckup Node 方案、Avatar 方扁平化 NameNode 方案在 1000、5000、10000 和 15000 個不同數(shù)量級的文件上進行了多備節(jié)點切換測試,切換時間對比情況如圖 4.7 所示。
【參考文獻】:
期刊論文
[1]基于Hadoop的云計算平臺研究與實現(xiàn)[J]. 范素娟,田軍鋒. 計算機技術(shù)與發(fā)展. 2016(07)
[2]云計算環(huán)境下的分布存儲關鍵技術(shù)研究[J]. 張樂. 電子技術(shù)與軟件工程. 2015(23)
[3]基于內(nèi)存云架構(gòu)的帶寬負載均衡算法[J]. 劉建礦,于炯,英昌甜,魯亮. 計算機工程與設計. 2015(11)
[4]基于范德蒙碼的HDFS優(yōu)化存儲策略研究[J]. 宋寶燕,王俊陸,王妍. 計算機學報. 2015(09)
[5]利用Zookeeper對HDFS中Namenode單點失敗的改進方法[J]. 魯陽,鄭巖. 軟件. 2012(12)
[6]Namenode單點故障解決方案研究[J]. 鄧鵬,李枚毅,何誠. 計算機工程. 2012(21)
[7]分布式文件系統(tǒng)中元數(shù)據(jù)管理機制的研究[J]. 蒙安泰. 電腦知識與技術(shù). 2011(35)
碩士論文
[1]HDFS高可用性方案的研究與優(yōu)化[D]. 韓佩.西北大學 2013
[2]基于HDFS的分布式Namenode節(jié)點模型的研究[D]. 李寬.華南理工大學 2011
本文編號:2906299
本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/2906299.html
最近更新
教材專著