Hadoop分布式文件系統(tǒng)存儲(chǔ)機(jī)制的研究與優(yōu)化
發(fā)布時(shí)間:2020-12-07 19:58
隨著互聯(lián)網(wǎng)在各行各業(yè)的應(yīng)用,數(shù)據(jù)以井噴之勢(shì)呈指數(shù)暴增,傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)不再適用。這種背景下,各種數(shù)據(jù)存儲(chǔ)和處理技術(shù)蓬勃發(fā)展,云計(jì)算和云存儲(chǔ)應(yīng)運(yùn)而生。作為云平臺(tái)最基礎(chǔ)的存儲(chǔ)設(shè)施,Hadoop分布式文件系統(tǒng)(HDFS)由于其高拓展、高容錯(cuò)、開(kāi)源且能部署在低成本機(jī)器上等特性,一經(jīng)問(wèn)世就受到了各大企業(yè)和科研機(jī)構(gòu)的青睞,在教育、金融、醫(yī)療、軍事等領(lǐng)域發(fā)揮著舉重若輕的作用。然而,原始的HDFS使用“一主多從”的架構(gòu),將元數(shù)據(jù)與真實(shí)文件分開(kāi)存儲(chǔ),由Name Node管理對(duì)系統(tǒng)至關(guān)重要的命名空間。這樣的設(shè)計(jì)在簡(jiǎn)化系統(tǒng)架構(gòu)的同時(shí)也帶來(lái)了Name Node的高可用性問(wèn)題。此外,HDFS最初被設(shè)計(jì)成以流式方式服務(wù)于大文件,并不適用于存儲(chǔ)和分析海量小文件的應(yīng)用,而當(dāng)前各類(lèi)社交和購(gòu)物網(wǎng)站上每時(shí)每刻都在產(chǎn)生著小文件,直接存儲(chǔ)不僅造成Name Node的內(nèi)存壓力,而且導(dǎo)致文件讀寫(xiě)效率低下。針對(duì)Name Node的高可用性問(wèn)題,本文對(duì)HDFS的核心運(yùn)行機(jī)制進(jìn)行了深入分析,并通過(guò)對(duì)早期幾種HDFS高可用性解決方案進(jìn)行對(duì)比,總結(jié)了解決高可用性問(wèn)題的思路,并由此引入當(dāng)前Hadoop2.X時(shí)代的HA方案。在對(duì)該方案各模...
【文章來(lái)源】:西北大學(xué)陜西省 211工程院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
EditLog的文件名形式
一般使用 RAS 參數(shù)來(lái)衡量其性能,分別為高可靠性(Relivailability)和可維護(hù)性(Serviceability)。由 3.1 節(jié)可知,可靠性和可 和 MTTR 決定,高可用性為系統(tǒng)正常對(duì)外服務(wù)占總運(yùn)行時(shí)間的百示為:統(tǒng)發(fā)生故障的概率為 a=1/MTTF,修復(fù)概率為 b=1/MTTR,將其帶點(diǎn)來(lái)說(shuō),其可用性可以表示為:統(tǒng)中有兩種狀態(tài)的 NameNode,忽略掉網(wǎng)絡(luò)因素,運(yùn)行情況有以下MTTFMTTRMTTFA+=abbababaaba+=+=+=+=1111MTTFMTTRMTTFA
在集群正式啟動(dòng)之前,必須確保集群中每臺(tái)服務(wù)器之間均能互相訪問(wèn)。因此,需要集群中每個(gè)節(jié)點(diǎn)的配置文件/etc/hosts 進(jìn)行相應(yīng)編輯,具體內(nèi)容如下。192.168.1.61 Master1192.168.1.64 Master2192.168.1.65 Master3192.168.1.62 Slave1192.168.1.63 Slave2當(dāng)所有節(jié)點(diǎn)均配置完 hosts 文件后,使用 ping 命令測(cè)試配置是否生效,若 ping 不通他節(jié)點(diǎn),說(shuō)明網(wǎng)絡(luò)出現(xiàn)問(wèn)題,需要檢查系統(tǒng)的網(wǎng)絡(luò)配置。網(wǎng)絡(luò)配置完成后,對(duì) Hadoop 的相關(guān)配置文件進(jìn)行編輯,這些文件存放在 Hadoop裝目錄下的 etc 文件夾中,需要配置的文件為 core-site.xml、hdfs-site.xml 和pred-site.xml。首先是 core-site.xml 配置文件,具體信息如圖 5.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]面向大數(shù)據(jù)云存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)研究[J]. 劉若冰. 現(xiàn)代電子技術(shù). 2016(06)
[2]基于Hadoop的海量醫(yī)療小文件處理系統(tǒng)[J]. 魏強(qiáng),孔廣黔,吳云. 計(jì)算機(jī)與數(shù)字工程. 2015(04)
[3]基于HDFS的小文件存儲(chǔ)與讀取優(yōu)化策略[J]. 張海,馬建紅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2014(05)
[4]利用Zookeeper對(duì)HDFS中Namenode單點(diǎn)失敗的改進(jìn)方法[J]. 魯陽(yáng),鄭巖. 軟件. 2012(12)
[5]Namenode單點(diǎn)故障解決方案研究[J]. 鄧鵬,李枚毅,何誠(chéng). 計(jì)算機(jī)工程. 2012(21)
[6]基于Hadoop的海量MP3文件存儲(chǔ)架構(gòu)[J]. 趙曉永,楊揚(yáng),孫莉莉,陳宇. 計(jì)算機(jī)應(yīng)用. 2012(06)
[7]一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J]. 陳劍,龔發(fā)根. 計(jì)算機(jī)應(yīng)用. 2011(S2)
[8]NAS存儲(chǔ)技術(shù)的研究與應(yīng)用[J]. 李世暢,楊浩瀾,李世亞,陶洋. 計(jì)算機(jī)工程與應(yīng)用. 2003(13)
碩士論文
[1]HDFS云存儲(chǔ)系統(tǒng)可用性能的優(yōu)化研究[D]. 胡夢(mèng)楠.電子科技大學(xué) 2016
[2]HDFS分布式文件系統(tǒng)存儲(chǔ)策略研究[D]. 周小玉.電子科技大學(xué) 2015
[3]基于HDFS的名字節(jié)點(diǎn)的性能優(yōu)化技術(shù)研究[D]. 李夢(mèng)楠.沈陽(yáng)工業(yè)大學(xué) 2015
[4]基于Hadoop的海量醫(yī)學(xué)影像數(shù)據(jù)處理過(guò)程中的優(yōu)化方法研究[D]. 王燕楠.首都師范大學(xué) 2014
[5]HDFS高可用性方案的研究與優(yōu)化[D]. 韓佩.西北大學(xué) 2013
[6]主從式云計(jì)算平臺(tái)高可用性研究[D]. 鄧鵬.湘潭大學(xué) 2013
[7]基于HDFS的多Namenode元數(shù)據(jù)管理研究[D]. 張博.電子科技大學(xué) 2013
[8]一種高性能HDFS存儲(chǔ)平臺(tái)的研究與實(shí)現(xiàn)[D]. 王磊.西安電子科技大學(xué) 2013
[9]基于Paxos算法的HDFS高可用性的研究與設(shè)計(jì)[D]. 楊平安.華南理工大學(xué) 2012
[10]基于HDFS的分布式存儲(chǔ)研究與應(yīng)用[D]. 童明.華中科技大學(xué) 2012
本文編號(hào):2903820
【文章來(lái)源】:西北大學(xué)陜西省 211工程院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
EditLog的文件名形式
一般使用 RAS 參數(shù)來(lái)衡量其性能,分別為高可靠性(Relivailability)和可維護(hù)性(Serviceability)。由 3.1 節(jié)可知,可靠性和可 和 MTTR 決定,高可用性為系統(tǒng)正常對(duì)外服務(wù)占總運(yùn)行時(shí)間的百示為:統(tǒng)發(fā)生故障的概率為 a=1/MTTF,修復(fù)概率為 b=1/MTTR,將其帶點(diǎn)來(lái)說(shuō),其可用性可以表示為:統(tǒng)中有兩種狀態(tài)的 NameNode,忽略掉網(wǎng)絡(luò)因素,運(yùn)行情況有以下MTTFMTTRMTTFA+=abbababaaba+=+=+=+=1111MTTFMTTRMTTFA
在集群正式啟動(dòng)之前,必須確保集群中每臺(tái)服務(wù)器之間均能互相訪問(wèn)。因此,需要集群中每個(gè)節(jié)點(diǎn)的配置文件/etc/hosts 進(jìn)行相應(yīng)編輯,具體內(nèi)容如下。192.168.1.61 Master1192.168.1.64 Master2192.168.1.65 Master3192.168.1.62 Slave1192.168.1.63 Slave2當(dāng)所有節(jié)點(diǎn)均配置完 hosts 文件后,使用 ping 命令測(cè)試配置是否生效,若 ping 不通他節(jié)點(diǎn),說(shuō)明網(wǎng)絡(luò)出現(xiàn)問(wèn)題,需要檢查系統(tǒng)的網(wǎng)絡(luò)配置。網(wǎng)絡(luò)配置完成后,對(duì) Hadoop 的相關(guān)配置文件進(jìn)行編輯,這些文件存放在 Hadoop裝目錄下的 etc 文件夾中,需要配置的文件為 core-site.xml、hdfs-site.xml 和pred-site.xml。首先是 core-site.xml 配置文件,具體信息如圖 5.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]面向大數(shù)據(jù)云存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)研究[J]. 劉若冰. 現(xiàn)代電子技術(shù). 2016(06)
[2]基于Hadoop的海量醫(yī)療小文件處理系統(tǒng)[J]. 魏強(qiáng),孔廣黔,吳云. 計(jì)算機(jī)與數(shù)字工程. 2015(04)
[3]基于HDFS的小文件存儲(chǔ)與讀取優(yōu)化策略[J]. 張海,馬建紅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2014(05)
[4]利用Zookeeper對(duì)HDFS中Namenode單點(diǎn)失敗的改進(jìn)方法[J]. 魯陽(yáng),鄭巖. 軟件. 2012(12)
[5]Namenode單點(diǎn)故障解決方案研究[J]. 鄧鵬,李枚毅,何誠(chéng). 計(jì)算機(jī)工程. 2012(21)
[6]基于Hadoop的海量MP3文件存儲(chǔ)架構(gòu)[J]. 趙曉永,楊揚(yáng),孫莉莉,陳宇. 計(jì)算機(jī)應(yīng)用. 2012(06)
[7]一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J]. 陳劍,龔發(fā)根. 計(jì)算機(jī)應(yīng)用. 2011(S2)
[8]NAS存儲(chǔ)技術(shù)的研究與應(yīng)用[J]. 李世暢,楊浩瀾,李世亞,陶洋. 計(jì)算機(jī)工程與應(yīng)用. 2003(13)
碩士論文
[1]HDFS云存儲(chǔ)系統(tǒng)可用性能的優(yōu)化研究[D]. 胡夢(mèng)楠.電子科技大學(xué) 2016
[2]HDFS分布式文件系統(tǒng)存儲(chǔ)策略研究[D]. 周小玉.電子科技大學(xué) 2015
[3]基于HDFS的名字節(jié)點(diǎn)的性能優(yōu)化技術(shù)研究[D]. 李夢(mèng)楠.沈陽(yáng)工業(yè)大學(xué) 2015
[4]基于Hadoop的海量醫(yī)學(xué)影像數(shù)據(jù)處理過(guò)程中的優(yōu)化方法研究[D]. 王燕楠.首都師范大學(xué) 2014
[5]HDFS高可用性方案的研究與優(yōu)化[D]. 韓佩.西北大學(xué) 2013
[6]主從式云計(jì)算平臺(tái)高可用性研究[D]. 鄧鵬.湘潭大學(xué) 2013
[7]基于HDFS的多Namenode元數(shù)據(jù)管理研究[D]. 張博.電子科技大學(xué) 2013
[8]一種高性能HDFS存儲(chǔ)平臺(tái)的研究與實(shí)現(xiàn)[D]. 王磊.西安電子科技大學(xué) 2013
[9]基于Paxos算法的HDFS高可用性的研究與設(shè)計(jì)[D]. 楊平安.華南理工大學(xué) 2012
[10]基于HDFS的分布式存儲(chǔ)研究與應(yīng)用[D]. 童明.華中科技大學(xué) 2012
本文編號(hào):2903820
本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/2903820.html
最近更新
教材專(zhuān)著