基于負(fù)載均衡的Hadoop平臺(tái)下作業(yè)調(diào)度算法研究
本文選題:大數(shù)據(jù) + MapReduce ; 參考:《新疆大學(xué)》2013年碩士論文
【摘要】:隨著信息技術(shù)的不斷發(fā)展,各個(gè)企業(yè)的IT系統(tǒng)中存儲(chǔ)著越來(lái)越多與企業(yè)運(yùn)營(yíng)息息相關(guān)的數(shù)據(jù),可以說(shuō)這些數(shù)據(jù)是企業(yè)發(fā)展的核心。所有IT系統(tǒng)的發(fā)展都依賴(lài)于數(shù)據(jù)。各行各業(yè)每天都會(huì)產(chǎn)生海量的數(shù)據(jù),并且數(shù)據(jù)量的增長(zhǎng)成爆炸式。2010年底,,據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心的統(tǒng)計(jì),全球數(shù)據(jù)量已經(jīng)達(dá)到了120萬(wàn)PB,到2020年底,全球所有以電子形式存儲(chǔ)的數(shù)據(jù)量將達(dá)到35ZB。人們不禁感嘆,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。而Hadoop正是應(yīng)大數(shù)據(jù)時(shí)代的到來(lái)而出現(xiàn)的。Hadoop是一個(gè)能夠?qū)A繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。它是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。調(diào)度器(Scheduler)是Hadoop平臺(tái)中一個(gè)非常重要的組件,它的主要功能是將系統(tǒng)中的空閑資源按照一定的策略分配給各個(gè)作業(yè),它對(duì)于整個(gè)系統(tǒng)計(jì)算資源分配及作業(yè)執(zhí)行起著至關(guān)重要的作用。因此我們對(duì)Hadoop作業(yè)調(diào)度器及算法的研究有著重要意義。 本文首先介紹了Hadoop平臺(tái)的優(yōu)勢(shì)及體系結(jié)構(gòu),接著對(duì)Hadoop的核心技術(shù)即Hadoop的分布式文件系統(tǒng)HDFS和Hadoop分布式數(shù)據(jù)處理MapReduce做了較為詳細(xì)的介紹。然后對(duì)Hadoop原有的調(diào)度算法及LATE調(diào)度算法的原理及優(yōu)缺點(diǎn)做了分析。另外,針對(duì)LATE調(diào)度算法在為落后任務(wù)選擇備份執(zhí)行節(jié)點(diǎn)策略的不足,本文提出了改進(jìn)的LATE調(diào)度算法。該算法通過(guò)對(duì)Hadoop集群中的工作負(fù)荷進(jìn)行分類(lèi),并提出對(duì)節(jié)點(diǎn)工作負(fù)載進(jìn)行衡量的方法,進(jìn)而在LATE調(diào)度算法的基礎(chǔ)上提出了新的為落后任務(wù)選擇備份執(zhí)行節(jié)點(diǎn)的策略。最后介紹了擁有6個(gè)節(jié)點(diǎn)的Hadoop集群環(huán)境的搭建過(guò)程,并在該Hadoop集群上對(duì)LATE調(diào)度算法和改進(jìn)的LATE調(diào)度算法進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的LATE調(diào)度算法具有一定的優(yōu)勢(shì)。
[Abstract]:With the development of information technology, more and more data are stored in the IT system of each enterprise, which is the core of enterprise development. The development of all IT systems depends on data. All walks of life produce massive amounts of data every day, and the amount of data is exploding. By the end of 2010, according to the Internet data Center, the global data volume has reached 1.2 million PBs, and by the end of 2020, All data stored electronically around the world will reach 35 ZB. People can not help but sigh, big data era has come. Hadoop is a software framework that can deal with massive data distributed. It is handled in a reliable, efficient and scalable manner. Scheduler is a very important component in Hadoop platform. Its main function is to allocate the free resources to each job according to a certain policy. It plays an important role in computing resource allocation and job execution in the whole system. Therefore, it is of great significance to study Hadoop job scheduler and algorithm. Firstly, this paper introduces the advantages and architecture of Hadoop platform. Then, the core technology of Hadoop, namely, the distributed file system HDFS and Hadoop distributed data processing MapReduce, is introduced in detail. Then, the principle, advantages and disadvantages of Hadoop's original scheduling algorithm and path scheduling algorithm are analyzed. In addition, aiming at the deficiency of path scheduling algorithm in selecting backup execution node policy for backward tasks, this paper proposes an improved path scheduling algorithm. The algorithm classifies the workload in Hadoop cluster, and proposes a method to measure the workload of nodes, and then proposes a new strategy of selecting backup execution nodes for backward tasks based on the path scheduling algorithm. Finally, the construction process of Hadoop cluster environment with six nodes is introduced, and the comparison between the path scheduling algorithm and the improved path scheduling algorithm is carried out on the Hadoop cluster. Experimental results show that the improved path scheduling algorithm has some advantages.
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP338.8
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王峰;;Hadoop集群作業(yè)的調(diào)度算法[J];程序員;2009年12期
2 吳紹春;胡華山;;一個(gè)地震數(shù)據(jù)挖掘網(wǎng)格及其作業(yè)調(diào)度[J];上海大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年05期
3 冼進(jìn);余桂城;;基于云計(jì)算的作業(yè)調(diào)度算法研究[J];計(jì)算機(jī)與數(shù)字工程;2011年07期
4 李培峰;朱巧明;支麗艷;;面向信息服務(wù)的網(wǎng)格資源管理器的設(shè)計(jì)[J];計(jì)算機(jī)工程;2008年03期
5 柴亞輝;李洪剛;顧訓(xùn)穰;;基于資源角色分類(lèi)的密集計(jì)算網(wǎng)格作業(yè)管理[J];計(jì)算機(jī)應(yīng)用與軟件;2006年07期
6 葉建偉;方濱興;田志宏;張宏莉;;基于節(jié)點(diǎn)相似度的容錯(cuò)網(wǎng)格作業(yè)調(diào)度算法研究[J];高技術(shù)通訊;2008年12期
7 盧正鼎;雙機(jī)系統(tǒng)上的一個(gè)作業(yè)調(diào)度算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);1985年06期
8 潘向輝;張二虎;吳學(xué)毅;藺廣逢;;一種多集群網(wǎng)格的負(fù)載均衡算法[J];計(jì)算機(jī)工程與應(yīng)用;2009年35期
9 辛大欣;劉飛;;Hadoop集群性能優(yōu)化技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年22期
10 顧立堯,鄧桂英;排課程序時(shí)間片選擇的安全決策調(diào)度算法[J];上海理工大學(xué)學(xué)報(bào);1986年03期
相關(guān)會(huì)議論文 前10條
1 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實(shí)體識(shí)別技術(shù)研究與實(shí)現(xiàn)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
2 金松昌;方濱興;楊樹(shù)強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
3 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺(tái)研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
4 趙忠偉;;基于IEEE802.11支持QoS的調(diào)度器的模型和帶寬分配算法[A];第九屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2004年
5 趙旭;夏靖波;王哲;;Linux內(nèi)核進(jìn)程調(diào)度的研究與改進(jìn)[A];第三屆全國(guó)嵌入式技術(shù)和信息處理聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2009年
6 李學(xué)橋;梁爽;陳園;;基于CPSS算法的RTAI調(diào)度器的改進(jìn)[A];計(jì)算機(jī)研究新進(jìn)展(2010)——河南省計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
7 馬春光;耿貴寧;尚治國(guó);張秉政;;NS2的結(jié)構(gòu)及其常用工具[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2007年學(xué)術(shù)交流年會(huì)論文集[C];2007年
8 李輝;嚴(yán)雋薇;劉敏;李繼駿;;智能客服系統(tǒng)中調(diào)度器的設(shè)計(jì)與實(shí)現(xiàn)[A];'2008系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年
9 劉桂波;陳國(guó)華;羅大庸;;一類(lèi)鏈路調(diào)度器的統(tǒng)一隨機(jī)服務(wù)曲線(xiàn)研究[A];2011第十六屆全國(guó)自動(dòng)化技術(shù)與應(yīng)用學(xué)術(shù)年會(huì)專(zhuān)輯[C];2011年
10 駱志剛;李巍;張琰;管偉;;一種基于軟件無(wú)線(xiàn)電概念的多標(biāo)準(zhǔn)基帶軟件的設(shè)計(jì)[A];現(xiàn)代通信理論與信號(hào)處理進(jìn)展——2003年通信理論與信號(hào)處理年會(huì)論文集[C];2003年
相關(guān)重要報(bào)紙文章 前10條
1 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
2 本報(bào)記者 馬文方;Hadoop:云中起舞的小象[N];中國(guó)計(jì)算機(jī)報(bào);2010年
3 并行分布處理國(guó)家重點(diǎn)實(shí)驗(yàn)室 章文嵩 章文卓 吳泉源;可伸縮網(wǎng)絡(luò)服務(wù)的Linux集群[N];計(jì)算機(jī)世界;2000年
4 中科院計(jì)算所軟件研究室 李洋;確保Linux環(huán)境下文件共享的安全[N];計(jì)算機(jī)世界;2004年
5 本報(bào)記者 劉洪宇;Hadoop的中國(guó)前途[N];中國(guó)計(jì)算機(jī)報(bào);2009年
6 吳e
本文編號(hào):2001470
本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/2001470.html