中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 計算機論文 >

數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復方法研究

發(fā)布時間:2021-01-11 15:15
  數(shù)據(jù)中心日志是數(shù)據(jù)中心性能優(yōu)化的主要依據(jù)。隨著數(shù)據(jù)中心規(guī)模的增長,數(shù)據(jù)中心日志的數(shù)據(jù)屬性數(shù)量和記錄數(shù)量也在穩(wěn)定增長。在該背景下,數(shù)據(jù)中心日志的數(shù)據(jù)缺失問題日益嚴重。既有工作對缺失的數(shù)據(jù)的處理方法無法應對日志數(shù)據(jù)缺失問題的兩大新挑戰(zhàn):數(shù)據(jù)稀疏性以及數(shù)據(jù)屬性間復雜的相關關系。針對現(xiàn)有工作的不足,本文提出一種面向數(shù)據(jù)中心數(shù)據(jù)稀疏日志的缺失數(shù)據(jù)恢復方法STDR,基于張量理論對缺失數(shù)據(jù)進行恢復,并使用數(shù)據(jù)屬性選取以及離散化優(yōu)化方法來提高數(shù)據(jù)恢復的準確度并降低計算開銷。(1)提出了一個數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復框架。本文分析了具有代表性的阿里巴巴數(shù)據(jù)中心日志的數(shù)據(jù)缺失特征。在該缺失特征的基礎上,提出的方法框架包含兩個主要階段,數(shù)據(jù)屬性選取和離散化階段以及張量構建和補全階段。數(shù)據(jù)屬性選取和離散化對日志數(shù)據(jù)進行預處理以降低數(shù)據(jù)恢復的計算開銷并提高準確率。張量構建和補全階段基于張量理論進行數(shù)據(jù)恢復。(2)提出了一個基于調整互信息的數(shù)據(jù)屬性選取方法。同時考慮候選數(shù)據(jù)屬性與缺失數(shù)據(jù)屬性之間的相關性,以及選取數(shù)據(jù)屬性之間的冗余性。提出了一個動態(tài)步長數(shù)據(jù)離散化方法。針對數(shù)據(jù)屬性選取和張量補全兩個過程的不同需... 

【文章來源】:北京工業(yè)大學北京市 211工程院校

【文章頁數(shù)】:67 頁

【學位級別】:碩士

【部分圖文】:

數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復方法研究


阿里巴巴數(shù)據(jù)中心日志批處理作業(yè)信息缺失情況

相似實例,特征分布,內存,情況


第 3 章 問題分析與整體設計測現(xiàn)象 1:對于大多數(shù)批處理任務,它們的 AMU/MMU 數(shù)據(jù)遵循模式。合并后的數(shù)據(jù)表中有 54.3%的任務出現(xiàn)了 AMU/MMU 數(shù)據(jù)7.7%的任務丟失了其全部實例的 AMU/MMU 數(shù)據(jù)。歸屬于同一個由于它們擁有完全一致的資源配置,執(zhí)行完全一致的二進制代碼,片的數(shù)據(jù),它們的資源利用特種基本相似,即 AMU/MMU 數(shù)值相巴數(shù)據(jù)中心日志未缺失中,相同任務中的實例 AMU 數(shù)值的變異系,MMU 數(shù)值的變異系數(shù)平均為 0.11)。該觀測現(xiàn)象表明,我們無兄弟實例,即歸屬于同一個任務的實例的 AMU 數(shù)值來恢復缺失必須經由分析其他任務實例的 AMU 數(shù)值變化規(guī)律來進行恢復。

數(shù)據(jù)屬性,數(shù)據(jù)中心,日志,相關關系


圖 3-3 阿里巴巴數(shù)據(jù)中心日志中不同數(shù)據(jù)屬性之間的相關關系Figure 3-3 Correlations among attributes inAlibaba batch job trace之間存在線性相關關系及非線性相關關系。該觀測現(xiàn)象表明,在對缺失數(shù)據(jù)屬性進行建模時,應選取與之相關性較高的數(shù)據(jù)屬性子集而非使用全部數(shù)據(jù)屬性,以降低計算開銷。同時,選取高相關性屬性子集時,同時要考慮到該子集內數(shù)據(jù)屬性間信息的冗余問題。另外,在選擇相關性評價指標時,需選擇能同時衡量線性和非線性相關關系的指標。3.3 數(shù)據(jù)中心日志恢復問題分析和方法設計本文針對的數(shù)據(jù)中心日志大比例數(shù)據(jù)缺失問題詳細地說,是數(shù)據(jù)中心日志中數(shù)值型(numerical)數(shù)據(jù)屬性中出現(xiàn)的大比例的數(shù)據(jù)缺失問題。本文以阿里巴巴數(shù)據(jù)中心日志為切入點展開研究,原因如下:1)作為繼谷歌于 2011 年公布其數(shù)據(jù)中心日之后唯一一個對公眾開放的大規(guī)模數(shù)據(jù)中心日志,阿里巴巴數(shù)據(jù)中心日志在離線負載內存使用量均值與最大值兩個數(shù)據(jù)屬性出現(xiàn)了高達 88%的數(shù)據(jù)缺

【參考文獻】:
期刊論文
[1]云計算數(shù)據(jù)中心網(wǎng)絡設計綜述[J]. 王斌鋒,蘇金樹,陳琳.  計算機研究與發(fā)展. 2016(09)
[2]云計算數(shù)據(jù)中心的新能源應用:研究現(xiàn)狀與趨勢[J]. 鄧維,劉方明,金海,李丹.  計算機學報. 2013(03)
[3]面向Internet數(shù)據(jù)中心的資源管理[J]. 張偉,宋瑩,阮利,祝明發(fā),肖利民.  軟件學報. 2012(02)
[4]多元回歸模型在實際應用中的幾種推廣[J]. 項靜恬,郭世琪.  數(shù)理統(tǒng)計與管理. 1994(04)



本文編號:2971010

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/2971010.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶156c7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com