一種適用于GPU圖像處理算法的合并存儲(chǔ)結(jié)構(gòu)

發(fā)布時(shí)間：2020-12-09 11:13

　　大多數(shù)圖像處理算法都可利用GPU進(jìn)行加速以達(dá)到更好的執(zhí)行性能,但數(shù)據(jù)傳輸操作與核函數(shù)執(zhí)行之間的調(diào)度策略問題仍是桎梏加速性能進(jìn)一步提升的主要瓶頸。為了解決這個(gè)問題,通常采用GPU任務(wù)流將核函數(shù)執(zhí)行與數(shù)據(jù)傳輸操作進(jìn)行重疊,以隱藏部分?jǐn)?shù)據(jù)傳輸與核函數(shù)執(zhí)行耗時(shí)。但是,由于CUDA編程模型的特性以及GPU硬件資源的限制,在某些情況下,即使創(chuàng)建較多的任務(wù)流用于任務(wù)重疊,每個(gè)流上仍會(huì)存在串行執(zhí)行的任務(wù),導(dǎo)致加速效果無法進(jìn)一步提升。因此,考慮利用CSS將待處理圖像進(jìn)行合并從而將單個(gè)流中的算子核函數(shù)及數(shù)據(jù)傳輸操作進(jìn)行合并,以減少數(shù)據(jù)傳輸操作和核函數(shù)執(zhí)行的固定代價(jià)及調(diào)用間隙。通過實(shí)驗(yàn)結(jié)果可知,提出的CSS結(jié)構(gòu)不僅能在單流的情況下提高GPU圖像處理算法執(zhí)行性能,在多流的情況下其加速性能也得到了進(jìn)一步提升,具有較好的實(shí)用性及可擴(kuò)展性,適用于包含較多算子操作或較小尺寸圖像批量處理的情況。此外,提出的方法對(duì)圖像處理算法的GPU加速提供了新的研究思路。

【文章來源】：計(jì)算機(jī)工程與科學(xué). 2020年02期第197-202頁北大核心

【文章頁數(shù)】：6 頁

【部分圖文】：

邏輯工作隊(duì)列與硬件工作隊(duì)列

并發(fā)執(zhí)行,工作隊(duì)

從上述步驟可知,數(shù)據(jù)傳輸與核函數(shù)執(zhí)行操作是基于GPU的并行優(yōu)化算法中必不可少的2個(gè)重要步驟。由于核函數(shù)執(zhí)行操作通常在算法執(zhí)行總耗時(shí)中占據(jù)較大比重,所以在現(xiàn)有的大部分文獻(xiàn)中,重點(diǎn)關(guān)注如何對(duì)GPU核函數(shù)執(zhí)行部分進(jìn)行優(yōu)化。即根據(jù)算法本身特性及GPU計(jì)算架構(gòu)的特點(diǎn)來設(shè)計(jì)性能最優(yōu)的核函數(shù),從而達(dá)到較好的加速效果。此外,針對(duì)GPU數(shù)據(jù)傳輸耗時(shí)的優(yōu)化方法比如零拷貝(Zero-Copy)[6]和Overlap[7]等的應(yīng)用也取得了一定的加速效果。Zero-Copy是一種將主機(jī)端分配的鎖頁內(nèi)存(Pinned Memory)映射到GPU顯存地址空間的方法,GPU可在需要該內(nèi)存中數(shù)據(jù)時(shí)自動(dòng)通過PCI-E總線訪問主機(jī)端內(nèi)存中的數(shù)據(jù),而不必手動(dòng)將數(shù)據(jù)提前傳輸至GPU顯存。但是,由于所需數(shù)據(jù)并沒有緩存到GPU顯存中,所以每次訪問該數(shù)據(jù)都需要重新獲取,因此只適用于數(shù)據(jù)量較小或數(shù)據(jù)訪問次數(shù)較少的情況。Overlap則是利用CUDA流[3,7-9]實(shí)現(xiàn)不同GPU工作隊(duì)列的并發(fā)執(zhí)行。不同型號(hào)GPU通常擁有數(shù)量不等的可連接硬件工作隊(duì)列上限,并可以進(jìn)行顯式設(shè)置,而邏輯工作隊(duì)列(即CUDA流)則沒有固定數(shù)量限制。通過將邏輯工作隊(duì)列映射到不同硬件工作隊(duì)列,可以重疊數(shù)據(jù)傳輸與核函數(shù)執(zhí)行操作,在支持Hyper-Q特性的GPU上還可以達(dá)到核函數(shù)執(zhí)行之間的重疊,從而減少部分程序執(zhí)行耗時(shí)。如圖 1所示,當(dāng)批量處理6幅圖像時(shí),可以將每幅圖像的處理操作分配到1個(gè)單獨(dú)的CUDA流上,在計(jì)算資源充足的情況下,數(shù)據(jù)傳輸與核函數(shù)以及不同流上核函數(shù)的執(zhí)行時(shí)間軸會(huì)出現(xiàn)重疊,從而獲得較高的并行度與較好的加速效果。雖然CUDA流在邏輯上是相互獨(dú)立且可并發(fā)執(zhí)行的GPU工作隊(duì)列,但將邏輯工作隊(duì)列(即CUDA流)映射到硬件工作隊(duì)列時(shí)會(huì)受到硬件計(jì)算資源方面的限制。GPU中包含較多的計(jì)算核心(Cores),主要分為SP(Stream Processor)和SM(Stream Multi-processor),多個(gè)SP可組成1個(gè)SM,每個(gè)GPU硬件工作隊(duì)列包含至少1個(gè)SM。當(dāng)多個(gè)邏輯工作隊(duì)列映射到同1硬件工作隊(duì)列時(shí),這些邏輯工作隊(duì)列將會(huì)采取分時(shí)復(fù)用的方式執(zhí)行。因此,即使創(chuàng)建多個(gè)邏輯工作隊(duì)列,但當(dāng)硬件工作隊(duì)列不足以同時(shí)執(zhí)行全部邏輯工作隊(duì)列時(shí),邏輯上并行執(zhí)行的工作隊(duì)列在物理上仍是串行執(zhí)行的。如圖 2a所示,假定GPU硬件資源僅支持同時(shí)執(zhí)行3個(gè)硬件工作隊(duì)列,即使創(chuàng)建邏輯上可并行執(zhí)行的6個(gè)邏輯工作隊(duì)列,但未搶占到硬件工作隊(duì)列所有權(quán)的邏輯工作隊(duì)列不得不進(jìn)行等待,圖2a所示邏輯工作隊(duì)列執(zhí)行時(shí)間軸對(duì)應(yīng)的硬件工作隊(duì)列執(zhí)行時(shí)間軸如圖 2b所示。此外,在每個(gè)硬件工作隊(duì)列上需要串行執(zhí)行的操作中,數(shù)據(jù)傳輸與數(shù)據(jù)傳輸之間以及核函數(shù)執(zhí)行與數(shù)據(jù)傳輸之間存在調(diào)用間隙。在這種情況下,算法的實(shí)際執(zhí)行情況并沒有達(dá)到圖 1所示的理想效果。

存儲(chǔ)結(jié)構(gòu),圖像,數(shù)據(jù)傳輸

在圖像處理領(lǐng)域中,通常將圖像視為數(shù)字矩陣傳輸至GPU顯存中進(jìn)行處理[10,11]。因此,本文提出一種適用于GPU的圖像合并存儲(chǔ)結(jié)構(gòu)(CSS),如圖 3所示。利用CSS可以將具有相同類型、相同算子、相同或不同大小的圖像進(jìn)行合并存儲(chǔ)、傳輸及計(jì)算。如前文所述,每次GPU數(shù)據(jù)傳輸操作都存在固定代價(jià)。Tinit在每次數(shù)據(jù)傳輸操作調(diào)用前都會(huì)執(zhí)行,即屬于固定代價(jià)且不隨傳輸數(shù)據(jù)量的大小而改變。而Tcopy不屬于固定代價(jià),因此隨傳輸數(shù)據(jù)量的增加而增加。當(dāng)將多次數(shù)據(jù)傳輸操作進(jìn)行合并時(shí),固定代價(jià)會(huì)隨之減少。分別采用SEP與CSS的多次GPU數(shù)據(jù)傳輸操作總耗時(shí)計(jì)算方法如式(3)所示:

【參考文獻(xiàn)】：
期刊論文
[1]并行計(jì)算在動(dòng)態(tài)攝影測量邊緣提取算法中應(yīng)用[J]. 劉振濤,燕必希,董明利,孫鵬,王君.  計(jì)算機(jī)工程與設(shè)計(jì). 2019(01)
[2]基于MODIS植被指數(shù)的氣候平均研究[J]. 紀(jì)翔,盧涵宇,趙天杰,吳松,盧天健.  廣西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[3]基于GPU和矩陣分塊的增強(qiáng)植被指數(shù)計(jì)算[J]. 沈夏炯,侯柏成,韓道軍,馬瑞.  遙感信息. 2018(03)
[4]GPU加速的差分進(jìn)化粒子濾波算法[J]. 曹潔,黃開杰,王進(jìn)花.  計(jì)算機(jī)應(yīng)用研究. 2018(07)

本文編號(hào)：2906779

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/jisuanjikexuelunwen/2906779.html

上一篇：微課在“計(jì)算機(jī)應(yīng)用基礎(chǔ)”課程中的輔助運(yùn)用
下一篇：螺旋法:計(jì)算機(jī)專業(yè)課雙語教學(xué)改革新探索

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

一種適用于GPU圖像處理算法的合并存儲(chǔ)結(jié)構(gòu)