中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 科技論文 > 電子信息論文 >

基于FPGA的RNN加速SoC設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2024-11-03 13:37
   為提高循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)推理速度,分析了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在CPU的運(yùn)行時(shí)間瓶頸、輸入向量稀疏性和參數(shù)規(guī)模.設(shè)計(jì)RNN加速器核實(shí)現(xiàn)矩陣-稀疏向量乘并行計(jì)算,并同時(shí)將多個(gè)輸入向量完整存儲(chǔ)于片上SRAM,以復(fù)用部分權(quán)重從而降低DDR帶寬需求.通過Verilog HDL對(duì)RNN加速器核進(jìn)行RTL描述,并搭建仿真環(huán)境,將語音識(shí)別算法DeepSpeech2的網(wǎng)絡(luò)參數(shù)輸入RNN加速器核進(jìn)行功能仿真.基于FPGA,將MicroBlaze處理器與RNN加速器核搭建SoC,由MicroBlaze實(shí)現(xiàn)激活函數(shù)、向量逐元素相乘等其它計(jì)算.實(shí)現(xiàn)了DeepSpeech2中RNN部分推理計(jì)算,與只使用MicroBlaze處理器相比,速度提高23倍,能量消耗降低9.4倍.

【文章頁數(shù)】:6 頁

【部分圖文】:

基于FPGA的RNN加速SoC設(shè)計(jì)與實(shí)現(xiàn)



如圖1所示,循環(huán)神經(jīng)網(wǎng)絡(luò)加速SoC包含MicroBlaze主處理器,RNN加速器核,DMA,DDR控制器,UART核PCIEDMA等部分.PC端通過PCIE接口將神經(jīng)網(wǎng)絡(luò)參數(shù)核輸入傳輸至DDR中;MicroBlaze控制RNN加速器核的工作狀態(tài),完成激活函數(shù)與向量逐點(diǎn)相乘等計(jì)算....


基于FPGA的RNN加速SoC設(shè)計(jì)與實(shí)現(xiàn)



為了使每一個(gè)周期均有非零值進(jìn)入MAC陣列計(jì)算,實(shí)現(xiàn)計(jì)算資源的最大利用,向量讀取和索引產(chǎn)生模塊每一個(gè)周期讀取16個(gè)元素并輸入0值刪除模塊,并盡可能每一個(gè)周期產(chǎn)生一個(gè)非零值.如圖2所示,當(dāng)?shù)谝患?jí)FIFO未滿時(shí),向量讀取模塊產(chǎn)生使能信號(hào),讀取16個(gè)數(shù),并產(chǎn)生索引進(jìn)入第一級(jí)FIFO.第一....


基于FPGA的RNN加速SoC設(shè)計(jì)與實(shí)現(xiàn)



3.5MAC陣列一個(gè)MAC單元用于計(jì)算矩陣中的一行與向量點(diǎn)積的結(jié)果.如圖3所示,一個(gè)MAC單元是一個(gè)三級(jí)流水線結(jié)構(gòu):第一級(jí)中向量的非零值打一拍,同時(shí)根據(jù)非零值的索引值取出對(duì)應(yīng)位置的權(quán)重值,還會(huì)同時(shí)從偏置SRAM和輸出SRAM分別取出偏置值和臨時(shí)的累加結(jié)果;第二級(jí)向量非零值和權(quán)重....



本文編號(hào):4011357

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/dianzigongchenglunwen/4011357.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7599c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com