二值卷積神經網絡加速器的VLSI架構設計
發(fā)布時間:2024-07-10 20:31
卷積神經網絡在圖像分類領域應用越來越廣泛,網絡規(guī)模逐漸增大,有限的乘法器資源和片上存儲空間難以滿足卷積網絡計算高并行性和日益增多的浮點數權重存儲需求。二值卷積神經網絡是一種量化的卷積神經網絡,權重量化為+1或-1使得卷積計算時可以避免乘法運算,并且二值化權重使用1 bit表示,有效降低了權重參數存儲空間需求。本文重點研究二值卷積神經網絡及其加速器VLSI架構的設計,充分利用二值卷積神經網絡的特性,設計低功耗、高并行、高能效二值卷積網絡加速器,完成邏輯綜合、布局布線以及板級驗證。本文主要工作如下:(1)設計了一種二值編碼激活函數,在前向傳播過程中使用同或和比較運算替換中間BN層的乘法運算,從而減少了乘法運算次數,同時在全二值卷積層將中間特征圖數據量化為整數,降低了中間特征圖存儲需求。(2)基于二值圖片輸入,設計了一種BNET-6網絡加速器,使用脈動數據流和層間流水線提高計算并行度。使用二值編碼激活函數,中間特征圖存儲減少72%。在 120 MHz 時,FPS 為 23080@28×28,推理 MNIST 測試集精度降低 0.13%。根據在VC707 FPGA芯片上的實現結果,片上功耗為0...
【文章頁數】:90 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 卷積神經網絡及二值化現狀
1.2.1 卷積神經網絡背景
1.2.2 卷積神經網絡優(yōu)化方法
1.2.3 卷積網絡的二值化
1.3 卷積及二值化硬件加速現狀
1.3.1 浮點卷積硬件加速
1.3.2 定點卷積硬件加速
1.3.3 二值卷積硬件加速
1.4 主要工作與內容安排
1.4.1 主要工作
1.4.2 內容安排
第2章 卷積神經網絡及二值化
2.1 卷積神經網絡基礎
2.1.1 卷積計算
2.1.2 池化計算
2.1.3 全連接計算
2.1.4 激活函數計算
2.1.5 批量歸一化計算
2.1.6 輸入特征圖填充
2.1.7 前向傳播與反向傳播
2.2 二值卷積神經網絡
2.2.1 二值卷積層
2.2.2 二值卷積神經網絡訓練
2.3 二值卷積硬件加速計算轉換
2.3.1 乘累加轉同或累加
2.3.2 二值卷積計算簡化
2.4 本章小結
第3章 脈動二值卷積網絡加速器設計
3.1 BNET-6網絡結構和參數
3.2 脈動數據流工作方式
3.3 BNET-6加速器架構
3.3.1 流水線結構
3.3.2 脈動陣列結構
3.3.3 脈動陣列計算單元
3.3.4 二值編碼激活函數結構
3.3.5 最大值池化單元結構
3.4 BNET-6網絡仿真
3.4.1 MNIST數據集
3.4.2 BNET-6加速器行為級仿真結果
3.4.3 BNET-6網絡軟件平臺仿真結果
3.5 BNET-6加速器性能與資源使用
3.6 本章小結
第4章 層間并行二值卷積加速器設計
4.1 BNET-12網絡結構和參數
4.2 浮點數定點化原理
4.3 BNET-12加速器架構
4.3.1 輸入輸出特征圖對應關系
4.3.2 層間流水線結構
4.3.3 BNET-12加速器卷積單元
4.3.4 卷積單元內部計算模塊
4.3.5 三行輸入特征圖緩存結構
4.3.6 全連接層計算結構
4.3.7 二值編碼激活函數結構Ⅱ
4.3.8 BNET-12加速器池化結構
4.4 BNET-12網絡仿真
4.4.1 SVHN數據集和Cifar10數據集
4.4.2 SVHN的BNET-12加速器行為級仿真
4.4.3 SVHN的BNET-12網絡軟件仿真
4.4.4 Cifar10的BNET-12加速器行為級仿真
4.4.5 Cifar10的BNET-12網絡軟件仿真
4.5 BNET-12加速器性能和資源使用
4.6 本章小結
第5章 可重構陣列二值卷積加速器設計
5.1 BNET-5網絡結構和參數
5.2 可重構脈動陣列結構
5.2.1 可重構脈動陣列工作模式一
5.2.2 可重構脈動陣列工作模式二
5.2.3 可重構脈動陣列工作模式三
5.2.4 可重構脈動陣列工作模式四
5.3 可重構陣列BNET-5加速器設計
5.3.1 BNET-5加速器總體架構
5.3.2 BNET-5網絡與可重構陣列的映射
5.3.3 BNET-5加速器工作狀態(tài)轉換
5.3.4 可重構陣列計算單元
5.3.5 BNET-5加速器二值化模塊
5.4 BNET-5網絡仿真
5.4.1 BNET-5加速器行為級仿真結果
5.4.2 BNET-5網絡的軟件平臺仿真結果
5.5 BNET-5加速器資源使用與分析
5.6 本章小結
第6章 實驗與評估
6.1 實驗環(huán)境
6.1.1 服務器平臺
6.1.2 硬件架構設計平臺
6.2 實驗流程
6.3 實驗結果評估
6.3.1 BNET-6加速器仿真驗證結果
6.3.2 BNET-12加速器仿真驗證結果
6.3.3 BNET-5加速器仿真驗證結果
6.3.4 邏輯綜合實驗結果
6.4 本章小結
第7章 總結與展望
7.1 總結
7.2 展望
參考文獻
致謝
在讀期間發(fā)表的學術論文與取得的其他研究成果
本文編號:4004691
【文章頁數】:90 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 卷積神經網絡及二值化現狀
1.2.1 卷積神經網絡背景
1.2.2 卷積神經網絡優(yōu)化方法
1.2.3 卷積網絡的二值化
1.3 卷積及二值化硬件加速現狀
1.3.1 浮點卷積硬件加速
1.3.2 定點卷積硬件加速
1.3.3 二值卷積硬件加速
1.4 主要工作與內容安排
1.4.1 主要工作
1.4.2 內容安排
第2章 卷積神經網絡及二值化
2.1 卷積神經網絡基礎
2.1.1 卷積計算
2.1.2 池化計算
2.1.3 全連接計算
2.1.4 激活函數計算
2.1.5 批量歸一化計算
2.1.6 輸入特征圖填充
2.1.7 前向傳播與反向傳播
2.2 二值卷積神經網絡
2.2.1 二值卷積層
2.2.2 二值卷積神經網絡訓練
2.3 二值卷積硬件加速計算轉換
2.3.1 乘累加轉同或累加
2.3.2 二值卷積計算簡化
2.4 本章小結
第3章 脈動二值卷積網絡加速器設計
3.1 BNET-6網絡結構和參數
3.2 脈動數據流工作方式
3.3 BNET-6加速器架構
3.3.1 流水線結構
3.3.2 脈動陣列結構
3.3.3 脈動陣列計算單元
3.3.4 二值編碼激活函數結構
3.3.5 最大值池化單元結構
3.4 BNET-6網絡仿真
3.4.1 MNIST數據集
3.4.2 BNET-6加速器行為級仿真結果
3.4.3 BNET-6網絡軟件平臺仿真結果
3.5 BNET-6加速器性能與資源使用
3.6 本章小結
第4章 層間并行二值卷積加速器設計
4.1 BNET-12網絡結構和參數
4.2 浮點數定點化原理
4.3 BNET-12加速器架構
4.3.1 輸入輸出特征圖對應關系
4.3.2 層間流水線結構
4.3.3 BNET-12加速器卷積單元
4.3.4 卷積單元內部計算模塊
4.3.5 三行輸入特征圖緩存結構
4.3.6 全連接層計算結構
4.3.7 二值編碼激活函數結構Ⅱ
4.3.8 BNET-12加速器池化結構
4.4 BNET-12網絡仿真
4.4.1 SVHN數據集和Cifar10數據集
4.4.2 SVHN的BNET-12加速器行為級仿真
4.4.3 SVHN的BNET-12網絡軟件仿真
4.4.4 Cifar10的BNET-12加速器行為級仿真
4.4.5 Cifar10的BNET-12網絡軟件仿真
4.5 BNET-12加速器性能和資源使用
4.6 本章小結
第5章 可重構陣列二值卷積加速器設計
5.1 BNET-5網絡結構和參數
5.2 可重構脈動陣列結構
5.2.1 可重構脈動陣列工作模式一
5.2.2 可重構脈動陣列工作模式二
5.2.3 可重構脈動陣列工作模式三
5.2.4 可重構脈動陣列工作模式四
5.3 可重構陣列BNET-5加速器設計
5.3.1 BNET-5加速器總體架構
5.3.2 BNET-5網絡與可重構陣列的映射
5.3.3 BNET-5加速器工作狀態(tài)轉換
5.3.4 可重構陣列計算單元
5.3.5 BNET-5加速器二值化模塊
5.4 BNET-5網絡仿真
5.4.1 BNET-5加速器行為級仿真結果
5.4.2 BNET-5網絡的軟件平臺仿真結果
5.5 BNET-5加速器資源使用與分析
5.6 本章小結
第6章 實驗與評估
6.1 實驗環(huán)境
6.1.1 服務器平臺
6.1.2 硬件架構設計平臺
6.2 實驗流程
6.3 實驗結果評估
6.3.1 BNET-6加速器仿真驗證結果
6.3.2 BNET-12加速器仿真驗證結果
6.3.3 BNET-5加速器仿真驗證結果
6.3.4 邏輯綜合實驗結果
6.4 本章小結
第7章 總結與展望
7.1 總結
7.2 展望
參考文獻
致謝
在讀期間發(fā)表的學術論文與取得的其他研究成果
本文編號:4004691
本文鏈接:http://lk138.cn/shoufeilunwen/xixikjs/4004691.html
上一篇:基于深度學習的嵌入式實時視頻結構化系統研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著