基于視覺的未知物體識別及機器人自主抓取研究
發(fā)布時間:2020-04-08 23:27
【摘要】:隨著機器人技術(shù)和信息技術(shù)的不斷發(fā)展,基于視覺的未知物體識別技術(shù)和機器人自主抓取技術(shù)作為機器人為人類提供自主抓取服務(wù)任務(wù)的基本能力,越來越受到相關(guān)領(lǐng)域研究者的重視。該技術(shù)可被廣泛應(yīng)用在輔助醫(yī)療、智能家居、智慧工廠等諸多領(lǐng)域,從而極大擴(kuò)展機器人的應(yīng)用范圍和應(yīng)用前景。然而,相對于實驗室環(huán)境下的機器人未知物體識別和自主抓取研究,在真實環(huán)境下,機器人面臨著背景環(huán)境復(fù)雜,物體模型未知及人類個體行為間差異性大等眾多嚴(yán)峻挑戰(zhàn)。因此,如何使機器人在真實環(huán)境中,依據(jù)人類典型行為的識別理解,主動抓取目標(biāo)物體,完成為人類提供自主抓取服務(wù)是一個需要克服的難題。機器人準(zhǔn)確實現(xiàn)對未知物體的識別和對人類日常生活中一些典型抓放行為的有效識別,是其能夠完成自主抓取任務(wù)的核心能力。其中未知物體識別為機器人自主抓取任務(wù)提供抓取決策能力,完成對物體可抓取性判斷,對可抓取物體種類識別和對物體抓取區(qū)域識別。人類抓放行為識別為機器人自主抓取任務(wù)提供上層決策能力,實現(xiàn)對人類典型抓取、放置和移動物體行為的有效識別。本文采用3D視覺傳感器作為機器人主要的感知工具,主要研究人機協(xié)作背景下,機器人完成自主抓取物體任務(wù)中關(guān)鍵的視覺識別問題,并將其劃分為三個關(guān)鍵問題:真實環(huán)境中適合抓取物體的識別問題,未知模型物體抓取區(qū)域的識別問題,以及不完整數(shù)據(jù)序列下人類抓放行為的識別問題。首先,人類抓放行為識別部分為機器人自主抓取任務(wù)提供抓取目標(biāo);然后,可抓取物體識別部分檢測識別出適合機器人進(jìn)行抓取的目標(biāo)物體;最后,未知模型物體抓取區(qū)域識別部分獲取目標(biāo)物體的抓取區(qū)域及抓取位姿,并生成機器人的抓取規(guī)劃。本文將對上述三個關(guān)鍵的視覺識別問題展開研究。針對訓(xùn)練數(shù)據(jù)不足情況下,傳統(tǒng)可抓取物體識別方法識別效果差、泛化能力不足的問題,本文提出一種基于分等級特征-多任務(wù)學(xué)習(xí)機制的可抓取物體識別方法。首先,采用基于淺層核特征和自學(xué)習(xí)特征的分等級特征學(xué)習(xí)方法,從有限訓(xùn)練數(shù)據(jù)中高效的學(xué)習(xí)物體高等級圖像特征描述;然后,將可抓取物體識別問題分解為物體可抓取性判別和可抓取物體種類識別兩個子任務(wù),并構(gòu)建一個由粗到細(xì)的多任務(wù)學(xué)習(xí)機制;最后,設(shè)計一種多任務(wù)損失函數(shù)對兩個識別任務(wù)同時進(jìn)行約束,實現(xiàn)對多任務(wù)模型的聯(lián)合優(yōu)化。其中物體可抓取性判別結(jié)果是物體抓取區(qū)域識別的前提條件,而可抓取物體種類識別結(jié)果則可識別出目標(biāo)種類物體所在區(qū)域。實驗結(jié)果表明,該方法能夠?qū)崿F(xiàn)對可抓取物體快速、準(zhǔn)確的識別分類,并在真實環(huán)境中取得良好的識別效果。針對機器人對未知模型物體的抓取識別問題,本文提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的物體抓取區(qū)域識別方法。該方法無需建立物體模型,可通過物體一對RGB-D圖像信息,識別出適合機器人抓取的物體區(qū)域及抓取位姿。首先,將機器人對物體的抓取問題形式化為一個對圖像中抓取區(qū)域的識別問題,并采用深度卷積神經(jīng)網(wǎng)絡(luò)模型來解決這一問題;然后,為了提高模型對多通道信息的處理能力,設(shè)計一種多通道視覺信息融合方法,顯著降低模型過擬合風(fēng)險;其后,采用一種基于反饋機制的候選抓取區(qū)域生成算法,對物體上輸出概率最大化的抓取區(qū)域?qū)崿F(xiàn)快速搜索;最后,對抓取區(qū)域的六自由度位姿進(jìn)行有效估計,并生成機器人的期望抓取位姿。實驗結(jié)果表明,該方法在真實環(huán)境下對未知模型物體的抓取識別效果優(yōu)異,驗證了方法的有效性和強泛化能力。人類行為是一種具有高度不確定性的時序信息,由于人類個體習(xí)慣不同,即使同一類別的人類行為也差異巨大。為了從不完整圖像序列信息中實現(xiàn)對人類抓放行為中典型抓取、放置和移動行為的有效識別,本文提出一種基于改進(jìn)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的人類抓放行為識別方法。首先,將人類抓放行為的識別問題形式化為一個可端到端訓(xùn)練的編碼-解碼問題;然后,通過卷積網(wǎng)絡(luò)模型和長短期記憶模型學(xué)習(xí)表征人類抓放行為空間信息和時序信息的抽象特征;其后,通過改進(jìn)模型損失函數(shù)處理人類抓放行為圖像序列信息初始階段的高噪聲和歧義性問題,并使模型能夠利用不完整序列信息,盡早完成對人類抓放行為的識別;最后,通過大量采樣數(shù)據(jù)樣本、合理的數(shù)據(jù)放大及設(shè)計模型訓(xùn)練步驟,實現(xiàn)對模型的訓(xùn)練優(yōu)化。實驗結(jié)果表明,該方法對噪聲不敏感、魯棒性強,能夠?qū)崿F(xiàn)對人類抓放行為中抓取、放置和移動物體行為的有效識別。本文搭建機器人自主抓取實驗平臺,設(shè)計依據(jù)人類抓放行為識別結(jié)果的機器人自主抓取策略,并開展機器人抓取未知模型物體實驗和有人類參與的機器人自主抓取實驗。實驗結(jié)果表明,機器人可在真實環(huán)境下實現(xiàn)對未知模型物體的有效抓取,且機器人可依據(jù)人類抓放行為意圖的識別結(jié)果做出抓取決策,完成對目標(biāo)物體的自主抓取任務(wù)。
【圖文】:
第 1 章 緒論一個典型的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要包括輸入層(藍(lán)色)、隱含層(綠色)和輸出層(紅色)等三個層級,如圖1-1所示。圖中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含 4 個輸入單元(不包含偏置項),3 個隱含單元(不包含偏置項)和 1 個輸出單元,其中隱含層單元數(shù)量為模型超參數(shù),需要進(jìn)行調(diào)節(jié)以獲取最佳識別效果。圖 1-1 傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型Fig.1-1 The model of traditional neural networks圖中各神經(jīng)元之間的連接線代表模型權(quán)重參數(shù),包括[1] [1] [2] [2],其中[ ]向量中各項[ ]表示第 層上第 單元與第 層上第 個單元間的連接權(quán)重參數(shù);[ ]向量中各項[ ]是第 層與第 層上第 個神經(jīng)元上的偏置項參數(shù)。圖中[2]和[2]分別表示隱含神經(jīng)元的加權(quán)總輸入向量和激活向量;是神經(jīng)網(wǎng)絡(luò)的第 個輸出單元的輸出結(jié)果。通過將參數(shù)矩陣進(jìn)行向量化,神經(jīng)網(wǎng)絡(luò)前向傳播階段的計算過程可簡化為下式。[2]∑1[1][1] [1] [1][2] [2][3] [2] [2] [2][3] [3](1-2)式中 ———表示激活函數(shù);1———表示輸入單元維度。設(shè)定神經(jīng)網(wǎng)絡(luò)模型樣本集為(1) (1) ( ) ( ),則上述神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)如式1-3所示。式中第一項為模型的均方差項
解決這一問題的典型方法。該方法通過一種最小解釋路徑的三層神經(jīng)網(wǎng)絡(luò)來構(gòu)建一個恒等式,以實現(xiàn)對輸入數(shù)據(jù)的重構(gòu),,從而完成對輸入特征的等效變換。該方法模型結(jié)構(gòu)如圖1-2所示。圖 1-2 自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1-2 The model of an auto-encoder圖1-2中,1 2,[ ][ ]1[ ]2[ ]和1 2分別為網(wǎng)絡(luò)輸入單元、隱含層單元和輸出單元;[ ]和[ ]分別為隱含層的輸入和輸- 8 -
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP242
本文編號:2619959
【圖文】:
第 1 章 緒論一個典型的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要包括輸入層(藍(lán)色)、隱含層(綠色)和輸出層(紅色)等三個層級,如圖1-1所示。圖中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含 4 個輸入單元(不包含偏置項),3 個隱含單元(不包含偏置項)和 1 個輸出單元,其中隱含層單元數(shù)量為模型超參數(shù),需要進(jìn)行調(diào)節(jié)以獲取最佳識別效果。圖 1-1 傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型Fig.1-1 The model of traditional neural networks圖中各神經(jīng)元之間的連接線代表模型權(quán)重參數(shù),包括[1] [1] [2] [2],其中[ ]向量中各項[ ]表示第 層上第 單元與第 層上第 個單元間的連接權(quán)重參數(shù);[ ]向量中各項[ ]是第 層與第 層上第 個神經(jīng)元上的偏置項參數(shù)。圖中[2]和[2]分別表示隱含神經(jīng)元的加權(quán)總輸入向量和激活向量;是神經(jīng)網(wǎng)絡(luò)的第 個輸出單元的輸出結(jié)果。通過將參數(shù)矩陣進(jìn)行向量化,神經(jīng)網(wǎng)絡(luò)前向傳播階段的計算過程可簡化為下式。[2]∑1[1][1] [1] [1][2] [2][3] [2] [2] [2][3] [3](1-2)式中 ———表示激活函數(shù);1———表示輸入單元維度。設(shè)定神經(jīng)網(wǎng)絡(luò)模型樣本集為(1) (1) ( ) ( ),則上述神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)如式1-3所示。式中第一項為模型的均方差項
解決這一問題的典型方法。該方法通過一種最小解釋路徑的三層神經(jīng)網(wǎng)絡(luò)來構(gòu)建一個恒等式,以實現(xiàn)對輸入數(shù)據(jù)的重構(gòu),,從而完成對輸入特征的等效變換。該方法模型結(jié)構(gòu)如圖1-2所示。圖 1-2 自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1-2 The model of an auto-encoder圖1-2中,1 2,[ ][ ]1[ ]2[ ]和1 2分別為網(wǎng)絡(luò)輸入單元、隱含層單元和輸出單元;[ ]和[ ]分別為隱含層的輸入和輸- 8 -
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP242
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 趙麗琴;韓贊勇;;人口老齡化背景下我國經(jīng)濟(jì)發(fā)展問題研究[J];經(jīng)濟(jì)問題;2015年10期
相關(guān)碩士學(xué)位論文 前1條
1 李重陽;基于在線避障的機器人示范編程技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2015年
本文編號:2619959
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2619959.html
最近更新
教材專著