基于深度學(xué)習(xí)的人類行為識(shí)別和視頻描述生成
本文選題:行為識(shí)別 + 視頻描述生成; 參考:《電子科技大學(xué)》2017年碩士論文
【摘要】:視頻智能分析一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。其中涉及到不同的研究問(wèn)題,包括視頻語(yǔ)義分割,視頻追蹤,視頻檢索,行為識(shí)別以及視頻描述生成等等。為了更進(jìn)一步構(gòu)建視頻內(nèi)容與高層語(yǔ)義之間的橋梁,本文圍繞兩個(gè)具體的視頻應(yīng)用進(jìn)行深入研究:視頻中的行為識(shí)別和視頻描述生成。具體而言,我們把行為識(shí)別視作低層語(yǔ)義分類問(wèn)題。而將視頻描述問(wèn)題視作為高層語(yǔ)義生成問(wèn)題。因?yàn)樵撊蝿?wù)要求同時(shí)理解視覺(jué)內(nèi)容和自然語(yǔ)言。而針對(duì)這些問(wèn)題的挑戰(zhàn),本文具體研究?jī)蓚(gè)問(wèn)題:1)如何構(gòu)建一個(gè)算法計(jì)算視頻對(duì)應(yīng)的模式。2)如何構(gòu)建一個(gè)有效的計(jì)算框架來(lái)架起視頻內(nèi)容與自然語(yǔ)言的橋梁。對(duì)于視頻中的行為識(shí)別而言,傳統(tǒng)的方法將此問(wèn)題化為多分類問(wèn)題,并且提出了不同的視頻特征提取方法。然而,傳統(tǒng)的方法基于低層信息進(jìn)行提取,比如從視覺(jué)紋理信息或者視頻中的運(yùn)動(dòng)估計(jì)值。由于提取的信息單一,不能很好的代表視頻內(nèi)容,進(jìn)而導(dǎo)致所優(yōu)化的分類器并不是最優(yōu)的。而作為深度學(xué)習(xí)中的一項(xiàng)技術(shù),卷積神經(jīng)網(wǎng)絡(luò)將特征學(xué)習(xí)和分類器學(xué)習(xí)融合為一個(gè)整體,并且成功應(yīng)用在視頻中的行為識(shí)別方面。然而,當(dāng)前提出的并應(yīng)用在行為識(shí)別方面的卷積神經(jīng)網(wǎng)絡(luò)框架仍具有三種限制:1)輸入網(wǎng)絡(luò)的視頻的空間尺寸必須固定大小;2)輸入網(wǎng)絡(luò)的視頻的時(shí)長(zhǎng)固定;3)網(wǎng)絡(luò)提取短時(shí)序結(jié)構(gòu)的特征。這使得網(wǎng)絡(luò)模型應(yīng)用在極強(qiáng)的限制條件下,不利于現(xiàn)實(shí)場(chǎng)景下的應(yīng)用擴(kuò)展。為了解決以上的問(wèn)題,本文提出一種基于3D卷積網(wǎng)絡(luò)的端到端識(shí)別模型。該模型實(shí)現(xiàn)在任意尺度和時(shí)長(zhǎng)的視頻條件下進(jìn)行行為識(shí)別。具體而言,首先將一個(gè)視頻劃分為一系列連續(xù)的視頻片段。然后,將連續(xù)的視頻片段輸入到由卷積計(jì)算層和時(shí)空金字塔池化層組成的3D神經(jīng)網(wǎng)絡(luò)得到連續(xù)的視頻片段特征。然后通過(guò)長(zhǎng)短記憶模型計(jì)算全局的視頻特征作為行為模式。我們?cè)赨CF101,HMDB51和ACT三個(gè)通用的數(shù)據(jù)集上評(píng)估提出的模型。實(shí)驗(yàn)結(jié)果顯示,和目前流行的2D或3D為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型相比,提出的方法在識(shí)別性能上得到了提升。在視頻描述生成方面,以編碼-解碼為基礎(chǔ)的框架已經(jīng)得到了廣泛的應(yīng)用。最近,時(shí)序注意力機(jī)制已經(jīng)被提出并且被證明能夠提升以編碼-解碼為基礎(chǔ)的描述生成模型的性能。然而,時(shí)序注意力機(jī)制只解決了視頻內(nèi)容的選取。對(duì)于語(yǔ)句的上下文則是由先驗(yàn)語(yǔ)義而定。然而,在視頻描述生成這個(gè)方面,目前的方法沒(méi)有同時(shí)考慮時(shí)序注意力機(jī)制和先驗(yàn)語(yǔ)義建模。為了解決這個(gè)問(wèn)題,本文提出一個(gè)新的端到端的神經(jīng)網(wǎng)絡(luò)模型,能夠?qū)⒏邔拥囊曈X(jué)語(yǔ)義概念融入到時(shí)序注意力機(jī)制,并促進(jìn)生成更準(zhǔn)確的視頻描述。在提出的框架中,編碼神經(jīng)網(wǎng)絡(luò)模型用于提取視頻的視覺(jué)特征,并且通過(guò)該特征預(yù)測(cè)語(yǔ)義概念。同時(shí),解碼神經(jīng)網(wǎng)絡(luò)根據(jù)視覺(jué)特征與語(yǔ)義信息來(lái)生成連貫的自然語(yǔ)言句子。具體而言,解碼神經(jīng)網(wǎng)絡(luò)結(jié)合了視覺(jué)特征和語(yǔ)義表達(dá)特征。并且將語(yǔ)義信息和注意力機(jī)制嵌入到GRU神經(jīng)網(wǎng)絡(luò)單元中去更加準(zhǔn)確的學(xué)習(xí)句子的生成。本文在兩個(gè)代表性的數(shù)據(jù)集上(MSVD和MSRVTT)驗(yàn)證提出的框架。實(shí)驗(yàn)結(jié)果顯示提出的網(wǎng)絡(luò)模型在BLEU和METEOR兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)上,比以往的方法得到更好的性能評(píng)估。
[Abstract]:Video intelligence analysis has been a hot topic in the field of computer vision. It involves different research issues, including video semantic segmentation, video tracking, video retrieval, behavior recognition and video description generation. In order to further build a bridge between video content and high level semantics, this paper focuses on two specific videos. Conduct in-depth study: behavior recognition and video description generation in video. Specifically, we regard behavior recognition as a low level semantic classification problem. Video description is considered as a high-level semantic generation problem. The task requires simultaneous understanding of visual content and natural language. Two problems: 1) how to build an algorithm for computing video corresponding to.2) how to build an effective framework to build a bridge between video content and natural language. For the behavior recognition in video, the traditional method turns this problem into a multi classification problem, and presents different methods of video feature extraction. The traditional method is based on low level information, such as the motion estimation from visual texture information or video. Because the extracted information is single, it can not represent the video content well, and the optimized classifier is not optimal. As a technique in depth learning, the convolution neural network will learn the feature and the feature. Classifier learning is integrated into a whole and is successfully applied to behavior recognition in video. However, the current convolution neural network framework which is proposed and applied to behavior recognition still has three limitations: 1) the space size of the video in the input network must be fixed in size; 2) the time length of the video in the input network; 3) network extraction. In order to solve the above problems, this paper proposes an end to end recognition model based on 3D convolution network. This model implements the behavior recognition under arbitrary and long time video conditions. First, a video is divided into a series of continuous video clips. Then, the continuous video clips are input into the 3D neural network composed of the convolution computing layer and the spatio-temporal Pyramid pool layer to get the continuous video clip features. Then the video features of the global video are calculated by the long and short memory model as the behavior pattern. We are in the UCF101, The experimental results show that the proposed method has been improved in recognition performance compared with the current popular 2D or 3D based neural network models. In the aspect of video description generation, the framework based on encoding and decoding has been widely used. Recently, time series has been applied to HMDB51 and 3D based neural network models. The attention mechanism has been proposed and proved to be able to improve the performance of the description generation model based on the coding decode. However, the time series attention mechanism only solves the selection of video content. The context of the statement is determined by a priori semantics. However, the current method is not tested at the same time in the aspect of video description generation. In order to solve this problem, this paper proposes a new end to end neural network model, which can integrate the high-level visual semantic concepts into the time series attention mechanism and promote more accurate video description. In the frame, the coded neural network model is used to extract video. The visual features are predicted and the semantic concepts are predicted by this feature. At the same time, the neural network is decoded to generate coherent natural language sentences based on visual features and semantic information. In particular, the decoded neural network combines the visual features and semantic expression features. And the semantic information and attention mechanism are embedded into the GRU neural network unit. To more accurately learn the generation of sentences. This paper validates the proposed framework on two representative data sets (MSVD and MSRVTT). The experimental results show that the proposed network model is better performance evaluation than previous methods on the two evaluation criteria of BLEU and METEOR.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.41;TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉相濱,向堅(jiān)持,王勝春;人行為識(shí)別與理解研究探討[J];計(jì)算機(jī)與現(xiàn)代化;2004年12期
2 李寧;須德;傅曉英;袁玲;;結(jié)合人體運(yùn)動(dòng)特征的行為識(shí)別[J];北京交通大學(xué)學(xué)報(bào);2009年02期
3 張偉東;陳峰;徐文立;杜友田;;基于階層多觀測(cè)模型的多人行為識(shí)別[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年07期
4 吳聯(lián)世;夏利民;羅大庸;;人的交互行為識(shí)別與理解研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
5 申曉霞;張樺;高贊;薛彥兵;徐光平;;一種魯棒的基于深度數(shù)據(jù)的行為識(shí)別算法[J];光電子.激光;2013年08期
6 鄭胤;陳權(quán)崎;章毓晉;;深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J];中國(guó)圖象圖形學(xué)報(bào);2014年02期
7 曾青松;余明輝;賀衛(wèi)國(guó);李玲;;一種行為識(shí)別的新方法[J];昆明理工大學(xué)學(xué)報(bào)(理工版);2009年06期
8 谷軍霞;丁曉青;王生進(jìn);;基于人體行為3D模型的2D行為識(shí)別[J];自動(dòng)化學(xué)報(bào);2010年01期
9 李英杰;尹怡欣;鄧飛;;一種有效的行為識(shí)別視頻特征[J];計(jì)算機(jī)應(yīng)用;2011年02期
10 王新旭;;基于視覺(jué)的人體行為識(shí)別研究[J];中國(guó)新通信;2012年21期
相關(guān)會(huì)議論文 前7條
1 苗強(qiáng);周興社;於志文;倪紅波;;一種非覺(jué)察式的睡眠行為識(shí)別技術(shù)研究[A];第18屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2009)、第5屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2009)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2009)論文集[C];2009年
2 齊娟;陳益強(qiáng);劉軍發(fā);;基于多模信息感知與融合的行為識(shí)別[A];第18屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2009)、第5屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2009)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2009)論文集[C];2009年
3 方帥;曹洋;王浩;;視頻監(jiān)控中的行為識(shí)別[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年
4 黃紫藤;吳玲達(dá);;監(jiān)控視頻中簡(jiǎn)單人物行為識(shí)別研究[A];第18屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2009)、第5屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2009)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2009)論文集[C];2009年
5 安國(guó)成;羅志強(qiáng);李洪研;;改進(jìn)運(yùn)動(dòng)歷史圖的異常行為識(shí)別算法[A];第八屆中國(guó)智能交通年會(huì)優(yōu)秀論文集——智能交通與安全[C];2013年
6 王忠民;曹棟;;坐標(biāo)轉(zhuǎn)換在移動(dòng)用戶行為識(shí)別中的應(yīng)用研究[A];2013年全國(guó)通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年
7 劉威;李石堅(jiān);潘綱;;uRecorder:基于位置的社會(huì)行為自動(dòng)日志[A];第18屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2009)、第5屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2009)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2009)論文集[C];2009年
相關(guān)重要報(bào)紙文章 前4條
1 李晨光;導(dǎo)入CIS要注意什么?[N];河北經(jīng)濟(jì)日?qǐng)?bào);2001年
2 農(nóng)發(fā)行鹿邑支行黨支部書(shū)記 行長(zhǎng) 劉永貞;發(fā)行形象與文化落地農(nóng)[N];周口日?qǐng)?bào);2007年
3 東林;行為識(shí)別新技術(shù)讓監(jiān)控沒(méi)有“死角”[N];人民公安報(bào);2007年
4 田凱 徐蕊 李政育 信木祥;博物館安全的國(guó)際經(jīng)驗(yàn)[N];中國(guó)文物報(bào);2014年
相關(guān)博士學(xué)位論文 前10條
1 邵延華;基于計(jì)算機(jī)視覺(jué)的人體行為識(shí)別研究[D];重慶大學(xué);2015年
2 仝鈺;基于條件隨機(jī)場(chǎng)的智能家居行為識(shí)別研究[D];大連海事大學(xué);2015年
3 馮銀付;多模態(tài)人體行為識(shí)別技術(shù)研究[D];浙江大學(xué);2015年
4 姜新波;基于三維骨架序列的人體行為識(shí)別研究[D];山東大學(xué);2015年
5 裴利沈;視頻中人體行為識(shí)別若干問(wèn)題研究[D];電子科技大學(xué);2016年
6 周同馳;行為識(shí)別中基于局部時(shí)空關(guān)系的特征模型研究[D];東南大學(xué);2016年
7 徐海燕;復(fù)雜環(huán)境下行為識(shí)別特征提取方法研究[D];東南大學(xué);2016年
8 吳云鵬;集體行為的識(shí)別與仿真研究[D];鄭州大學(xué);2017年
9 劉艷秋;舍飼環(huán)境下母羊產(chǎn)前典型行為識(shí)別方法研究[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2017年
10 何衛(wèi)華;人體行為識(shí)別關(guān)鍵技術(shù)研究[D];重慶大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 王軒瀚;基于深度學(xué)習(xí)的人類行為識(shí)別和視頻描述生成[D];電子科技大學(xué);2017年
2 胡珂杰;基于3D骨骼的人體行為識(shí)別關(guān)鍵技術(shù)研究[D];江南大學(xué);2018年
3 唐小琴;基于全局和局部運(yùn)動(dòng)模式的人體行為識(shí)別研究[D];西南大學(xué);2015年
4 胡秋揚(yáng);可穿戴式個(gè)人室內(nèi)位置和行為監(jiān)測(cè)系統(tǒng)[D];浙江大學(xué);2015年
5 陳鈺昕;基于時(shí)空特性的人體行為識(shí)別研究[D];燕山大學(xué);2015年
6 任亮;智能車(chē)環(huán)境下車(chē)輛典型行為識(shí)別方法研究[D];長(zhǎng)安大學(xué);2015年
7 金澤豪;并行化的人體行為識(shí)別方法研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
8 王呈;穿戴式多傳感器人體日常活動(dòng)監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2015年
9 王露;基于稀疏時(shí)空特征的人體行為識(shí)別研究[D];蘇州大學(xué);2015年
10 于靜;基于物品信息和人體深度信息的行為識(shí)別研究[D];山東大學(xué);2015年
,本文編號(hào):2019450
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2019450.html