當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的視覺(jué)—語(yǔ)言跨模態(tài)匹配

發(fā)布時(shí)間：2020-03-31 21:14

【摘要】：隨著人機(jī)交互的發(fā)展,信息往往同時(shí)存在于語(yǔ)言,聲音,圖像等多個(gè)模態(tài)當(dāng)中,如何有效地利用計(jì)算機(jī)對(duì)跨模態(tài)信息進(jìn)行管理和理解已經(jīng)成為人工智能領(lǐng)域一個(gè)熱門的研究課題。本文專注于視覺(jué)和語(yǔ)言兩個(gè)模態(tài)信息的匹配,即給定文本描述,挖掘與其匹配的圖像區(qū)域或圖像。我們首先按照開閉詞集將論文劃分為兩大模塊:第三,四章為閉詞集任務(wù);第五章為開詞集任務(wù)。在現(xiàn)有工作的基礎(chǔ)上,第三章提出了層次化獎(jiǎng)勵(lì)函數(shù)來(lái)處理相關(guān)數(shù)據(jù)集中的標(biāo)注不完整,樣本不均衡等問(wèn)題;針對(duì)第三章隨機(jī)采樣和預(yù)訓(xùn)練模型的不足,第四章進(jìn)一步提出了針對(duì)本任務(wù)的難負(fù)樣本挖掘策略,并首次在監(jiān)督學(xué)習(xí)的該任務(wù)中引進(jìn)了知識(shí)庫(kù)模塊。在基于層次化獎(jiǎng)勵(lì)函數(shù)的方法中,我們首先分析了交叉熵?fù)p失被直接應(yīng)用到視覺(jué)-語(yǔ)言匹配任務(wù)中時(shí)會(huì)產(chǎn)生的問(wèn)題;為緩解這些問(wèn)題,我們提出了一個(gè)層次化獎(jiǎng)勵(lì)函數(shù),它動(dòng)態(tài)地為目標(biāo),上下文和背景物體生成不同的學(xué)習(xí)率。為了盡可能的使訓(xùn)練與推理目標(biāo)一致,我們利用層次化獎(jiǎng)勵(lì)函數(shù)來(lái)近似地最大化R@K指標(biāo)作為目標(biāo)函數(shù),并使用策略梯度來(lái)求解該不可導(dǎo)函數(shù)。此外,我們改進(jìn)了三元組損失來(lái)進(jìn)一步提升性能,并利用混淆矩陣實(shí)現(xiàn)了由簡(jiǎn)到難的學(xué)習(xí)過(guò)程。在困難上下文物體挖掘的計(jì)算方法中,我們通過(guò)經(jīng)典的視覺(jué)-語(yǔ)言匹配網(wǎng)絡(luò)為每個(gè)圖像區(qū)域評(píng)分,并將得分較高的負(fù)樣本作為難負(fù)樣本,與正樣本一起送入第三階段網(wǎng)絡(luò)訓(xùn)練。該網(wǎng)絡(luò)與評(píng)分網(wǎng)絡(luò)結(jié)構(gòu)相同,但輸入為困難視覺(jué)樣本與包括上下文短語(yǔ)在內(nèi)的所有短語(yǔ)。此外,為了使得模型先驗(yàn)知識(shí)包含的物體類別不再局限于視覺(jué)特征提取模塊的預(yù)訓(xùn)練模型中的類別,我們首次在監(jiān)督學(xué)習(xí)的視覺(jué)-語(yǔ)言匹配任務(wù)中引入了知識(shí)庫(kù)模塊,并以文本相似度為橋梁,為每一個(gè)圖像區(qū)域加權(quán)來(lái)過(guò)濾掉不類別匹配模塊。在基于互聯(lián)網(wǎng)的弱監(jiān)督的開詞集(可以在輸入的文字中使用任意單詞)計(jì)算方法中,為了將模型未學(xué)習(xí)過(guò)的單詞轉(zhuǎn)化為可計(jì)算的向量,我們利用互聯(lián)網(wǎng)來(lái)挖掘這些單詞的視覺(jué)特征表達(dá),并利用挖掘高質(zhì)量圖像區(qū)域來(lái)提高框架性能。我們?cè)卺槍?duì)句子-圖像的視覺(jué)-語(yǔ)言匹配任務(wù)中驗(yàn)證了本文算法的有效性。為了進(jìn)一步證明本文算法的實(shí)用價(jià)值,我們收集網(wǎng)絡(luò)中真實(shí)的游記數(shù)據(jù)并提出了數(shù)據(jù)集TVN25,并在該數(shù)據(jù)集上進(jìn)行了“游記配圖”任務(wù)。本章算法無(wú)需人工標(biāo)注(弱監(jiān)督),具有高拓展性,有利于視覺(jué)-語(yǔ)言匹配任務(wù)的大規(guī)模商業(yè)化應(yīng)用。
【圖文】：

流程圖,視覺(jué)語(yǔ)言,語(yǔ)義,片段

我們額外提取句子中表示地點(diǎn)的詞，并將其加在每一個(gè)提取的語(yǔ)義片段中。在提取到語(yǔ)義片段后（具體示例如圖5-2中左上角部分和圖5-3所示），我們將挖掘得到的文本語(yǔ)義片段放入例如Google Image等搜索引擎中搜索圖片，對(duì)于每一斷文本語(yǔ)義片段，我們下載其前20個(gè)搜索結(jié)果并存儲(chǔ)，形成文本語(yǔ)義片段對(duì)應(yīng)- 61 -

語(yǔ)義,文本,片段,示例

[84]來(lái)獲得語(yǔ)義片段，獲得語(yǔ)義片段的方式如圖5-3所示，利用Stanford Lexical Parser可以提取出文本中的各種詞性，當(dāng)每個(gè)單詞和詞組都被貼上詞性標(biāo)簽后，我們按照如下規(guī)則組合語(yǔ)義片段: 對(duì)于名詞，直接作為語(yǔ)義片段；動(dòng)詞和動(dòng)作發(fā)生者一起作為語(yǔ)義片段; 形容詞和和被修飾者一起作為語(yǔ)義片段; 對(duì)于TV25數(shù)據(jù)集，我們額外提取句子中表示地點(diǎn)的詞，并將其加在每一個(gè)提取的語(yǔ)義片段中。在提取到語(yǔ)義片段后（具體示例如圖5-2中左上角部分和圖5-3所示），我們將挖掘得到的文本語(yǔ)義片段放入例如Google Image等搜索引擎中搜索圖片，對(duì)于每一斷文本語(yǔ)義片段，，我們下載其前20個(gè)搜索結(jié)果并存儲(chǔ)
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2019
【分類號(hào)】：TP391.41;TP18;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 張穎;;圖像區(qū)域邊界抽出及漫游的實(shí)現(xiàn)[J];科學(xué)家;2017年01期

2 劉威;遇冰;周婷;袁淮;;基于多特征融合的圖像區(qū)域幾何標(biāo)記[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年07期

3 楊根福;;圖像區(qū)域選擇方法與技巧[J];印刷雜志;2009年12期

4 劉亮;向碧群;桂曉菁;;海水漏油圖像區(qū)域面積計(jì)算方法研究[J];計(jì)算機(jī)仿真;2012年08期

5 徐和德;;尼康相機(jī)新功能——“圖像區(qū)域” 你用還是不用?[J];照相機(jī);2014年12期

6 歐佳佳;蔡碧野;熊兵;李峰;;基于灰度共生矩的圖像區(qū)域復(fù)制篡改檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2011年06期

7 史進(jìn)玲;;一種度量圖像區(qū)域相似性的粒計(jì)算方法[J];科技信息;2012年26期

8 佟強(qiáng);;圖像區(qū)域粗糙分割情況下的區(qū)域物體分類[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2010年07期

9 徐姍姍;劉應(yīng)安;徐f;;針對(duì)圖像區(qū)域連續(xù)化問(wèn)題的立體匹配算法[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2011年04期

10 胡衛(wèi)平,邱靜,陸菊康;一種數(shù)字圖像區(qū)域處理技術(shù)的設(shè)計(jì)與應(yīng)用[J];微計(jì)算機(jī)應(yīng)用;2000年06期

相關(guān)會(huì)議論文前4條

1 何建強(qiáng);雷俊;;基于層次格子坐標(biāo)系的圖像識(shí)別方法[A];廣西計(jì)算機(jī)學(xué)會(huì)2006年年會(huì)論文集[C];2006年

2 佟強(qiáng);;圖像區(qū)域粗糙分割情況下的區(qū)域物體分類[A];第四屆全國(guó)幾何設(shè)計(jì)與計(jì)算學(xué)術(shù)會(huì)議論文集[C];2009年

3 劉兵;司秉玉;;基于圖像區(qū)域搜索法的彩色球目標(biāo)識(shí)別與跟蹤[A];中國(guó)儀器儀表學(xué)會(huì)第五屆青年學(xué)術(shù)會(huì)議論文集[C];2003年

4 田原;譚鐵牛;孫洪贊;胡衛(wèi)明;;一種能處理部分遮擋的魯棒性實(shí)時(shí)跟蹤方法[A];中國(guó)圖象圖形學(xué)會(huì)第十屆全國(guó)圖像圖形學(xué)術(shù)會(huì)議（CIG’2001）和第一屆全國(guó)虛擬現(xiàn)實(shí)技術(shù)研討會(huì)（CVR’2001）論文集[C];2001年

相關(guān)博士學(xué)位論文前6條

1 伊馬木（MAHMOUD EMAM ABD ELMOHSEN EMAM）;圖像區(qū)域拷貝檢測(cè)關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年

2 郭喬進(jìn);基于上下文的圖像區(qū)域標(biāo)注關(guān)鍵技術(shù)研究[D];南京大學(xué);2013年

3 梁君;圖像區(qū)域顯著性方法研究[D];西北工業(yè)大學(xué);2016年

4 趙潔;數(shù)字圖像區(qū)域復(fù)制篡改的被動(dòng)取證方法研究[D];天津大學(xué);2015年

5 劉碩研;面向感知的圖像場(chǎng)景及情感分類算法研究[D];北京交通大學(xué);2011年

6 錢誠(chéng);增量型目標(biāo)跟蹤關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

相關(guān)碩士學(xué)位論文前10條

1 張軍磊;基于深度學(xué)習(xí)的視覺(jué)—語(yǔ)言跨模態(tài)匹配[D];哈爾濱工業(yè)大學(xué);2019年

2 蘇靖;基于深度學(xué)習(xí)框架的移動(dòng)設(shè)備顯示省電研究[D];河南大學(xué);2018年

3 徐小程;基于弱監(jiān)督的圖像區(qū)域自動(dòng)標(biāo)注算法研究[D];山東大學(xué);2016年

4 沈家駿;基于行為圖像區(qū)域的行為識(shí)別算法研究[D];燕山大學(xué);2016年

5 聶云英;數(shù)字圖像區(qū)域復(fù)制篡改被動(dòng)盲取證新方法研究[D];湖南大學(xué);2011年

6 向立文;圖像區(qū)域字符分割系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];昆明理工大學(xué);2014年

7 周衛(wèi)財(cái);基于電容層析成像技術(shù)的圖像重建的數(shù)學(xué)模型的研究[D];天津大學(xué);2007年

8 崔玉巖;數(shù)字圖像區(qū)域復(fù)制篡改檢測(cè)技術(shù)研究[D];重慶郵電大學(xué);2016年

9 梁爽爽;抗自然干擾的圖像區(qū)域復(fù)制篡改盲檢測(cè)算法研究[D];沈陽(yáng)工業(yè)大學(xué);2015年

10 丁軼;基于LDA的圖像區(qū)域標(biāo)注模型的研究[D];南京大學(xué);2012年

本文編號(hào)：2609587

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2609587.html

上一篇：多技能人員約束下產(chǎn)品開發(fā)項(xiàng)目調(diào)度問(wèn)題優(yōu)化方法研究
下一篇：基于DSP光電吊艙控制系統(tǒng)設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于深度學(xué)習(xí)的視覺(jué)—語(yǔ)言跨模態(tài)匹配