中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學(xué)習(xí)的視覺—語言跨模態(tài)匹配

發(fā)布時間:2020-03-31 21:14
【摘要】:隨著人機交互的發(fā)展,信息往往同時存在于語言,聲音,圖像等多個模態(tài)當中,如何有效地利用計算機對跨模態(tài)信息進行管理和理解已經(jīng)成為人工智能領(lǐng)域一個熱門的研究課題。本文專注于視覺和語言兩個模態(tài)信息的匹配,即給定文本描述,挖掘與其匹配的圖像區(qū)域或圖像。我們首先按照開閉詞集將論文劃分為兩大模塊:第三,四章為閉詞集任務(wù);第五章為開詞集任務(wù)。在現(xiàn)有工作的基礎(chǔ)上,第三章提出了層次化獎勵函數(shù)來處理相關(guān)數(shù)據(jù)集中的標注不完整,樣本不均衡等問題;針對第三章隨機采樣和預(yù)訓(xùn)練模型的不足,第四章進一步提出了針對本任務(wù)的難負樣本挖掘策略,并首次在監(jiān)督學(xué)習(xí)的該任務(wù)中引進了知識庫模塊。在基于層次化獎勵函數(shù)的方法中,我們首先分析了交叉熵損失被直接應(yīng)用到視覺-語言匹配任務(wù)中時會產(chǎn)生的問題;為緩解這些問題,我們提出了一個層次化獎勵函數(shù),它動態(tài)地為目標,上下文和背景物體生成不同的學(xué)習(xí)率。為了盡可能的使訓(xùn)練與推理目標一致,我們利用層次化獎勵函數(shù)來近似地最大化R@K指標作為目標函數(shù),并使用策略梯度來求解該不可導(dǎo)函數(shù)。此外,我們改進了三元組損失來進一步提升性能,并利用混淆矩陣實現(xiàn)了由簡到難的學(xué)習(xí)過程。在困難上下文物體挖掘的計算方法中,我們通過經(jīng)典的視覺-語言匹配網(wǎng)絡(luò)為每個圖像區(qū)域評分,并將得分較高的負樣本作為難負樣本,與正樣本一起送入第三階段網(wǎng)絡(luò)訓(xùn)練。該網(wǎng)絡(luò)與評分網(wǎng)絡(luò)結(jié)構(gòu)相同,但輸入為困難視覺樣本與包括上下文短語在內(nèi)的所有短語。此外,為了使得模型先驗知識包含的物體類別不再局限于視覺特征提取模塊的預(yù)訓(xùn)練模型中的類別,我們首次在監(jiān)督學(xué)習(xí)的視覺-語言匹配任務(wù)中引入了知識庫模塊,并以文本相似度為橋梁,為每一個圖像區(qū)域加權(quán)來過濾掉不類別匹配模塊。在基于互聯(lián)網(wǎng)的弱監(jiān)督的開詞集(可以在輸入的文字中使用任意單詞)計算方法中,為了將模型未學(xué)習(xí)過的單詞轉(zhuǎn)化為可計算的向量,我們利用互聯(lián)網(wǎng)來挖掘這些單詞的視覺特征表達,并利用挖掘高質(zhì)量圖像區(qū)域來提高框架性能。我們在針對句子-圖像的視覺-語言匹配任務(wù)中驗證了本文算法的有效性。為了進一步證明本文算法的實用價值,我們收集網(wǎng)絡(luò)中真實的游記數(shù)據(jù)并提出了數(shù)據(jù)集TVN25,并在該數(shù)據(jù)集上進行了“游記配圖”任務(wù)。本章算法無需人工標注(弱監(jiān)督),具有高拓展性,有利于視覺-語言匹配任務(wù)的大規(guī)模商業(yè)化應(yīng)用。
【圖文】:

流程圖,視覺語言,語義,片段


我們額外提取句子中表示地點的詞,并將其加在每一個提取的語義片段中。在提取到語義片段后(具體示例如圖5-2中左上角部分和圖5-3所示),我們將挖掘得到的文本語義片段放入例如Google Image等搜索引擎中搜索圖片,對于每一斷文本語義片段,我們下載其前20個搜索結(jié)果并存儲,形成文本語義片段對應(yīng)- 61 -

語義,文本,片段,示例


[84]來獲得語義片段,獲得語義片段的方式如圖5-3所示,利用Stanford Lexical Parser可以提取出文本中的各種詞性,當每個單詞和詞組都被貼上詞性標簽后,我們按照如下規(guī)則組合語義片段: 對于名詞,直接作為語義片段; 動詞和動作發(fā)生者一起作為語義片段; 形容詞和和被修飾者一起作為語義片段; 對于TV25數(shù)據(jù)集,我們額外提取句子中表示地點的詞,并將其加在每一個提取的語義片段中。在提取到語義片段后(具體示例如圖5-2中左上角部分和圖5-3所示),我們將挖掘得到的文本語義片段放入例如Google Image等搜索引擎中搜索圖片,對于每一斷文本語義片段,,我們下載其前20個搜索結(jié)果并存儲
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.41;TP18;TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 張穎;;圖像區(qū)域邊界抽出及漫游的實現(xiàn)[J];科學(xué)家;2017年01期

2 劉威;遇冰;周婷;袁淮;;基于多特征融合的圖像區(qū)域幾何標記[J];東北大學(xué)學(xué)報(自然科學(xué)版);2017年07期

3 楊根福;;圖像區(qū)域選擇方法與技巧[J];印刷雜志;2009年12期

4 劉亮;向碧群;桂曉菁;;海水漏油圖像區(qū)域面積計算方法研究[J];計算機仿真;2012年08期

5 徐和德;;尼康相機新功能——“圖像區(qū)域” 你用還是不用?[J];照相機;2014年12期

6 歐佳佳;蔡碧野;熊兵;李峰;;基于灰度共生矩的圖像區(qū)域復(fù)制篡改檢測[J];計算機應(yīng)用;2011年06期

7 史進玲;;一種度量圖像區(qū)域相似性的粒計算方法[J];科技信息;2012年26期

8 佟強;;圖像區(qū)域粗糙分割情況下的區(qū)域物體分類[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2010年07期

9 徐姍姍;劉應(yīng)安;徐f;;針對圖像區(qū)域連續(xù)化問題的立體匹配算法[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2011年04期

10 胡衛(wèi)平,邱靜,陸菊康;一種數(shù)字圖像區(qū)域處理技術(shù)的設(shè)計與應(yīng)用[J];微計算機應(yīng)用;2000年06期

相關(guān)會議論文 前4條

1 何建強;雷俊;;基于層次格子坐標系的圖像識別方法[A];廣西計算機學(xué)會2006年年會論文集[C];2006年

2 佟強;;圖像區(qū)域粗糙分割情況下的區(qū)域物體分類[A];第四屆全國幾何設(shè)計與計算學(xué)術(shù)會議論文集[C];2009年

3 劉兵;司秉玉;;基于圖像區(qū)域搜索法的彩色球目標識別與跟蹤[A];中國儀器儀表學(xué)會第五屆青年學(xué)術(shù)會議論文集[C];2003年

4 田原;譚鐵牛;孫洪贊;胡衛(wèi)明;;一種能處理部分遮擋的魯棒性實時跟蹤方法[A];中國圖象圖形學(xué)會第十屆全國圖像圖形學(xué)術(shù)會議(CIG’2001)和第一屆全國虛擬現(xiàn)實技術(shù)研討會(CVR’2001)論文集[C];2001年

相關(guān)博士學(xué)位論文 前6條

1 伊馬木(MAHMOUD EMAM ABD ELMOHSEN EMAM);圖像區(qū)域拷貝檢測關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年

2 郭喬進;基于上下文的圖像區(qū)域標注關(guān)鍵技術(shù)研究[D];南京大學(xué);2013年

3 梁君;圖像區(qū)域顯著性方法研究[D];西北工業(yè)大學(xué);2016年

4 趙潔;數(shù)字圖像區(qū)域復(fù)制篡改的被動取證方法研究[D];天津大學(xué);2015年

5 劉碩研;面向感知的圖像場景及情感分類算法研究[D];北京交通大學(xué);2011年

6 錢誠;增量型目標跟蹤關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 張軍磊;基于深度學(xué)習(xí)的視覺—語言跨模態(tài)匹配[D];哈爾濱工業(yè)大學(xué);2019年

2 蘇靖;基于深度學(xué)習(xí)框架的移動設(shè)備顯示省電研究[D];河南大學(xué);2018年

3 徐小程;基于弱監(jiān)督的圖像區(qū)域自動標注算法研究[D];山東大學(xué);2016年

4 沈家駿;基于行為圖像區(qū)域的行為識別算法研究[D];燕山大學(xué);2016年

5 聶云英;數(shù)字圖像區(qū)域復(fù)制篡改被動盲取證新方法研究[D];湖南大學(xué);2011年

6 向立文;圖像區(qū)域字符分割系統(tǒng)的設(shè)計與實現(xiàn)[D];昆明理工大學(xué);2014年

7 周衛(wèi)財;基于電容層析成像技術(shù)的圖像重建的數(shù)學(xué)模型的研究[D];天津大學(xué);2007年

8 崔玉巖;數(shù)字圖像區(qū)域復(fù)制篡改檢測技術(shù)研究[D];重慶郵電大學(xué);2016年

9 梁爽爽;抗自然干擾的圖像區(qū)域復(fù)制篡改盲檢測算法研究[D];沈陽工業(yè)大學(xué);2015年

10 丁軼;基于LDA的圖像區(qū)域標注模型的研究[D];南京大學(xué);2012年



本文編號:2609587

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2609587.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶95ceb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com