基于深度學(xué)習(xí)的圖文匹配方法研究
發(fā)布時(shí)間:2020-05-24 18:36
【摘要】:隨著信息技術(shù)的快速發(fā)展,圖像和文本數(shù)據(jù)大幅度增長(zhǎng),但是這些數(shù)據(jù)對(duì)于計(jì)算機(jī)而言是難以理解和使用。為了能更好的對(duì)這些數(shù)據(jù)進(jìn)行理解、查找和管理,本文利用深度學(xué)習(xí)的相關(guān)方法判斷圖像和文本在語(yǔ)義上是否具有相似性,本文的主要研究工作及成果如下:1.設(shè)計(jì)了一種可以識(shí)別圖像中主體目標(biāo)的評(píng)價(jià)模型。通過(guò)分析圖像的目標(biāo)檢測(cè)和識(shí)別方法,發(fā)現(xiàn)這些方法無(wú)法準(zhǔn)確識(shí)別圖像中的主體目標(biāo)。針對(duì)這一問(wèn)題,本文設(shè)計(jì)了一套可以識(shí)別復(fù)雜背景圖像中主體目標(biāo)的評(píng)價(jià)模型CNN-Main。利用選擇性搜索算法分割圖像,提取圖像中不同目標(biāo)的候選區(qū)域并利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像的多目標(biāo)類別。提取圖像目標(biāo)后,利用顯著性區(qū)域視覺(jué)模型建立主體目標(biāo)評(píng)價(jià)體系計(jì)算每個(gè)目標(biāo)的主體評(píng)分,取最高評(píng)分的目標(biāo)作為主體目標(biāo)。并通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)CNN-Main相比其他方法具有更優(yōu)秀的表達(dá)效果。2.提出了一種融合圖像主體目標(biāo)和場(chǎng)景知識(shí)的圖像語(yǔ)義提取模型。通過(guò)研究目前圖像語(yǔ)義提取的方法,發(fā)現(xiàn)提取的圖像語(yǔ)義質(zhì)量普遍不高,且規(guī)避了主體目標(biāo)。為了能產(chǎn)生高質(zhì)量的圖像語(yǔ)義,本文融合圖像主體目標(biāo)和場(chǎng)景的先驗(yàn)信息生成圖像的語(yǔ)義,提出了一種MS-Net模型。讓雙向循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在產(chǎn)生圖像的語(yǔ)義序列時(shí),先驗(yàn)信息更加豐富。并通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)MS-Net提取的圖像語(yǔ)義,相比其他方法在BLUE、METEOR和CIDEr評(píng)價(jià)指標(biāo)上更具優(yōu)勢(shì)。3.設(shè)計(jì)了一種圖像和文本相似度的計(jì)算方法。目前,圖像和文本相似度計(jì)算的方法是先提取圖像和文本的主要語(yǔ)義,然后計(jì)算它們之間的語(yǔ)義相似度,但是由于不同的限制條件使相似度計(jì)算方法存在很大誤差。針對(duì)這一問(wèn)題,本文設(shè)計(jì)了一種方法分別從兩個(gè)不同的角度計(jì)算圖像和文本相似度。首先使用WordNet本體分類樹(shù),對(duì)圖像和文本的主要語(yǔ)義進(jìn)行擴(kuò)展,通過(guò)放大語(yǔ)義信息提高圖文相似度的準(zhǔn)確率。然后分析循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)依據(jù)上下文信息推測(cè)句子語(yǔ)義,從而達(dá)到提高準(zhǔn)確率的目的。為驗(yàn)證本文提出的方法,構(gòu)建了相應(yīng)的數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明,該方法在準(zhǔn)確率,召回率和F值上的表現(xiàn)優(yōu)于其他方法。綜上,本文主要以深度學(xué)習(xí)為技術(shù)手段,以圖像和文本為研究對(duì)象,分析圖文匹配的關(guān)鍵問(wèn)題,并給出相應(yīng)的解決方案,通過(guò)實(shí)驗(yàn)驗(yàn)證其具有良好的效果。
【圖文】:
前對(duì)于圖文匹配的問(wèn)題,國(guó)內(nèi)外分別對(duì)圖像搜索和圖像語(yǔ)義提取究。對(duì)于圖像搜索的研究目前已經(jīng)應(yīng)用于商業(yè)化模式,格局較為語(yǔ)義提取的研究還處于理論階段,目前市場(chǎng)上還無(wú)法大量的應(yīng)用圖像搜索研究究人員一直在致力于尋找一種能夠從海量數(shù)據(jù)中迅速定位到用戶索技術(shù)。早期搜索圖像主要依靠圖像的標(biāo)注信息,將文本和圖像的匹配,這種技術(shù)稱為文本的圖像搜索技術(shù)(TBIR)。TBIR 主要利用行標(biāo)注,當(dāng)用戶查詢的時(shí)候輸入相應(yīng)的描述關(guān)鍵字,然后系統(tǒng)對(duì)輸圖像的標(biāo)注進(jìn)行精確或模糊匹配。如果對(duì)這種大規(guī)模的圖像信息,將會(huì)產(chǎn)生巨大的人力物力消耗,而且人工標(biāo)注存在很大的缺陷像的理解存在較大的不同,并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。面對(duì)這樣的問(wèn)題學(xué)習(xí)方法應(yīng)時(shí)而生,已經(jīng)實(shí)現(xiàn)圖像的自動(dòng)化標(biāo)注,并且取得較好的在的百度、谷歌等公司的圖像搜索系統(tǒng)都利用 TBIR 實(shí)現(xiàn)的。如百度通過(guò) TBIR 進(jìn)行圖像搜索的結(jié)果。
第 2 章 基于深度學(xué)習(xí)的圖像主體目標(biāo)識(shí)別模型研究人類可以很容易的了解圖像里面的主要目標(biāo)和圖像所表達(dá)的含義。但是對(duì)于機(jī)器而言這是一項(xiàng)十分困難的任務(wù)。圖文匹配需要機(jī)器理解圖像中的主體目標(biāo)及其所表達(dá)的含義,這樣便于將圖像和類似文本信息進(jìn)行匹配。一般情況下,在復(fù)雜環(huán)境中,圖像存在較多的目標(biāo),如何將這些目標(biāo)中的主體目標(biāo)識(shí)別出來(lái)并理解主體目標(biāo)和輔目標(biāo)之間的關(guān)系是本章研究的重點(diǎn)。如圖 2-1 是從數(shù)據(jù)集flickr30k 中隨機(jī)選取的 3 張圖像。左圖中主體目標(biāo)是一只狗,輔目標(biāo)是雪地,圖像表達(dá)含義是一只狗在雪地上玩耍。另外兩張圖像中標(biāo)記的目標(biāo)為主體目標(biāo),其他為輔助目標(biāo)。本章主要對(duì)基于改進(jìn)的 Fast R-CNN[14]的圖像目標(biāo)檢測(cè)模型建立主體目標(biāo)評(píng)價(jià)體系進(jìn)行介紹,我們將此模型定義為 CNN-Main。
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.41;TP183
【圖文】:
前對(duì)于圖文匹配的問(wèn)題,國(guó)內(nèi)外分別對(duì)圖像搜索和圖像語(yǔ)義提取究。對(duì)于圖像搜索的研究目前已經(jīng)應(yīng)用于商業(yè)化模式,格局較為語(yǔ)義提取的研究還處于理論階段,目前市場(chǎng)上還無(wú)法大量的應(yīng)用圖像搜索研究究人員一直在致力于尋找一種能夠從海量數(shù)據(jù)中迅速定位到用戶索技術(shù)。早期搜索圖像主要依靠圖像的標(biāo)注信息,將文本和圖像的匹配,這種技術(shù)稱為文本的圖像搜索技術(shù)(TBIR)。TBIR 主要利用行標(biāo)注,當(dāng)用戶查詢的時(shí)候輸入相應(yīng)的描述關(guān)鍵字,然后系統(tǒng)對(duì)輸圖像的標(biāo)注進(jìn)行精確或模糊匹配。如果對(duì)這種大規(guī)模的圖像信息,將會(huì)產(chǎn)生巨大的人力物力消耗,而且人工標(biāo)注存在很大的缺陷像的理解存在較大的不同,并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。面對(duì)這樣的問(wèn)題學(xué)習(xí)方法應(yīng)時(shí)而生,已經(jīng)實(shí)現(xiàn)圖像的自動(dòng)化標(biāo)注,并且取得較好的在的百度、谷歌等公司的圖像搜索系統(tǒng)都利用 TBIR 實(shí)現(xiàn)的。如百度通過(guò) TBIR 進(jìn)行圖像搜索的結(jié)果。
第 2 章 基于深度學(xué)習(xí)的圖像主體目標(biāo)識(shí)別模型研究人類可以很容易的了解圖像里面的主要目標(biāo)和圖像所表達(dá)的含義。但是對(duì)于機(jī)器而言這是一項(xiàng)十分困難的任務(wù)。圖文匹配需要機(jī)器理解圖像中的主體目標(biāo)及其所表達(dá)的含義,這樣便于將圖像和類似文本信息進(jìn)行匹配。一般情況下,在復(fù)雜環(huán)境中,圖像存在較多的目標(biāo),如何將這些目標(biāo)中的主體目標(biāo)識(shí)別出來(lái)并理解主體目標(biāo)和輔目標(biāo)之間的關(guān)系是本章研究的重點(diǎn)。如圖 2-1 是從數(shù)據(jù)集flickr30k 中隨機(jī)選取的 3 張圖像。左圖中主體目標(biāo)是一只狗,輔目標(biāo)是雪地,圖像表達(dá)含義是一只狗在雪地上玩耍。另外兩張圖像中標(biāo)記的目標(biāo)為主體目標(biāo),其他為輔助目標(biāo)。本章主要對(duì)基于改進(jìn)的 Fast R-CNN[14]的圖像目標(biāo)檢測(cè)模型建立主體目標(biāo)評(píng)價(jià)體系進(jìn)行介紹,我們將此模型定義為 CNN-Main。
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.41;TP183
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王宇;張煥君;黃海新;;基于深度學(xué)習(xí)的圖像語(yǔ)義分割算法綜述[J];電子技術(shù)應(yīng)用;2019年06期
2 田萱;王亮;丁琪;;基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法綜述[J];軟件學(xué)報(bào);2019年02期
3 熊志勇;張國(guó)豐;王江晴;;基于多尺度特征提取的圖像語(yǔ)義分割[J];中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年03期
4 郭克華;段桂華;;圖像語(yǔ)義提取與描述的研究現(xiàn)狀及趨勢(shì)[J];新型工業(yè)化;2012年09期
5 趙生輝;侯希文;;唐卡圖像語(yǔ)義信息的描述框架研究[J];知識(shí)管理論壇;2015年01期
6 鄧s,
本文編號(hào):2678814
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2678814.html
最近更新
教材專著