查詢接口集成問題的多目標(biāo)優(yōu)化模型及求解算法

發(fā)布時(shí)間：2020-11-20 18:13

　　 DeepWeb是指隱藏在Web數(shù)據(jù)庫中而不能被傳統(tǒng)搜索引擎索引到的那部分內(nèi)容的集合。對于特定領(lǐng)域的Deep Web，不同的站點(diǎn)會提供不同查詢能力的查詢接口。集成查詢接口可以達(dá)到訪問同一領(lǐng)域所有資源的目的。集成查詢接口主要有模式匹配和模式集成兩部分，其中模式匹配問題已經(jīng)得到了廣泛研究。本文對查詢接口集成問題中的模式集成問題進(jìn)行了分析研究。由于現(xiàn)實(shí)中的查詢接口結(jié)構(gòu)各異，使得在集成查詢接口時(shí)無法得到滿足所有需求的結(jié)構(gòu)。基于滿足多數(shù)需求的原則，本文在集成查詢接口時(shí)采用頻繁使用的查詢接口結(jié)構(gòu)。為了得到結(jié)構(gòu)良好且語義全面的查詢接口，本文針對查詢接口集成問題中的模式集成問題提出了兩類新的多目標(biāo)優(yōu)化模型，并對每個(gè)模型給出了求解算法。在第一個(gè)模型中，用有序樹表示查詢接口，可以充分體現(xiàn)查詢接口所蘊(yùn)含的結(jié)構(gòu)信息，并且根據(jù)查詢接口的有序樹給出了一類新的結(jié)構(gòu)約束和順序約束。集成的查詢接口應(yīng)該集成那些在查詢接口頻繁使用的結(jié)構(gòu)，因此，查詢接口集成問題可以轉(zhuǎn)化成在所有查詢接口中挖掘頻繁結(jié)構(gòu)的問題，即在所有有序樹中挖掘頻繁子樹。最后，以極大化葉節(jié)點(diǎn)個(gè)數(shù)和頻繁子樹的頻繁度為目標(biāo)，建立了一個(gè)多目標(biāo)優(yōu)化模型，并且給出了求解該模型的頻繁子樹挖掘算法。用多個(gè)領(lǐng)域的查詢接口數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，并對實(shí)驗(yàn)結(jié)果進(jìn)行了分析和評價(jià)，實(shí)驗(yàn)結(jié)果表明了算法的可行性和有效性。但是當(dāng)集成結(jié)構(gòu)差異很大的查詢接口時(shí)，利用此模型不能夠得到理想的集成查詢接口。針對第一個(gè)模型的不足，本文提出了改進(jìn)的模型及算法。首先，根據(jù)查詢接口的結(jié)構(gòu)，將查詢接口的有序樹轉(zhuǎn)化成結(jié)構(gòu)矩陣；根據(jù)該結(jié)構(gòu)矩陣給出了度量兩棵有序樹的結(jié)構(gòu)相似程度的計(jì)算方法；根據(jù)所有查詢接口中的頻繁結(jié)構(gòu)構(gòu)造了一個(gè)用于參考的理想有序樹。然后，根據(jù)所有查詢接口的順序約束將所有的屬性排序，基于此排序給出了衡量查詢接口屬性排序好壞的標(biāo)準(zhǔn)。最后，通過優(yōu)化集成的有序樹與理想有序樹的相似度和集成有序樹中的葉節(jié)點(diǎn)的排序，對查詢接口集成問題建立了一種新的多目標(biāo)優(yōu)化模型。針對該模型，設(shè)計(jì)了一種合并樹算法進(jìn)行求解。最后，數(shù)據(jù)實(shí)驗(yàn)證明了改進(jìn)模型的合理性和有效性，并驗(yàn)證了算法的穩(wěn)定性。
【學(xué)位單位】：西安電子科技大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2012
【中圖分類】：TP393.09;TP301.6
【部分圖文】：

查詢接口,航空領(lǐng)域,網(wǎng)站,屬性

包括文本輸入框、選擇列表、復(fù)選按鈕等。一個(gè) HTML 控口中的一個(gè)屬性，一個(gè)查詢接口通常包含多個(gè)屬性。查詢接口的屬息，例如屬性的標(biāo)簽，屬性的 ID 等。其中屬性的標(biāo)簽是屬性對應(yīng)上的標(biāo)簽，屬性 ID 是屬性在 HTML 源碼中的 ID。當(dāng)前對查詢接口究，一般把查詢接口建成一個(gè)平面模型，即將其表示為所有屬性按左到右的順序構(gòu)成的集合來處理。如圖 3.1 中查詢接口對應(yīng)的平面模,to,departure month, departure day, departure time,return month,return dadult,child,senior}。但是，查詢接口中一些屬性經(jīng)常放在一起組成一個(gè)念稱為組屬性，如圖 3.1 中{from, to}就經(jīng)常放在一起，表示用戶從里的信息(where to go?)；{adult, child, senior}一起組成有關(guān)乘客人數(shù)many travelers are there?)等，這類似與文章的章節(jié)，越往上包含的內(nèi)容就到下層逐級細(xì)化。此外，查詢接口中屬性的排列也是有序的，如離)排在到達(dá)地點(diǎn)(to)之前，離開日期(departure date)排在到達(dá)日期(retur為了充分刻畫查詢接口含有的這些結(jié)構(gòu)信息，本文用有序樹表示查詢

航空領(lǐng)域,挖掘算法,子樹

空領(lǐng)域?yàn)槔f明實(shí)驗(yàn)過程，基于頻繁子樹的挖掘算法首先要給出值，采用上面 20 個(gè)查詢接口做實(shí)驗(yàn)時(shí)，去除出現(xiàn)次數(shù)為 1 的屬性小值為 6，所以最小閾值設(shè)置為 0.3。從實(shí)驗(yàn)結(jié)果中選擇出含有頻繁度最高的子樹作為最后的集成查詢接口。實(shí)驗(yàn)得到的初始集 5.1(a)：R 是根，M,N,E 是第二層的節(jié)點(diǎn)，它們與 R 的縮進(jìn)相同縮進(jìn)代表其孩子節(jié)點(diǎn)，依此類推。圖 5.1(b)為將數(shù)字轉(zhuǎn)化為屬性中根節(jié)點(diǎn)和中間節(jié)點(diǎn)均用“*********”表示。圖 5.1(b)的樹并沒性。因此，算法的最后還需要進(jìn)一步添加不包含的屬性，添加屬的添加和屬性的添加。例如航空領(lǐng)域沒有包含的屬性及屬性組，它們的出現(xiàn)次數(shù)分別為 8,2,9，屬性組 D 和屬性 13 出現(xiàn)的次數(shù)被構(gòu)造出來就說明了它們在源接口中順序差異很大，所以沒有被時(shí)首先添加 D，發(fā)現(xiàn) D 經(jīng)常排在 E 的前面，所以繼續(xù)比較 D 與為 D 經(jīng)常排在 N 的后面，所以將 D 插入 N 后面，依此類推將 13便可以得出最后的集成查詢接口。

查詢接口

不同領(lǐng)域集成查詢接口的結(jié)構(gòu)相似度值
【參考文獻(xiàn)】

相關(guān)期刊論文前1條

1 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計(jì)算機(jī)學(xué)報(bào);2007年09期

本文編號：2891800

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/sousuoyinqinglunwen/2891800.html

上一篇：基于改進(jìn)教與學(xué)算法的滑模控制研究
下一篇：面向智能家居的語音交互設(shè)計(jì)評估體系研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

查詢接口集成問題的多目標(biāo)優(yōu)化模型及求解算法