查詢接口集成問題的多目標優(yōu)化模型及求解算法
發(fā)布時間:2020-11-20 18:13
DeepWeb是指隱藏在Web數(shù)據(jù)庫中而不能被傳統(tǒng)搜索引擎索引到的那部分內(nèi)容的集合。對于特定領(lǐng)域的Deep Web,不同的站點會提供不同查詢能力的查詢接口。集成查詢接口可以達到訪問同一領(lǐng)域所有資源的目的。集成查詢接口主要有模式匹配和模式集成兩部分,其中模式匹配問題已經(jīng)得到了廣泛研究。本文對查詢接口集成問題中的模式集成問題進行了分析研究。 由于現(xiàn)實中的查詢接口結(jié)構(gòu)各異,使得在集成查詢接口時無法得到滿足所有需求的結(jié)構(gòu);跐M足多數(shù)需求的原則,本文在集成查詢接口時采用頻繁使用的查詢接口結(jié)構(gòu)。為了得到結(jié)構(gòu)良好且語義全面的查詢接口,本文針對查詢接口集成問題中的模式集成問題提出了兩類新的多目標優(yōu)化模型,并對每個模型給出了求解算法。 在第一個模型中,用有序樹表示查詢接口,可以充分體現(xiàn)查詢接口所蘊含的結(jié)構(gòu)信息,并且根據(jù)查詢接口的有序樹給出了一類新的結(jié)構(gòu)約束和順序約束。集成的查詢接口應(yīng)該集成那些在查詢接口頻繁使用的結(jié)構(gòu),因此,查詢接口集成問題可以轉(zhuǎn)化成在所有查詢接口中挖掘頻繁結(jié)構(gòu)的問題,即在所有有序樹中挖掘頻繁子樹。最后,以極大化葉節(jié)點個數(shù)和頻繁子樹的頻繁度為目標,建立了一個多目標優(yōu)化模型,并且給出了求解該模型的頻繁子樹挖掘算法。用多個領(lǐng)域的查詢接口數(shù)據(jù)進行實驗,并對實驗結(jié)果進行了分析和評價,實驗結(jié)果表明了算法的可行性和有效性。但是當(dāng)集成結(jié)構(gòu)差異很大的查詢接口時,利用此模型不能夠得到理想的集成查詢接口。 針對第一個模型的不足,本文提出了改進的模型及算法。首先,根據(jù)查詢接口的結(jié)構(gòu),將查詢接口的有序樹轉(zhuǎn)化成結(jié)構(gòu)矩陣;根據(jù)該結(jié)構(gòu)矩陣給出了度量兩棵有序樹的結(jié)構(gòu)相似程度的計算方法;根據(jù)所有查詢接口中的頻繁結(jié)構(gòu)構(gòu)造了一個用于參考的理想有序樹。然后,根據(jù)所有查詢接口的順序約束將所有的屬性排序,基于此排序給出了衡量查詢接口屬性排序好壞的標準。最后,通過優(yōu)化集成的有序樹與理想有序樹的相似度和集成有序樹中的葉節(jié)點的排序,對查詢接口集成問題建立了一種新的多目標優(yōu)化模型。針對該模型,設(shè)計了一種合并樹算法進行求解。最后,數(shù)據(jù)實驗證明了改進模型的合理性和有效性,并驗證了算法的穩(wěn)定性。
【學(xué)位單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2012
【中圖分類】:TP393.09;TP301.6
【部分圖文】:
包括文本輸入框、選擇列表、復(fù)選按鈕等。一個 HTML 控口中的一個屬性,一個查詢接口通常包含多個屬性。查詢接口的屬息,例如屬性的標簽,屬性的 ID 等。其中屬性的標簽是屬性對應(yīng)上的標簽,屬性 ID 是屬性在 HTML 源碼中的 ID。當(dāng)前對查詢接口究,一般把查詢接口建成一個平面模型,即將其表示為所有屬性按左到右的順序構(gòu)成的集合來處理。如圖 3.1 中查詢接口對應(yīng)的平面模,to,departure month, departure day, departure time,return month,return dadult,child,senior}。但是,查詢接口中一些屬性經(jīng)常放在一起組成一個念稱為組屬性,如圖 3.1 中{from, to}就經(jīng)常放在一起,表示用戶從里的信息(where to go?);{adult, child, senior}一起組成有關(guān)乘客人數(shù)many travelers are there?)等,這類似與文章的章節(jié),越往上包含的內(nèi)容就到下層逐級細化。此外,查詢接口中屬性的排列也是有序的,如離)排在到達地點(to)之前,離開日期(departure date)排在到達日期(retur為了充分刻畫查詢接口含有的這些結(jié)構(gòu)信息,本文用有序樹表示查詢
空領(lǐng)域為例說明實驗過程,基于頻繁子樹的挖掘算法首先要給出值,采用上面 20 個查詢接口做實驗時,去除出現(xiàn)次數(shù)為 1 的屬性小值為 6,所以最小閾值 設(shè)置為 0.3。從實驗結(jié)果中選擇出含有頻繁度最高的子樹作為最后的集成查詢接口。實驗得到的初始集 5.1(a):R 是根,M,N,E 是第二層的節(jié)點,它們與 R 的縮進相同縮進代表其孩子節(jié)點,依此類推。圖 5.1(b)為將數(shù)字轉(zhuǎn)化為屬性中根節(jié)點和中間節(jié)點均用“*********”表示。圖 5.1(b)的樹并沒性。因此,算法的最后還需要進一步添加不包含的屬性,添加屬的添加和屬性的添加。例如航空領(lǐng)域沒有包含的屬性及屬性組,它們的出現(xiàn)次數(shù)分別為 8,2,9,屬性組 D 和屬性 13 出現(xiàn)的次數(shù)被構(gòu)造出來就說明了它們在源接口中順序差異很大,所以沒有被時首先添加 D,發(fā)現(xiàn) D 經(jīng)常排在 E 的前面,所以繼續(xù)比較 D 與為 D 經(jīng)常排在 N 的后面,所以將 D 插入 N 后面,依此類推將 13便可以得出最后的集成查詢接口。
不同領(lǐng)域集成查詢接口的結(jié)構(gòu)相似度值
【參考文獻】
本文編號:2891800
【學(xué)位單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2012
【中圖分類】:TP393.09;TP301.6
【部分圖文】:
包括文本輸入框、選擇列表、復(fù)選按鈕等。一個 HTML 控口中的一個屬性,一個查詢接口通常包含多個屬性。查詢接口的屬息,例如屬性的標簽,屬性的 ID 等。其中屬性的標簽是屬性對應(yīng)上的標簽,屬性 ID 是屬性在 HTML 源碼中的 ID。當(dāng)前對查詢接口究,一般把查詢接口建成一個平面模型,即將其表示為所有屬性按左到右的順序構(gòu)成的集合來處理。如圖 3.1 中查詢接口對應(yīng)的平面模,to,departure month, departure day, departure time,return month,return dadult,child,senior}。但是,查詢接口中一些屬性經(jīng)常放在一起組成一個念稱為組屬性,如圖 3.1 中{from, to}就經(jīng)常放在一起,表示用戶從里的信息(where to go?);{adult, child, senior}一起組成有關(guān)乘客人數(shù)many travelers are there?)等,這類似與文章的章節(jié),越往上包含的內(nèi)容就到下層逐級細化。此外,查詢接口中屬性的排列也是有序的,如離)排在到達地點(to)之前,離開日期(departure date)排在到達日期(retur為了充分刻畫查詢接口含有的這些結(jié)構(gòu)信息,本文用有序樹表示查詢
空領(lǐng)域為例說明實驗過程,基于頻繁子樹的挖掘算法首先要給出值,采用上面 20 個查詢接口做實驗時,去除出現(xiàn)次數(shù)為 1 的屬性小值為 6,所以最小閾值 設(shè)置為 0.3。從實驗結(jié)果中選擇出含有頻繁度最高的子樹作為最后的集成查詢接口。實驗得到的初始集 5.1(a):R 是根,M,N,E 是第二層的節(jié)點,它們與 R 的縮進相同縮進代表其孩子節(jié)點,依此類推。圖 5.1(b)為將數(shù)字轉(zhuǎn)化為屬性中根節(jié)點和中間節(jié)點均用“*********”表示。圖 5.1(b)的樹并沒性。因此,算法的最后還需要進一步添加不包含的屬性,添加屬的添加和屬性的添加。例如航空領(lǐng)域沒有包含的屬性及屬性組,它們的出現(xiàn)次數(shù)分別為 8,2,9,屬性組 D 和屬性 13 出現(xiàn)的次數(shù)被構(gòu)造出來就說明了它們在源接口中順序差異很大,所以沒有被時首先添加 D,發(fā)現(xiàn) D 經(jīng)常排在 E 的前面,所以繼續(xù)比較 D 與為 D 經(jīng)常排在 N 的后面,所以將 D 插入 N 后面,依此類推將 13便可以得出最后的集成查詢接口。
不同領(lǐng)域集成查詢接口的結(jié)構(gòu)相似度值
【參考文獻】
相關(guān)期刊論文 前1條
1 劉偉;孟小峰;孟衛(wèi)一;;Deep Web數(shù)據(jù)集成研究綜述[J];計算機學(xué)報;2007年09期
本文編號:2891800
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2891800.html
最近更新
教材專著