基于模板與視覺特征的Web數(shù)據(jù)抽取技術(shù)研究
發(fā)布時間:2020-12-04 09:44
隨著Web數(shù)據(jù)庫的不斷增長,通過查詢接口訪問獲得以HTML頁面形式動態(tài)呈現(xiàn)的Web資源逐漸成為信息獲取的主要手段,有效獲取并集成分布在Web上的各數(shù)據(jù)庫資源具有重要的現(xiàn)實意義與廣闊的應用前景。本文以Web數(shù)據(jù)庫資源獲取與集成為出發(fā)點,針對Web數(shù)據(jù)的異構(gòu)、動態(tài)、多源特性導致現(xiàn)有Web數(shù)據(jù)抽取方法抽取準確率低、抽取效率不高、無法集成多源數(shù)據(jù)等問題,提出了基于視覺的Web數(shù)據(jù)抽取、Web數(shù)據(jù)模板構(gòu)造和多源Web數(shù)據(jù)融合等改進方法,論文的主要工作如下:(1)根據(jù)Web數(shù)據(jù)記錄視覺特征,研究查詢結(jié)果頁面數(shù)據(jù)記錄的結(jié)構(gòu)相似性和文本組織形式多樣性,針對現(xiàn)有Web數(shù)據(jù)抽取方法無法準確抽取Web數(shù)據(jù)記錄,提出了基于視覺與DOM樹的Web數(shù)據(jù)定位與抽。╒ision and DOM-tree based Web data Location and Extraction,VDLE)方法。該方法引入視覺塊重心偏移量定位數(shù)據(jù)區(qū)域,利用譜聚類算法定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點簇,并結(jié)合文本組織多樣性對數(shù)據(jù)記錄進行定位。實驗結(jié)果表明,VDLE的抽取結(jié)果查準率為99%,比基于DOM樹的Deep Web實體抽取機制(D...
【文章來源】:重慶交通大學重慶市
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
論文組織結(jié)構(gòu)
定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點簇,并結(jié)合文本。抽取相關(guān)概念與樹路徑相似度層次結(jié)構(gòu)展示 HTML 文檔,提供訪問、操作構(gòu)口,允許程序、腳本動態(tài)訪問并更新 HTML 文中,節(jié)點類型分為根節(jié)點、中間節(jié)點、葉子節(jié)點 樹頂端;中間節(jié)點擁有父節(jié)點與子節(jié)點,是連子節(jié)點沒有子節(jié)點,其內(nèi)容直接展示在頁面上。系,同一父節(jié)點的節(jié)點之間構(gòu)成兄弟關(guān)系。DO到葉子結(jié)點所經(jīng)過的節(jié)點標簽組成的序列。D
J( a,b)C為節(jié)點a與節(jié)點b的杰卡德相似系數(shù),集合 A B為節(jié)點 a 與節(jié)點 b 的最近公共父節(jié)點對應的樹路徑上的節(jié)點集合,集合 A B為節(jié)點a與節(jié)點b樹路徑上的總節(jié)點集合,| A B|為集合 A B中節(jié)點的數(shù)目,| A |與 | B |分別表示集合 A 與集合 B 中節(jié)點的數(shù)目。2.1.2 頁面分割算法作為微軟下一代搜索引擎核心分頁算法,VIPS 利用頁面布局結(jié)構(gòu)對網(wǎng)頁進行分塊。VIPS 定義 Web 頁面的結(jié)構(gòu)如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示頁面中的所有視覺塊集合,視覺塊之間沒有任何重疊,每個視覺塊可以迭代表示; (...)1 2T , ,, ,表示頁面中所有分割條的集合,由 中兩個視覺塊確定; (...)1 2M , , ,代表集合 中兩個視覺塊之間的關(guān)系,表示為 {NULL}。如 NULLij ( , ) 表示相鄰視覺塊i 與j 之間存在分割條 ()ij , 。VIPS 工作流程如下:
【參考文獻】:
期刊論文
[1]基于知網(wǎng)與搜索引擎的詞匯語義相似度計算[J]. 吳克介,王家偉. 計算機與現(xiàn)代化. 2018(04)
[2]針對開源論壇網(wǎng)頁的信息抽取研究[J]. 劉春梅,郭巖,俞曉明,趙嶺,劉悅,程學旗. 計算機科學與探索. 2017(01)
[3]基于2008版《知網(wǎng)》的詞語相似度計算方法[J]. 魏韡,向陽. 計算機工程. 2015(09)
[4]Deep Web數(shù)據(jù)采集查詢構(gòu)造方法研究[J]. 林海倫,楊曉剛,熊錦華,王元卓,賈巖濤,程學旗. 計算機科學與探索. 2015(09)
[5]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計算機科學. 2015(02)
[6]基于《知網(wǎng)》的詞語語義相似度改進算法研究[J]. 張滬寅,劉道波,溫春艷. 計算機工程. 2015(02)
[7]基于視覺特征的就業(yè)信息頁面抽取方法[J]. 張昕,鄂海紅,宋美娜,楊俊. 軟件. 2014(09)
[8]一種基于HowNet的詞語語義相似度計算方法[J]. 范弘屹,張仰森. 北京信息科技大學學報(自然科學版). 2014(04)
[9]使用網(wǎng)絡(luò)搜索引擎計算漢語詞匯的語義相似度[J]. 高國強,黃呂威,陳豐鈺. 計算機技術(shù)與發(fā)展. 2014(07)
[10]基于本體的語義相似度算法研究[J]. 賀元香,史寶明,張永. 計算機應用與軟件. 2013(11)
碩士論文
[1]Web數(shù)據(jù)集成中包裝器自適應方法研究[D]. 羅偉.山東大學 2011
本文編號:2897379
【文章來源】:重慶交通大學重慶市
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
論文組織結(jié)構(gòu)
定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點簇,并結(jié)合文本。抽取相關(guān)概念與樹路徑相似度層次結(jié)構(gòu)展示 HTML 文檔,提供訪問、操作構(gòu)口,允許程序、腳本動態(tài)訪問并更新 HTML 文中,節(jié)點類型分為根節(jié)點、中間節(jié)點、葉子節(jié)點 樹頂端;中間節(jié)點擁有父節(jié)點與子節(jié)點,是連子節(jié)點沒有子節(jié)點,其內(nèi)容直接展示在頁面上。系,同一父節(jié)點的節(jié)點之間構(gòu)成兄弟關(guān)系。DO到葉子結(jié)點所經(jīng)過的節(jié)點標簽組成的序列。D
J( a,b)C為節(jié)點a與節(jié)點b的杰卡德相似系數(shù),集合 A B為節(jié)點 a 與節(jié)點 b 的最近公共父節(jié)點對應的樹路徑上的節(jié)點集合,集合 A B為節(jié)點a與節(jié)點b樹路徑上的總節(jié)點集合,| A B|為集合 A B中節(jié)點的數(shù)目,| A |與 | B |分別表示集合 A 與集合 B 中節(jié)點的數(shù)目。2.1.2 頁面分割算法作為微軟下一代搜索引擎核心分頁算法,VIPS 利用頁面布局結(jié)構(gòu)對網(wǎng)頁進行分塊。VIPS 定義 Web 頁面的結(jié)構(gòu)如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示頁面中的所有視覺塊集合,視覺塊之間沒有任何重疊,每個視覺塊可以迭代表示; (...)1 2T , ,, ,表示頁面中所有分割條的集合,由 中兩個視覺塊確定; (...)1 2M , , ,代表集合 中兩個視覺塊之間的關(guān)系,表示為 {NULL}。如 NULLij ( , ) 表示相鄰視覺塊i 與j 之間存在分割條 ()ij , 。VIPS 工作流程如下:
【參考文獻】:
期刊論文
[1]基于知網(wǎng)與搜索引擎的詞匯語義相似度計算[J]. 吳克介,王家偉. 計算機與現(xiàn)代化. 2018(04)
[2]針對開源論壇網(wǎng)頁的信息抽取研究[J]. 劉春梅,郭巖,俞曉明,趙嶺,劉悅,程學旗. 計算機科學與探索. 2017(01)
[3]基于2008版《知網(wǎng)》的詞語相似度計算方法[J]. 魏韡,向陽. 計算機工程. 2015(09)
[4]Deep Web數(shù)據(jù)采集查詢構(gòu)造方法研究[J]. 林海倫,楊曉剛,熊錦華,王元卓,賈巖濤,程學旗. 計算機科學與探索. 2015(09)
[5]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計算機科學. 2015(02)
[6]基于《知網(wǎng)》的詞語語義相似度改進算法研究[J]. 張滬寅,劉道波,溫春艷. 計算機工程. 2015(02)
[7]基于視覺特征的就業(yè)信息頁面抽取方法[J]. 張昕,鄂海紅,宋美娜,楊俊. 軟件. 2014(09)
[8]一種基于HowNet的詞語語義相似度計算方法[J]. 范弘屹,張仰森. 北京信息科技大學學報(自然科學版). 2014(04)
[9]使用網(wǎng)絡(luò)搜索引擎計算漢語詞匯的語義相似度[J]. 高國強,黃呂威,陳豐鈺. 計算機技術(shù)與發(fā)展. 2014(07)
[10]基于本體的語義相似度算法研究[J]. 賀元香,史寶明,張永. 計算機應用與軟件. 2013(11)
碩士論文
[1]Web數(shù)據(jù)集成中包裝器自適應方法研究[D]. 羅偉.山東大學 2011
本文編號:2897379
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2897379.html
最近更新
教材專著