金融信息技術分析中垂直搜索引擎的應用研究
發(fā)布時間:2014-09-16 15:39
【摘要】 本文以金融領域為例,在搜索引擎日益發(fā)達的今天,如果更有效果的利用搜索引擎在網絡中的應用,更準確及時地反映信息采用者所需要的金融信息,如果解決垂直搜索引擎在分析中的應用,并進行了詳細的關鍵性技術分析。
【關鍵詞】 垂直搜索; 金融信息; 爬蟲技術; 語義網絡;
隨著互聯(lián)網的高速發(fā)展,造就了信息的空前繁榮。面對浩如煙海的信息時,企業(yè)和投資者如何有效、準確地獲取他們所需的信息變得越來越迫切,因為隨時隨處都蘊藏著稍縱即逝的商機。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時,也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢,比如付費廣告等無效信息越來越多,產生“搜索噪音”,金融領域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說的垂直搜索引擎,便是利用在專業(yè)領域的索引方式,下面以金融領域為例說明構建金融垂直搜索引擎所采用的關鍵技術以及所用到的資源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一個專業(yè)領域(例如金融、能源等),通過收集到的網頁信息量,再進行一次整合,最終為專業(yè)人士提供的有一定價值的信息。它可以幫助人們在更為縮小的范圍獲取更具有針對性的信息。如圖一所示。
2 金融垂直搜索的關鍵技術
2.1 金融爬蟲技術。金融爬蟲因為和某一領域密切相關,所以需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于專業(yè)網絡爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導,如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。
2.2 結構化信息抽取技術。結構化信息抽取技術是指將網頁中的非結構化數據按照一定的需求抽取成結構化數據后再存入數據庫。結構化信息抽取技術是垂直搜索引擎和通用搜索引擎最大的差別,也是評判垂直搜索引擎質量的重要技術指標。
2.3 自然語言智能語義處理技術。自然語言智能語義處理技術指的是使計算機具有理解人類語言和自我學習語言的能力,并根據相應的語言要求完成具體的操作。我們使用自然語言智能語義技術來提高相關度的判定準確率,相關度模塊的準確程度直接決定金融爬蟲的收割效果。在這一技術中,結合中文分詞和語義理本文由筆耕文化傳播www.bigengculture.com收集整理解可以很好地保證系統(tǒng)搜集金融信息的準確率,并且可以提高金融爬蟲的效率。通過金融垂直領域詞典來解析相應的用戶自然語言輸入和金融數據內容,根據解析的語義建立主題垂直索引,涉及實體識別、語義網絡、語義索引模塊、垂直查詢等模塊。(1)實體識別。我們以識別算法為基礎,開發(fā)出金融命名的自動識別算法和工具。金融行業(yè)命名實體包括所有的金融專業(yè)術語、上市公司名稱、金融機構名稱、著名業(yè)內人士等等。(2)語義網絡。如果不了解文本中的語義就無法判斷它會帶來的影響,例如如果不了解“市盈率”這個詞所代表的意義就不能對描述市盈率變化的新聞進行處理,因此這里需要一個針對金融文本的小型語義網絡,每個節(jié)點是一個與股市相關的概念,例如“利率”、“匯率”、“股價”等。該語義網絡的建立需要融入專家知識,并具有可擴展性,可以根據需要增加。(3)語義索引模塊。在基于關鍵詞的索引體系上,建立基于語義的索引體系,以便進行語義相關的計算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據請求者的日常搜索關鍵詞從中找到規(guī)律性,利用識別方法建立自己專業(yè)詞匯的數據庫。
3 金融垂直搜索中所用到的資源
對于金融垂直搜索系統(tǒng),融合了網絡金融、漢語分詞、語義處理和領域知識學習等多項專業(yè)技術,因此系統(tǒng)在構建中需要相應的資源作保證,目前實現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
3.1 詞匯:(1)上市公司的名稱、簡稱和別稱;(2)投資機構的名稱、簡稱;(3)股市相關名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數”等;對于這一類詞匯的獲取,可以從大量Web股市文本中通過自動詞匯獲取與手工相結合的方式,并手工標注其感情色彩。
3.2 表達模式庫。我們感興趣的信息是某個主體(評論家、記者、證券研究機構等)對某個客體(股票、行業(yè)板塊、大盤、宏觀經濟形勢、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉、清倉、半倉、拋售等)。因此需要構建一個針對股市新聞的文本表達模式(模版)庫,幫助我們對金融垂直領新聞的信息進行結構化提取,以便支持后續(xù)的研究。
表達模式可以大致分為以下幾類:(1)態(tài)度,例如“A對B~”(機構對后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強力~”(機構強力出擊)、“A指出,B~”(分析人士指出)、“給A帶來~”(給市場帶來較大的壓力);(3)邏輯,包括一些轉折、遞進、因果、雙重否定等的邏輯表達方式。
對于那些簡單的表達,不需要統(tǒng)計其表達模式,可以繼續(xù)使用詞頻方式;對于稍微復雜的表達方式,需要開發(fā)自動化的工具從股市文本的語料中獲取,并加以標注。
4 結束語
金融垂直搜索引擎的應用能夠很好的滿足金融主體的需求。對于多樣化數據的專業(yè)化細分成為垂直搜索的最大技術特點,減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實時的數據,最大限度地整合了現(xiàn)在的網頁數據,為用戶提供了完整的金融信息檢索體驗。
參考文獻:
本文編號:9005
【關鍵詞】 垂直搜索; 金融信息; 爬蟲技術; 語義網絡;
隨著互聯(lián)網的高速發(fā)展,造就了信息的空前繁榮。面對浩如煙海的信息時,企業(yè)和投資者如何有效、準確地獲取他們所需的信息變得越來越迫切,因為隨時隨處都蘊藏著稍縱即逝的商機。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時,也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢,比如付費廣告等無效信息越來越多,產生“搜索噪音”,金融領域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說的垂直搜索引擎,便是利用在專業(yè)領域的索引方式,下面以金融領域為例說明構建金融垂直搜索引擎所采用的關鍵技術以及所用到的資源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一個專業(yè)領域(例如金融、能源等),通過收集到的網頁信息量,再進行一次整合,最終為專業(yè)人士提供的有一定價值的信息。它可以幫助人們在更為縮小的范圍獲取更具有針對性的信息。如圖一所示。
2 金融垂直搜索的關鍵技術
2.1 金融爬蟲技術。金融爬蟲因為和某一領域密切相關,所以需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于專業(yè)網絡爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導,如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。
2.2 結構化信息抽取技術。結構化信息抽取技術是指將網頁中的非結構化數據按照一定的需求抽取成結構化數據后再存入數據庫。結構化信息抽取技術是垂直搜索引擎和通用搜索引擎最大的差別,也是評判垂直搜索引擎質量的重要技術指標。
2.3 自然語言智能語義處理技術。自然語言智能語義處理技術指的是使計算機具有理解人類語言和自我學習語言的能力,并根據相應的語言要求完成具體的操作。我們使用自然語言智能語義技術來提高相關度的判定準確率,相關度模塊的準確程度直接決定金融爬蟲的收割效果。在這一技術中,結合中文分詞和語義理本文由筆耕文化傳播www.bigengculture.com收集整理解可以很好地保證系統(tǒng)搜集金融信息的準確率,并且可以提高金融爬蟲的效率。通過金融垂直領域詞典來解析相應的用戶自然語言輸入和金融數據內容,根據解析的語義建立主題垂直索引,涉及實體識別、語義網絡、語義索引模塊、垂直查詢等模塊。(1)實體識別。我們以識別算法為基礎,開發(fā)出金融命名的自動識別算法和工具。金融行業(yè)命名實體包括所有的金融專業(yè)術語、上市公司名稱、金融機構名稱、著名業(yè)內人士等等。(2)語義網絡。如果不了解文本中的語義就無法判斷它會帶來的影響,例如如果不了解“市盈率”這個詞所代表的意義就不能對描述市盈率變化的新聞進行處理,因此這里需要一個針對金融文本的小型語義網絡,每個節(jié)點是一個與股市相關的概念,例如“利率”、“匯率”、“股價”等。該語義網絡的建立需要融入專家知識,并具有可擴展性,可以根據需要增加。(3)語義索引模塊。在基于關鍵詞的索引體系上,建立基于語義的索引體系,以便進行語義相關的計算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據請求者的日常搜索關鍵詞從中找到規(guī)律性,利用識別方法建立自己專業(yè)詞匯的數據庫。
3 金融垂直搜索中所用到的資源
對于金融垂直搜索系統(tǒng),融合了網絡金融、漢語分詞、語義處理和領域知識學習等多項專業(yè)技術,因此系統(tǒng)在構建中需要相應的資源作保證,目前實現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
3.1 詞匯:(1)上市公司的名稱、簡稱和別稱;(2)投資機構的名稱、簡稱;(3)股市相關名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數”等;對于這一類詞匯的獲取,可以從大量Web股市文本中通過自動詞匯獲取與手工相結合的方式,并手工標注其感情色彩。
3.2 表達模式庫。我們感興趣的信息是某個主體(評論家、記者、證券研究機構等)對某個客體(股票、行業(yè)板塊、大盤、宏觀經濟形勢、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉、清倉、半倉、拋售等)。因此需要構建一個針對股市新聞的文本表達模式(模版)庫,幫助我們對金融垂直領新聞的信息進行結構化提取,以便支持后續(xù)的研究。
表達模式可以大致分為以下幾類:(1)態(tài)度,例如“A對B~”(機構對后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強力~”(機構強力出擊)、“A指出,B~”(分析人士指出)、“給A帶來~”(給市場帶來較大的壓力);(3)邏輯,包括一些轉折、遞進、因果、雙重否定等的邏輯表達方式。
對于那些簡單的表達,不需要統(tǒng)計其表達模式,可以繼續(xù)使用詞頻方式;對于稍微復雜的表達方式,需要開發(fā)自動化的工具從股市文本的語料中獲取,并加以標注。
4 結束語
金融垂直搜索引擎的應用能夠很好的滿足金融主體的需求。對于多樣化數據的專業(yè)化細分成為垂直搜索的最大技術特點,減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實時的數據,最大限度地整合了現(xiàn)在的網頁數據,為用戶提供了完整的金融信息檢索體驗。
參考文獻:
- [1] 孔祥春,李義杰,鄭凱明. 垂直搜索引擎應用研究[J]. 計算機系統(tǒng)應用. 2009(07)
- [2] 杜建亮. 金融信息垂直搜索引擎的技術探討[J]. 科學之友(B版). 2009(06)
- [3] 吳柏林,宋澤鋒,楊炳儒. 一種基于本體的垂直搜索引擎系統(tǒng)模型[J]. 計算機工程與科學. 2008(10)
- [4] 陳洪猛. 基于垂直搜索技術的搜索引擎解決方案[J]. 電腦應用技術. 2008(01)
本文編號:9005
本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/9005.html
最近更新
教材專著