中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

金融信息技術(shù)分析中垂直搜索引擎的應(yīng)用研究

發(fā)布時(shí)間:2014-09-16 15:39
【摘要】 本文以金融領(lǐng)域?yàn)槔?在搜索引擎日益發(fā)達(dá)的今天,如果更有效果的利用搜索引擎在網(wǎng)絡(luò)中的應(yīng)用,更準(zhǔn)確及時(shí)地反映信息采用者所需要的金融信息,如果解決垂直搜索引擎在分析中的應(yīng)用,并進(jìn)行了詳細(xì)的關(guān)鍵性技術(shù)分析。
 
【關(guān)鍵詞】 垂直搜索; 金融信息; 爬蟲(chóng)技術(shù); 語(yǔ)義網(wǎng)絡(luò);

    隨著互聯(lián)網(wǎng)的高速發(fā)展,造就了信息的空前繁榮。面對(duì)浩如煙海的信息時(shí),企業(yè)和投資者如何有效、準(zhǔn)確地獲取他們所需的信息變得越來(lái)越迫切,因?yàn)殡S時(shí)隨處都蘊(yùn)藏著稍縱即逝的商機(jī)。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時(shí),也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢(shì),比如付費(fèi)廣告等無(wú)效信息越來(lái)越多,產(chǎn)生“搜索噪音”,金融領(lǐng)域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說(shuō)的垂直搜索引擎,便是利用在專業(yè)領(lǐng)域的索引方式,下面以金融領(lǐng)域?yàn)槔f(shuō)明構(gòu)建金融垂直搜索引擎所采用的關(guān)鍵技術(shù)以及所用到的資源。
  1 垂直搜索引擎概述
  垂直搜索引擎是指在某一個(gè)專業(yè)領(lǐng)域(例如金融、能源等),通過(guò)收集到的網(wǎng)頁(yè)信息量,再進(jìn)行一次整合,最終為專業(yè)人士提供的有一定價(jià)值的信息。它可以幫助人們?cè)诟鼮榭s小的范圍獲取更具有針對(duì)性的信息。如圖一所示。
  2 金融垂直搜索的關(guān)鍵技術(shù)
  2.1 金融爬蟲(chóng)技術(shù)。金融爬蟲(chóng)因?yàn)楹湍骋活I(lǐng)域密切相關(guān),所以需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止,另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于專業(yè)網(wǎng)絡(luò)爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo),如圖2所示為普通爬蟲(chóng)和專業(yè)爬蟲(chóng)的比較。
  2.2 結(jié)構(gòu)化信息抽取技術(shù)。結(jié)構(gòu)化信息抽取技術(shù)是指將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)后再存入數(shù)據(jù)庫(kù)。結(jié)構(gòu)化信息抽取技術(shù)是垂直搜索引擎和通用搜索引擎最大的差別,也是評(píng)判垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。
  2.3 自然語(yǔ)言智能語(yǔ)義處理技術(shù)。自然語(yǔ)言智能語(yǔ)義處理技術(shù)指的是使計(jì)算機(jī)具有理解人類語(yǔ)言和自我學(xué)習(xí)語(yǔ)言的能力,并根據(jù)相應(yīng)的語(yǔ)言要求完成具體的操作。我們使用自然語(yǔ)言智能語(yǔ)義技術(shù)來(lái)提高相關(guān)度的判定準(zhǔn)確率,相關(guān)度模塊的準(zhǔn)確程度直接決定金融爬蟲(chóng)的收割效果。在這一技術(shù)中,結(jié)合中文分詞和語(yǔ)義理本文由筆耕文化傳播www.bigengculture.com收集整理解可以很好地保證系統(tǒng)搜集金融信息的準(zhǔn)確率,并且可以提高金融爬蟲(chóng)的效率。通過(guò)金融垂直領(lǐng)域詞典來(lái)解析相應(yīng)的用戶自然語(yǔ)言輸入和金融數(shù)據(jù)內(nèi)容,根據(jù)解析的語(yǔ)義建立主題垂直索引,涉及實(shí)體識(shí)別、語(yǔ)義網(wǎng)絡(luò)、語(yǔ)義索引模塊、垂直查詢等模塊。(1)實(shí)體識(shí)別。我們以識(shí)別算法為基礎(chǔ),開(kāi)發(fā)出金融命名的自動(dòng)識(shí)別算法和工具。金融行業(yè)命名實(shí)體包括所有的金融專業(yè)術(shù)語(yǔ)、上市公司名稱、金融機(jī)構(gòu)名稱、著名業(yè)內(nèi)人士等等。(2)語(yǔ)義網(wǎng)絡(luò)。如果不了解文本中的語(yǔ)義就無(wú)法判斷它會(huì)帶來(lái)的影響,例如如果不了解“市盈率”這個(gè)詞所代表的意義就不能對(duì)描述市盈率變化的新聞進(jìn)行處理,因此這里需要一個(gè)針對(duì)金融文本的小型語(yǔ)義網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)是一個(gè)與股市相關(guān)的概念,例如“利率”、“匯率”、“股價(jià)”等。該語(yǔ)義網(wǎng)絡(luò)的建立需要融入專家知識(shí),并具有可擴(kuò)展性,可以根據(jù)需要增加。(3)語(yǔ)義索引模塊。在基于關(guān)鍵詞的索引體系上,建立基于語(yǔ)義的索引體系,以便進(jìn)行語(yǔ)義相關(guān)的計(jì)算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據(jù)請(qǐng)求者的日常搜索關(guān)鍵詞從中找到規(guī)律性,利用識(shí)別方法建立自己專業(yè)詞匯的數(shù)據(jù)庫(kù)。
  3 金融垂直搜索中所用到的資源
  對(duì)于金融垂直搜索系統(tǒng),融合了網(wǎng)絡(luò)金融、漢語(yǔ)分詞、語(yǔ)義處理和領(lǐng)域知識(shí)學(xué)習(xí)等多項(xiàng)專業(yè)技術(shù),因此系統(tǒng)在構(gòu)建中需要相應(yīng)的資源作保證,目前實(shí)現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
  3.1 詞匯:(1)上市公司的名稱、簡(jiǎn)稱和別稱;(2)投資機(jī)構(gòu)的名稱、簡(jiǎn)稱;(3)股市相關(guān)名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數(shù)”等;對(duì)于這一類詞匯的獲取,可以從大量Web股市文本中通過(guò)自動(dòng)詞匯獲取與手工相結(jié)合的方式,并手工標(biāo)注其感情色彩。
  3.2 表達(dá)模式庫(kù)。我們感興趣的信息是某個(gè)主體(評(píng)論家、記者、證券研究機(jī)構(gòu)等)對(duì)某個(gè)客體(股票、行業(yè)板塊、大盤、宏觀經(jīng)濟(jì)形勢(shì)、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉(cāng)、清倉(cāng)、半倉(cāng)、拋售等)。因此需要構(gòu)建一個(gè)針對(duì)股市新聞的文本表達(dá)模式(模版)庫(kù),幫助我們對(duì)金融垂直領(lǐng)新聞的信息進(jìn)行結(jié)構(gòu)化提取,以便支持后續(xù)的研究。
  表達(dá)模式可以大致分為以下幾類:(1)態(tài)度,例如“A對(duì)B~”(機(jī)構(gòu)對(duì)后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強(qiáng)力~”(機(jī)構(gòu)強(qiáng)力出擊)、“A指出,B~”(分析人士指出)、“給A帶來(lái)~”(給市場(chǎng)帶來(lái)較大的壓力);(3)邏輯,包括一些轉(zhuǎn)折、遞進(jìn)、因果、雙重否定等的邏輯表達(dá)方式。
  對(duì)于那些簡(jiǎn)單的表達(dá),不需要統(tǒng)計(jì)其表達(dá)模式,可以繼續(xù)使用詞頻方式;對(duì)于稍微復(fù)雜的表達(dá)方式,需要開(kāi)發(fā)自動(dòng)化的工具從股市文本的語(yǔ)料中獲取,并加以標(biāo)注。
  4 結(jié)束語(yǔ)
  金融垂直搜索引擎的應(yīng)用能夠很好的滿足金融主體的需求。對(duì)于多樣化數(shù)據(jù)的專業(yè)化細(xì)分成為垂直搜索的最大技術(shù)特點(diǎn),減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實(shí)時(shí)的數(shù)據(jù),最大限度地整合了現(xiàn)在的網(wǎng)頁(yè)數(shù)據(jù),為用戶提供了完整的金融信息檢索體驗(yàn)。

    參考文獻(xiàn):



本文編號(hào):9005

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/jisuanjikexuelunwen/9005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b4970***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com