中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于條件隨機場的元數(shù)據(jù)自動提取技術(shù)研究

發(fā)布時間:2020-11-21 01:40
   伴隨著數(shù)字圖書館技術(shù)的發(fā)展,電子文檔成為人們獲取信息的主要來源。為了使用戶更方便快捷地發(fā)現(xiàn)所需要的文獻資源,元數(shù)據(jù)信息提取技術(shù)的研究得到越來越多的關(guān)注。元數(shù)據(jù)信息的自動提取解決了早期主要靠人工閱讀文檔找出相應(yīng)的元數(shù)據(jù)這項費時費力的工作,并為電子資源的有序組織、適度控制和高效檢索提供更為便利的條件。隨著機器學(xué)習(xí)理論的逐漸成熟,元數(shù)據(jù)的自動提取成為了當(dāng)今的研究熱點。本文主要對基于條件隨機場的元數(shù)據(jù)自動提取的相關(guān)技術(shù)進行了研究。 首先,針對以單詞為單位組成的論文頭部文本序列來進行元數(shù)據(jù)提取時存在任務(wù)量大,抽取精度低等問題,提出一種文本分塊策略來對其進行分塊,詳細闡述了分塊的過程,使得每一個抽取域和一個具體的文本分塊相對應(yīng)。在分塊的基礎(chǔ)上利用文本中含有特征詞等信息,通過定義特征提取規(guī)則來確定其狀態(tài)。在路徑搜索過程中,采用啟發(fā)式搜索算法來確定剩余塊的狀態(tài)。 其次,為了實現(xiàn)引文元數(shù)據(jù)的精確抽取,根據(jù)引文信息格式的多樣性和提取域的密集性,在條件隨機場模型的基礎(chǔ)上融合重排序來提取引文元數(shù)據(jù),將條件隨機場和重排序形成串行處理流程,通過對條件隨機模型生成的多個候選標注進行等級排序?qū)崿F(xiàn)引文元數(shù)據(jù)的提取。 最后,對上述研究方法進行了實驗驗證及分析,和原有的方法進行了對比,并對今后的研究工作進行了展望。
【學(xué)位單位】:燕山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2009
【中圖分類】:G250.76;TP391.1
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題背景及意義
    1.2 國內(nèi)外的研究狀況綜述
        1.2.1 信息抽取的歷史和現(xiàn)狀
        1.2.2 元數(shù)據(jù)提取技術(shù)的研究現(xiàn)狀
    1.3 本文的主要研究內(nèi)容
    1.4 本文的組織結(jié)構(gòu)
第2章 條件隨機場模型理論概述
    2.1 統(tǒng)計語言模型概述
    2.2 條件隨機場理論
        2.2.1 無向圖模型
        2.2.2 條件隨機場原理
    2.3 條件隨機場和其他模型的比較
        2.3.1 隱馬爾可夫模型
        2.3.2 最大熵馬爾可夫模型
    2.4 條件隨機場的優(yōu)點與不足
    2.5 條件隨機場的參數(shù)估計
        2.5.1 最大似然估計
        2.5.2 參數(shù)估計的優(yōu)化
    2.6 本章小結(jié)
第3章 基于啟發(fā)式搜索的論文頭部元數(shù)據(jù)提取
    3.1 元數(shù)據(jù)概述
        3.1.1 論文元數(shù)據(jù)的作用
        3.1.2 論文頭部數(shù)據(jù)集的定義
    3.2 論文頭部的特征選擇
        3.2.1 局部特征
        3.2.2 版面特征
        3.2.3 外部詞典特征
        3.2.4 狀態(tài)轉(zhuǎn)移特征
    3.3 論文頭部的相關(guān)工作和技術(shù)
        3.3.1 文本分塊
        3.3.2 特征提取規(guī)則
        3.3.3 基于啟發(fā)式的路徑搜索算法
    3.4 數(shù)據(jù)稀疏問題的解決
        3.4.1 數(shù)據(jù)稀疏問題
        3.4.2 統(tǒng)計平滑技術(shù)
        3.4.3 數(shù)據(jù)稀疏問題的解決
    3.5 特征提取和啟發(fā)式搜索算法的結(jié)合
    3.6 論文頭部元數(shù)據(jù)提取
    3.7 本章小結(jié)
第4章 融合重排序的引文元數(shù)據(jù)提取
    4.1 引文元數(shù)據(jù)概述
        4.1.1 引文信息的提取任務(wù)
        4.1.2 引文元數(shù)據(jù)集的定義
    4.2 重排序
        4.2.1 相關(guān)概念的定義和表示
        4.2.2 候選標注集合的產(chǎn)生
    4.3 特征選擇和預(yù)抽取支持向量
    4.4 排序支持向量機
    4.5 引文元數(shù)據(jù)的提取
    4.6 本章小結(jié)
第5章 實驗驗證與分析
    5.1 數(shù)據(jù)集和實驗環(huán)境
        5.1.1 實驗數(shù)據(jù)來源
        5.1.2 實驗環(huán)境
    5.2 論文頭部的元數(shù)據(jù)提取實驗
        5.2.1 實驗步驟
        5.2.2 實驗結(jié)果與分析
    5.3 引文元數(shù)據(jù)的實驗結(jié)果與分析
    5.4 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果
致謝
作者簡介

【參考文獻】

相關(guān)期刊論文 前10條

1 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學(xué)報;2005年02期

2 趙英環(huán),郭貴鎖;基于主題詞迭代提取的信息檢索算法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期

3 李朝光,張銘,鄧志鴻,楊冬青,唐世渭;論文元數(shù)據(jù)信息的自動抽取[J];計算機工程與應(yīng)用;2002年21期

4 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應(yīng)用;2003年10期

5 周俊生;戴新宇;尹存燕;陳家駿;;自然語言信息抽取中的機器學(xué)習(xí)方法研究[J];計算機科學(xué);2005年03期

6 張玲,黃鐵軍,高文;基于隱馬爾可夫模型的引文信息提取[J];計算機工程;2003年20期

7 狄滌,周競揚,潘金貴;基于規(guī)則的HTML文檔元數(shù)據(jù)提取[J];計算機工程;2004年09期

8 李素建,劉群,楊志峰;基于最大熵模型的組塊分析[J];計算機學(xué)報;2003年12期

9 李青,焦李成,周偉達;基于向量投影的支撐向量預(yù)選取[J];計算機學(xué)報;2005年02期

10 常娥;何琳;侯漢清;;元數(shù)據(jù)自動生成技術(shù)研究[J];情報理論與實踐;2006年05期



本文編號:2892321

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/tushudanganlunwen/2892321.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6be5b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com