中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于條件隨機場的元數據自動提取技術研究

發(fā)布時間:2020-11-21 01:40
   伴隨著數字圖書館技術的發(fā)展,電子文檔成為人們獲取信息的主要來源。為了使用戶更方便快捷地發(fā)現所需要的文獻資源,元數據信息提取技術的研究得到越來越多的關注。元數據信息的自動提取解決了早期主要靠人工閱讀文檔找出相應的元數據這項費時費力的工作,并為電子資源的有序組織、適度控制和高效檢索提供更為便利的條件。隨著機器學習理論的逐漸成熟,元數據的自動提取成為了當今的研究熱點。本文主要對基于條件隨機場的元數據自動提取的相關技術進行了研究。 首先,針對以單詞為單位組成的論文頭部文本序列來進行元數據提取時存在任務量大,抽取精度低等問題,提出一種文本分塊策略來對其進行分塊,詳細闡述了分塊的過程,使得每一個抽取域和一個具體的文本分塊相對應。在分塊的基礎上利用文本中含有特征詞等信息,通過定義特征提取規(guī)則來確定其狀態(tài)。在路徑搜索過程中,采用啟發(fā)式搜索算法來確定剩余塊的狀態(tài)。 其次,為了實現引文元數據的精確抽取,根據引文信息格式的多樣性和提取域的密集性,在條件隨機場模型的基礎上融合重排序來提取引文元數據,將條件隨機場和重排序形成串行處理流程,通過對條件隨機模型生成的多個候選標注進行等級排序實現引文元數據的提取。 最后,對上述研究方法進行了實驗驗證及分析,和原有的方法進行了對比,并對今后的研究工作進行了展望。
【學位單位】:燕山大學
【學位級別】:碩士
【學位年份】:2009
【中圖分類】:G250.76;TP391.1
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題背景及意義
    1.2 國內外的研究狀況綜述
        1.2.1 信息抽取的歷史和現狀
        1.2.2 元數據提取技術的研究現狀
    1.3 本文的主要研究內容
    1.4 本文的組織結構
第2章 條件隨機場模型理論概述
    2.1 統(tǒng)計語言模型概述
    2.2 條件隨機場理論
        2.2.1 無向圖模型
        2.2.2 條件隨機場原理
    2.3 條件隨機場和其他模型的比較
        2.3.1 隱馬爾可夫模型
        2.3.2 最大熵馬爾可夫模型
    2.4 條件隨機場的優(yōu)點與不足
    2.5 條件隨機場的參數估計
        2.5.1 最大似然估計
        2.5.2 參數估計的優(yōu)化
    2.6 本章小結
第3章 基于啟發(fā)式搜索的論文頭部元數據提取
    3.1 元數據概述
        3.1.1 論文元數據的作用
        3.1.2 論文頭部數據集的定義
    3.2 論文頭部的特征選擇
        3.2.1 局部特征
        3.2.2 版面特征
        3.2.3 外部詞典特征
        3.2.4 狀態(tài)轉移特征
    3.3 論文頭部的相關工作和技術
        3.3.1 文本分塊
        3.3.2 特征提取規(guī)則
        3.3.3 基于啟發(fā)式的路徑搜索算法
    3.4 數據稀疏問題的解決
        3.4.1 數據稀疏問題
        3.4.2 統(tǒng)計平滑技術
        3.4.3 數據稀疏問題的解決
    3.5 特征提取和啟發(fā)式搜索算法的結合
    3.6 論文頭部元數據提取
    3.7 本章小結
第4章 融合重排序的引文元數據提取
    4.1 引文元數據概述
        4.1.1 引文信息的提取任務
        4.1.2 引文元數據集的定義
    4.2 重排序
        4.2.1 相關概念的定義和表示
        4.2.2 候選標注集合的產生
    4.3 特征選擇和預抽取支持向量
    4.4 排序支持向量機
    4.5 引文元數據的提取
    4.6 本章小結
第5章 實驗驗證與分析
    5.1 數據集和實驗環(huán)境
        5.1.1 實驗數據來源
        5.1.2 實驗環(huán)境
    5.2 論文頭部的元數據提取實驗
        5.2.1 實驗步驟
        5.2.2 實驗結果與分析
    5.3 引文元數據的實驗結果與分析
    5.4 本章小結
結論
參考文獻
攻讀碩士學位期間承擔的科研任務與主要成果
致謝
作者簡介

【參考文獻】

相關期刊論文 前10條

1 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學報;2005年02期

2 趙英環(huán),郭貴鎖;基于主題詞迭代提取的信息檢索算法[J];華南理工大學學報(自然科學版);2004年S1期

3 李朝光,張銘,鄧志鴻,楊冬青,唐世渭;論文元數據信息的自動抽取[J];計算機工程與應用;2002年21期

4 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計算機工程與應用;2003年10期

5 周俊生;戴新宇;尹存燕;陳家駿;;自然語言信息抽取中的機器學習方法研究[J];計算機科學;2005年03期

6 張玲,黃鐵軍,高文;基于隱馬爾可夫模型的引文信息提取[J];計算機工程;2003年20期

7 狄滌,周競揚,潘金貴;基于規(guī)則的HTML文檔元數據提取[J];計算機工程;2004年09期

8 李素建,劉群,楊志峰;基于最大熵模型的組塊分析[J];計算機學報;2003年12期

9 李青,焦李成,周偉達;基于向量投影的支撐向量預選取[J];計算機學報;2005年02期

10 常娥;何琳;侯漢清;;元數據自動生成技術研究[J];情報理論與實踐;2006年05期



本文編號:2892321

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/tushudanganlunwen/2892321.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶6be5b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com