基于條件隨機(jī)場的元數(shù)據(jù)自動(dòng)提取技術(shù)研究

發(fā)布時(shí)間：2020-11-21 01:40

　　伴隨著數(shù)字圖書館技術(shù)的發(fā)展,電子文檔成為人們獲取信息的主要來源。為了使用戶更方便快捷地發(fā)現(xiàn)所需要的文獻(xiàn)資源,元數(shù)據(jù)信息提取技術(shù)的研究得到越來越多的關(guān)注。元數(shù)據(jù)信息的自動(dòng)提取解決了早期主要靠人工閱讀文檔找出相應(yīng)的元數(shù)據(jù)這項(xiàng)費(fèi)時(shí)費(fèi)力的工作,并為電子資源的有序組織、適度控制和高效檢索提供更為便利的條件。隨著機(jī)器學(xué)習(xí)理論的逐漸成熟,元數(shù)據(jù)的自動(dòng)提取成為了當(dāng)今的研究熱點(diǎn)。本文主要對(duì)基于條件隨機(jī)場的元數(shù)據(jù)自動(dòng)提取的相關(guān)技術(shù)進(jìn)行了研究。首先,針對(duì)以單詞為單位組成的論文頭部文本序列來進(jìn)行元數(shù)據(jù)提取時(shí)存在任務(wù)量大,抽取精度低等問題,提出一種文本分塊策略來對(duì)其進(jìn)行分塊,詳細(xì)闡述了分塊的過程,使得每一個(gè)抽取域和一個(gè)具體的文本分塊相對(duì)應(yīng)。在分塊的基礎(chǔ)上利用文本中含有特征詞等信息,通過定義特征提取規(guī)則來確定其狀態(tài)。在路徑搜索過程中,采用啟發(fā)式搜索算法來確定剩余塊的狀態(tài)。其次,為了實(shí)現(xiàn)引文元數(shù)據(jù)的精確抽取,根據(jù)引文信息格式的多樣性和提取域的密集性,在條件隨機(jī)場模型的基礎(chǔ)上融合重排序來提取引文元數(shù)據(jù),將條件隨機(jī)場和重排序形成串行處理流程,通過對(duì)條件隨機(jī)模型生成的多個(gè)候選標(biāo)注進(jìn)行等級(jí)排序?qū)崿F(xiàn)引文元數(shù)據(jù)的提取。最后,對(duì)上述研究方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證及分析,和原有的方法進(jìn)行了對(duì)比,并對(duì)今后的研究工作進(jìn)行了展望。
【學(xué)位單位】：燕山大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2009
【中圖分類】：G250.76;TP391.1
【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 課題背景及意義
    1.2 國內(nèi)外的研究狀況綜述
        1.2.1 信息抽取的歷史和現(xiàn)狀
        1.2.2 元數(shù)據(jù)提取技術(shù)的研究現(xiàn)狀
    1.3 本文的主要研究內(nèi)容
    1.4 本文的組織結(jié)構(gòu)
第2章條件隨機(jī)場模型理論概述
    2.1 統(tǒng)計(jì)語言模型概述
    2.2 條件隨機(jī)場理論
        2.2.1 無向圖模型
        2.2.2 條件隨機(jī)場原理
    2.3 條件隨機(jī)場和其他模型的比較
        2.3.1 隱馬爾可夫模型
        2.3.2 最大熵馬爾可夫模型
    2.4 條件隨機(jī)場的優(yōu)點(diǎn)與不足
    2.5 條件隨機(jī)場的參數(shù)估計(jì)
        2.5.1 最大似然估計(jì)
        2.5.2 參數(shù)估計(jì)的優(yōu)化
    2.6 本章小結(jié)
第3章基于啟發(fā)式搜索的論文頭部元數(shù)據(jù)提取
    3.1 元數(shù)據(jù)概述
        3.1.1 論文元數(shù)據(jù)的作用
        3.1.2 論文頭部數(shù)據(jù)集的定義
    3.2 論文頭部的特征選擇
        3.2.1 局部特征
        3.2.2 版面特征
        3.2.3 外部詞典特征
        3.2.4 狀態(tài)轉(zhuǎn)移特征
    3.3 論文頭部的相關(guān)工作和技術(shù)
        3.3.1 文本分塊
        3.3.2 特征提取規(guī)則
        3.3.3 基于啟發(fā)式的路徑搜索算法
    3.4 數(shù)據(jù)稀疏問題的解決
        3.4.1 數(shù)據(jù)稀疏問題
        3.4.2 統(tǒng)計(jì)平滑技術(shù)
        3.4.3 數(shù)據(jù)稀疏問題的解決
    3.5 特征提取和啟發(fā)式搜索算法的結(jié)合
    3.6 論文頭部元數(shù)據(jù)提取
    3.7 本章小結(jié)
第4章融合重排序的引文元數(shù)據(jù)提取
    4.1 引文元數(shù)據(jù)概述
        4.1.1 引文信息的提取任務(wù)
        4.1.2 引文元數(shù)據(jù)集的定義
    4.2 重排序
        4.2.1 相關(guān)概念的定義和表示
        4.2.2 候選標(biāo)注集合的產(chǎn)生
    4.3 特征選擇和預(yù)抽取支持向量
    4.4 排序支持向量機(jī)
    4.5 引文元數(shù)據(jù)的提取
    4.6 本章小結(jié)
第5章實(shí)驗(yàn)驗(yàn)證與分析
    5.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
        5.1.1 實(shí)驗(yàn)數(shù)據(jù)來源
        5.1.2 實(shí)驗(yàn)環(huán)境
    5.2 論文頭部的元數(shù)據(jù)提取實(shí)驗(yàn)
        5.2.1 實(shí)驗(yàn)步驟
        5.2.2 實(shí)驗(yàn)結(jié)果與分析
    5.3 引文元數(shù)據(jù)的實(shí)驗(yàn)結(jié)果與分析
    5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果
致謝
作者簡介

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學(xué)報(bào);2005年02期

2 趙英環(huán),郭貴鎖;基于主題詞迭代提取的信息檢索算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

3 李朝光,張銘,鄧志鴻,楊冬青,唐世渭;論文元數(shù)據(jù)信息的自動(dòng)抽取[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期

4 李保利,陳玉忠,俞士汶;信息抽取研究綜述[J];計(jì)算機(jī)工程與應(yīng)用;2003年10期

5 周俊生;戴新宇;尹存燕;陳家駿;;自然語言信息抽取中的機(jī)器學(xué)習(xí)方法研究[J];計(jì)算機(jī)科學(xué);2005年03期

6 張玲,黃鐵軍,高文;基于隱馬爾可夫模型的引文信息提取[J];計(jì)算機(jī)工程;2003年20期

7 狄滌,周競揚(yáng),潘金貴;基于規(guī)則的HTML文檔元數(shù)據(jù)提取[J];計(jì)算機(jī)工程;2004年09期

8 李素建,劉群,楊志峰;基于最大熵模型的組塊分析[J];計(jì)算機(jī)學(xué)報(bào);2003年12期

9 李青,焦李成,周偉達(dá);基于向量投影的支撐向量預(yù)選取[J];計(jì)算機(jī)學(xué)報(bào);2005年02期

10 常娥;何琳;侯漢清;;元數(shù)據(jù)自動(dòng)生成技術(shù)研究[J];情報(bào)理論與實(shí)踐;2006年05期

本文編號(hào)：2892321

資料下載