中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

大數(shù)據(jù)在專利信息分析中的應(yīng)用研究

發(fā)布時(shí)間:2020-11-18 18:26
   隨著科技的飛速發(fā)展,專利作為衡量技術(shù)創(chuàng)新的重要指標(biāo)也備受關(guān)注,科研機(jī)構(gòu)和企業(yè)對(duì)專利信息的挖掘越發(fā)重視。盡管專利文獻(xiàn)已經(jīng)按照特定方法進(jìn)行了詳細(xì)的分類,但是專利文獻(xiàn)的非結(jié)構(gòu)化特性和專利數(shù)據(jù)量的爆炸式增長(zhǎng)決定了通過傳統(tǒng)的基于統(tǒng)計(jì)分析的方法難以挖掘深層的信息,而通過文本挖掘技術(shù)對(duì)專利文本進(jìn)行分析處理又呈現(xiàn)出算法擴(kuò)展性不足、數(shù)據(jù)處理平臺(tái)處理能力受限等問題。大數(shù)據(jù)的興起為專利數(shù)據(jù)的分析帶來了新的機(jī)遇,將大數(shù)據(jù)的理論、方法和工具運(yùn)用到專利文獻(xiàn)的處理中是專利分析的新趨勢(shì)。本文以專利文獻(xiàn)的處理分析為目標(biāo),分析了大數(shù)據(jù)在專利信息分析中的應(yīng)用場(chǎng)景,并以聚類為切入點(diǎn),根據(jù)專利文本的特征,改進(jìn)了傳統(tǒng)的K-Means文本聚類算法,最后結(jié)合大數(shù)據(jù)處理平臺(tái)Hadoop以及并行處理框架MapReduce對(duì)專利文本聚類的整個(gè)過程進(jìn)行了并行化設(shè)計(jì)。本文主要研究?jī)?nèi)容如下:(1)根據(jù)當(dāng)前專利信息分析的難點(diǎn),對(duì)專利信息分析進(jìn)行了需求分析,同時(shí)結(jié)合大數(shù)據(jù)的理論和技術(shù),研究了大數(shù)據(jù)在專利信息分析中的應(yīng)用場(chǎng)景。(2)根據(jù)需求分析的結(jié)果,選取專利文本聚類為切入點(diǎn)進(jìn)行研究。根據(jù)專利文本聚類的需求,以傳統(tǒng)的K-Means聚類算法為基礎(chǔ),通過設(shè)計(jì)基于密度的離群點(diǎn)去除方法和基于距離積的初始質(zhì)心選擇策略,對(duì)原有算法進(jìn)行改進(jìn)。(3)結(jié)合MapReduce的特性,對(duì)專利文本聚類的整個(gè)過程進(jìn)行并行化設(shè)計(jì),包括分詞、特征選擇、TF-IDF權(quán)重計(jì)算、文本向量化表示等關(guān)鍵步驟的并行實(shí)現(xiàn)和本文提出的改進(jìn)算法的并行化實(shí)現(xiàn)。(4)最后通過搭建Hadoop集群,采用多個(gè)專利文本數(shù)據(jù)集和設(shè)計(jì)相關(guān)實(shí)驗(yàn),對(duì)本文提出的改進(jìn)算法的聚類效果進(jìn)行了測(cè)試,對(duì)專利文本聚類的并行化設(shè)計(jì)進(jìn)行了擴(kuò)展性測(cè)試。實(shí)驗(yàn)表明,本文提出的改進(jìn)算法和設(shè)計(jì)的基于MapReduce的文本聚類并行化在專利文本的處理中取得了很好的效果,驗(yàn)證了大數(shù)據(jù)的理論技術(shù)運(yùn)用于專利信息分析的可行性。
【學(xué)位單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2016
【中圖分類】:G306;TP311.13
【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 論文研究背景和意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 大數(shù)據(jù)研究現(xiàn)狀
        1.2.2 專利信息分析研究現(xiàn)狀
    1.3 本文的主要工作
    1.4 論文結(jié)構(gòu)安排
第2章 基于大數(shù)據(jù)理論的專利應(yīng)用需求分析
    2.1 大數(shù)據(jù)
        2.1.1 大數(shù)據(jù)的基本概念
        2.1.2 大數(shù)據(jù)的關(guān)鍵技術(shù)
    2.2 專利文獻(xiàn)
        2.2.1 專利文獻(xiàn)的特征
        2.2.2 專利文獻(xiàn)的處理難點(diǎn)
    2.3 基于大數(shù)據(jù)理論的專利分析技術(shù)
        2.3.1 基于大數(shù)據(jù)理論的專利文件系統(tǒng)
        2.3.2 基于大數(shù)據(jù)理論的專利處理平臺(tái)
        2.3.3 基于大數(shù)據(jù)工具的專利數(shù)據(jù)挖掘
    2.4 本章小結(jié)
第3章 Hadoop及Map Reduce框架
    3.1 Hadoop系統(tǒng)
        3.1.1 Hadoop技術(shù)簡(jiǎn)介
        3.1.2 Hadoop的master/slave架構(gòu)
    3.2 HDFS分布式文件系統(tǒng)
        3.2.1 HDFS的組成結(jié)構(gòu)
        3.2.2 HDFS的工作流程
        3.2.3 HDFS的特點(diǎn)
    3.3 Map Reduce框架
        3.3.1 Map Reduce并行編程模型
        3.3.2 Map Reduce程序執(zhí)行過程
        3.3.3 Map Reduce的特點(diǎn)
    3.4 本章小結(jié)
第4章 文本聚類技術(shù)綜述
    4.1 文本聚類過程
    4.2 文本預(yù)處理
        4.2.1 文本分詞
        4.2.2 停用詞過濾
    4.3 文本特征降維
    4.4 文本特征表示
        4.4.1 布爾邏輯模型
        4.4.2 向量空間模型
    4.5 文本相似性度量
        4.5.1 海明距離
        4.5.2 歐幾里得距離
        4.5.3 馬氏距離
        4.5.4 余弦距離
    4.6 文本聚類算法
        4.6.1 基于劃分的方法
        4.6.2 基于層次的方法
        4.6.3 基于密度的方法
    4.7 本章小結(jié)
第5章 基于Map Reduce的專利文本聚類
    5.1 改進(jìn)的K-Means文本聚類算法
        5.1.1 初始質(zhì)心的選擇
        5.1.2 改進(jìn)算法的聚類過程
    5.2 基于Map Reduce的專利文本特征表示
        5.2.1 基于Map Reduce的TF-IDF權(quán)重計(jì)算
        5.2.2 基于Map Reduce的專利文本特征選擇
        5.2.3 基于Map Reduce的專利文本特征表示
    5.3 基于Map Reduce的聚類算法實(shí)現(xiàn)
        5.3.1 基于Map Reduce的初始質(zhì)心選擇
        5.3.2 基于Map Reduce的聚類過程
    5.4 本章小結(jié)
第六章 實(shí)驗(yàn)與結(jié)果分析
    6.1 實(shí)驗(yàn)環(huán)境準(zhǔn)備
        6.1.1 Hadoop集群規(guī)劃
        6.1.2 Hadoop集群部署
    6.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
        6.2.1 實(shí)驗(yàn)數(shù)據(jù)集
        6.2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
    6.3 聚類實(shí)驗(yàn)與結(jié)果分析
        6.3.1 參數(shù)選取方法
        6.3.2 聚類效果實(shí)驗(yàn)
        6.3.3 并行性能實(shí)驗(yàn)
        6.3.4 實(shí)驗(yàn)結(jié)果分析
    6.4 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文
致謝
詳細(xì)摘要

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張淑芬,范軍;專利信息管理淺論[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2004年04期

2 呂榮波;整合專利信息資源,構(gòu)筑專利服務(wù)平臺(tái)[J];中國(guó)傳媒科技;2004年05期

3 宋保華;從專利信息中獲取創(chuàng)新靈感[J];發(fā)明與創(chuàng)新;2004年10期

4 ;專利信息[J];云南科技管理;2004年06期

5 ;專利信息[J];云南科技管理;2005年04期

6 ;專利信息[J];云南科技管理;2005年05期

7 ;專利信息[J];云南科技管理;2005年01期

8 王璐瑤;鄢小燕;;中國(guó)網(wǎng)絡(luò)化專利信息的發(fā)展現(xiàn)狀及趨勢(shì)研究[J];圖書情報(bào)工作;2006年06期

9 劉永計(jì);錢立亞;戰(zhàn)威;;圖書館專利信息服務(wù)的不足與對(duì)策[J];當(dāng)代圖書館;2010年01期

10 楊麗;;高校專利信息服務(wù)調(diào)查分析[J];圖書館論壇;2011年02期


相關(guān)博士學(xué)位論文 前1條

1 李鵬;基于專利信息分析的生物偵檢技術(shù)發(fā)展研究[D];中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院;2012年


相關(guān)碩士學(xué)位論文 前10條

1 卜遠(yuǎn)芳;基于專利信息分析的我國(guó)4G移動(dòng)通信技術(shù)發(fā)展研究[D];河南科技大學(xué);2015年

2 謝紅;廣東省中小企業(yè)專利信息運(yùn)用實(shí)證研究[D];華南理工大學(xué);2016年

3 李慧穎;基于專利信息分析的區(qū)域技術(shù)創(chuàng)新能力比較研究[D];黑龍江大學(xué);2015年

4 何峰;專利信息在技術(shù)研發(fā)中的運(yùn)用研究[D];昆明理工大學(xué);2015年

5 杜娟娟;高校專利信息服務(wù)業(yè)務(wù)流程優(yōu)化研究[D];北京交通大學(xué);2016年

6 趙媛媛;2015年中國(guó)專利信息年會(huì)口譯實(shí)踐報(bào)告[D];河北大學(xué);2016年

7 劉澎;大數(shù)據(jù)在專利信息分析中的應(yīng)用研究[D];江蘇科技大學(xué);2016年

8 熊璇宇;專利信息分析方法在企業(yè)新產(chǎn)品研發(fā)中的應(yīng)用[D];河北大學(xué);2011年

9 李飛;基于內(nèi)容挖掘的專利信息分析的方法體系及應(yīng)用研究[D];南京理工大學(xué);2008年

10 陳蕾;基于語(yǔ)義與語(yǔ)境的專利信息查詢擴(kuò)展的研究[D];北京工業(yè)大學(xué);2012年



本文編號(hào):2889048

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/2889048.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶94de1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com