基于網(wǎng)絡媒體的食品安全數(shù)據(jù)采集與處理研究
發(fā)布時間:2024-06-04 22:20
食品安全作為關乎國計民生的重要社會問題,始終是業(yè)界的研究熱點。隨著信息技術的不斷發(fā)展,研究怎樣將相關技術手段應用于食品安全領域成為了一種新的研究思路。網(wǎng)絡媒體作為一種公共數(shù)據(jù)源,其本身蘊含有豐富的各類信息。如果能利用技術手段從網(wǎng)絡媒體中采集食品安全相關數(shù)據(jù),并對其進行信息處理以發(fā)掘其內在價值,必將有利于解決食品安全問題,促進社會的穩(wěn)定發(fā)展。本文以網(wǎng)絡媒體中存在的食品安全文本數(shù)據(jù)作為研究對象,針對其數(shù)據(jù)采集與信息處理方法展開研究工作。首先分析了網(wǎng)絡媒體中存在的食品安全數(shù)據(jù)的內容特點,然后制定評價標準對各種不同類型的食品安全數(shù)據(jù)進行評判,并以此為依據(jù)選定具體研究對象與數(shù)據(jù)采集來源;其次提出一種基于Scrapy的數(shù)據(jù)采集方案,詳細闡述了其構建與實現(xiàn)方法,并利用該方案從選定網(wǎng)站中采集包括食品安全新聞報道、食品檢測通告、食品安全刑事裁判文書在內的三種食品安全文本數(shù)據(jù)作為具體研究對象;然后介紹了針對食品安全數(shù)據(jù)的信息處理方法,主要內容包括數(shù)據(jù)預處理方法、基于BERT關鍵詞嵌入的文本篩選方法、基于BiLSTMCRF的命名實體提取方法、基于正則表達式的信息提取方法以及基于Text Rank的文本摘要提...
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景與意義
1.2 國內外研究現(xiàn)狀
1.2.1 網(wǎng)絡數(shù)據(jù)采集技術
1.2.2 信息處理技術
1.2.3 相關技術在食品安全領域的應用
1.3 本文主要研究內容與工作安排
第二章 食品安全數(shù)據(jù)采集方法研究
2.1 采集對象及來源確定
2.1.1 網(wǎng)絡媒體中的食品安全數(shù)據(jù)類型分析
2.1.2 具體研究對象選擇
2.1.3 數(shù)據(jù)采集來源選擇
2.2 基于Scrapy的數(shù)據(jù)采集方案
2.2.1 Scrapy的結構與原理
2.2.2 基于Beautifulsoup4 的頁面分析方法
2.2.3 爬蟲整體設計
2.2.4 爬蟲實現(xiàn)方法
2.3 采集成果展示
2.4 本章小結
第三章 食品安全信息處理方法研究
3.1 數(shù)據(jù)預處理方法
3.2 基于BERT關鍵詞嵌入的文本篩選方法
3.2.1 基于TF-IDF的關鍵詞提取方法
3.2.2 BERT詞嵌入模型
3.2.3 文檔向量計算方法
3.2.4 SVM分類器
3.2.5 實驗及結果分析
3.3 基于BILSTM-CRF的命名實體提取方法
3.3.1 LSTM與 BiLSTM的結構與原理
3.3.2 CRF原理
3.3.3 BiLSTM-CRF命名實體提取模型
3.3.4 實驗及結果分析
3.4 基于正則表達式的信息提取方法
3.4.1 正則表達式基本原理
3.4.2 正則表達式使用方法
3.4.3 提取效果及分析
3.5 基于Text Rank的文本摘要提取方法
3.5.1 Text Rank算法原理與使用步驟
3.5.2 提取效果及分析
3.6 本章小結
第四章 食品安全數(shù)據(jù)結構化處理及可視化方法研究
4.1 食品安全數(shù)據(jù)結構化處理方法
4.1.1 結構化模板設計
4.1.2 結構化處理流程
4.1.3 數(shù)據(jù)結構化效果
4.2 基于ECharts的可視化方案
4.2.1 ECharts基本特性與使用方法
4.2.2 食品安全新聞報道詞云圖構建方法
4.2.3 食品-非法添加劑關系圖構建方法
4.2.4 食品安全違法事件地圖構建方法
4.3 本章小結
第五章 總結與展望
5.1 工作總結
5.2 研究展望
參考文獻
附錄 A
附錄 B
在學期間的研究成果
致謝
本文編號:3989250
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景與意義
1.2 國內外研究現(xiàn)狀
1.2.1 網(wǎng)絡數(shù)據(jù)采集技術
1.2.2 信息處理技術
1.2.3 相關技術在食品安全領域的應用
1.3 本文主要研究內容與工作安排
第二章 食品安全數(shù)據(jù)采集方法研究
2.1 采集對象及來源確定
2.1.1 網(wǎng)絡媒體中的食品安全數(shù)據(jù)類型分析
2.1.2 具體研究對象選擇
2.1.3 數(shù)據(jù)采集來源選擇
2.2 基于Scrapy的數(shù)據(jù)采集方案
2.2.1 Scrapy的結構與原理
2.2.2 基于Beautifulsoup4 的頁面分析方法
2.2.3 爬蟲整體設計
2.2.4 爬蟲實現(xiàn)方法
2.3 采集成果展示
2.4 本章小結
第三章 食品安全信息處理方法研究
3.1 數(shù)據(jù)預處理方法
3.2 基于BERT關鍵詞嵌入的文本篩選方法
3.2.1 基于TF-IDF的關鍵詞提取方法
3.2.2 BERT詞嵌入模型
3.2.3 文檔向量計算方法
3.2.4 SVM分類器
3.2.5 實驗及結果分析
3.3 基于BILSTM-CRF的命名實體提取方法
3.3.1 LSTM與 BiLSTM的結構與原理
3.3.2 CRF原理
3.3.3 BiLSTM-CRF命名實體提取模型
3.3.4 實驗及結果分析
3.4 基于正則表達式的信息提取方法
3.4.1 正則表達式基本原理
3.4.2 正則表達式使用方法
3.4.3 提取效果及分析
3.5 基于Text Rank的文本摘要提取方法
3.5.1 Text Rank算法原理與使用步驟
3.5.2 提取效果及分析
3.6 本章小結
第四章 食品安全數(shù)據(jù)結構化處理及可視化方法研究
4.1 食品安全數(shù)據(jù)結構化處理方法
4.1.1 結構化模板設計
4.1.2 結構化處理流程
4.1.3 數(shù)據(jù)結構化效果
4.2 基于ECharts的可視化方案
4.2.1 ECharts基本特性與使用方法
4.2.2 食品安全新聞報道詞云圖構建方法
4.2.3 食品-非法添加劑關系圖構建方法
4.2.4 食品安全違法事件地圖構建方法
4.3 本章小結
第五章 總結與展望
5.1 工作總結
5.2 研究展望
參考文獻
附錄 A
附錄 B
在學期間的研究成果
致謝
本文編號:3989250
本文鏈接:http://www.lk138.cn/guanlilunwen/xiangmuguanli/3989250.html