基于注意力和殘差連接的BiLSTM-CNN文本分類
發(fā)布時間:2024-06-29 00:09
互聯(lián)網和移動互聯(lián)網應用的快速發(fā)展帶來了文本數(shù)據(jù)的爆炸式增長,使用人工方式分類和整理文本已經成為了不可能。如何在海量的文本數(shù)據(jù)中實現(xiàn)對文本的快速分類并應用于后續(xù)的文章推薦、語義分析、信息檢索、信息抽取和機器翻譯一直是業(yè)界研究的熱點。隨著深度學習技術的不斷發(fā)展,越來越多的學者將深度學習技術應用到自然語言領域中,也取得了非常不錯的效果。但是,現(xiàn)有的算法往往無法準確的表達文本信息以及在深層網絡時會出現(xiàn)網絡退化問題。本文在分析已有文本分類算法基礎上,主要研究工作如下:本文針對在文本分類中使用高維度的文本詞向量在訓練中難以收斂。對預處理后的文本語料使用word2vec算法進行預訓練。將得到的向量化文本數(shù)據(jù)作為整個分類模型的輸入,避免了出現(xiàn)維度災難,也加快了模型的收斂。本文針對基于深度學習技術的文本分類算法中卷積神經網絡(CNN)無法獲取文本全局特征、雙向循環(huán)神經網絡(BiLSTM)無法聚焦文本局部特征的問題,本文將CNN與BiLSTM進行結合,在提取文本特征信息時,既可以通過CNN網絡提取文本局部特征,又可以通過BiLSTM網絡提取文本全局特征,解決了文本分類中特征提取問題。本文針對文本中不同單詞...
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3996868
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
圖2-1文本分類一般流程
圖2-1文本分類一般流程-1Textclassificationgeneralp用中,由于文本信息的非包括非法字符去除、特殊處理后的文本信息轉換成向量化后的文本矩陣和文續(xù)訓練和學習。型在測試文本數(shù)據(jù)集的表化,需要對用于實驗的語預處理方法,主要包括非
圖2-2決策樹實例Fig.2-2Decisiontreeinstance
第二章預處理和相關理論基礎算法等。然后,將該樣本對所用的樣本進行相似度計算,找到計算結果最。最后,這K個文本數(shù)據(jù)通過等權投票的方法來決定該文本的類別。由上述可知,使用KNN算法對文本分類的核心是計算文本之間的相似度和設置。因此,KNN算法不適合樣本量過大的情形,并且在....
圖2-3支持向量機Fig.2-3SupportVectorMachines
1()1()ikiginiDD1212(,)()()DDginiDAginiDginiDDD向量機算法理二分類問題的支持向量機(SVM)算法[48],在分類問題上是在樣本空間中找到一個分隔最大的分類超平面,通過分類。后來的學者在....
圖2-4非監(jiān)督的深度學習模型結構
訓練的樣本數(shù)據(jù)是沒有進行標注的。其結構如圖2-4所示,常見的如,自編碼機和玻爾茲曼機等。圖2-4非監(jiān)督的深度學習模型結構Fig.2-4Unsuperviseddeeplearningmodelstructure在監(jiān)督的深度學習模型中,使用低層次的網絡來構造更高層次....
本文編號:3996868
本文鏈接:http://lk138.cn/kejilunwen/ruanjiangongchenglunwen/3996868.html
最近更新
教材專著