基于LSTM和社交媒體文本信息的股票趨勢(shì)預(yù)測(cè)研究
發(fā)布時(shí)間:2020-09-28 13:58
隨著中國(guó)市場(chǎng)經(jīng)濟(jì)的發(fā)展,證券市場(chǎng)在國(guó)民經(jīng)濟(jì)中的占據(jù)著越來(lái)越重要的地位,股票趨勢(shì)預(yù)測(cè)也被越來(lái)越多的研究者關(guān)注。傳統(tǒng)的預(yù)測(cè)模型受技術(shù)限制,多數(shù)圍繞股票的歷史數(shù)據(jù)本身展開(kāi),通過(guò)對(duì)股票歷史數(shù)據(jù)進(jìn)行建模,探究其潛在規(guī)律從而達(dá)到對(duì)股價(jià)未來(lái)趨勢(shì)的變化預(yù)測(cè)的目的。然而這類(lèi)預(yù)測(cè)方式并未考慮到其他會(huì)對(duì)股價(jià)產(chǎn)生影響的因素,如市場(chǎng)的宏觀調(diào)控、公司的經(jīng)營(yíng)狀況等。實(shí)際生活中,投資者在做出決定時(shí)并非完全理性,會(huì)受到社交媒體、新聞等影響,而當(dāng)市場(chǎng)中大量投資者的對(duì)某一股票的進(jìn)行買(mǎi)賣(mài)交易等行為時(shí),這些信息也會(huì)對(duì)該股票價(jià)格產(chǎn)生影響,引起股市的變動(dòng);谶@一現(xiàn)象本文建立了一種基于LSTM和社交媒體文本信息的股票趨勢(shì)預(yù)測(cè)模型,使用LSTM和自注意力機(jī)制對(duì)文本信息特征進(jìn)行提取,與股票歷史數(shù)據(jù)信息特征進(jìn)行結(jié)合,以此來(lái)對(duì)股票趨勢(shì)進(jìn)行預(yù)測(cè),該模型可顯著提升股票短期預(yù)測(cè)模型的準(zhǔn)確率。首先,本文構(gòu)建了基于LSTM的股票趨勢(shì)預(yù)測(cè)模型,該模型利用了LSTM模型便于處理時(shí)序數(shù)據(jù)的特點(diǎn)同時(shí)在此模型的基礎(chǔ)上加入基本的社交媒體文本信息特征,以此來(lái)提高模型預(yù)測(cè)性能。LSTM模型是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,通過(guò)改良內(nèi)部結(jié)構(gòu),解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)出現(xiàn)的梯度消失的問(wèn)題。實(shí)驗(yàn)表明,LSTM模型可以有效的學(xué)習(xí)到股票歷史數(shù)據(jù)中時(shí)序信息,在預(yù)測(cè)準(zhǔn)確率方面高于傳統(tǒng)的時(shí)間序列模型。針對(duì)傳統(tǒng)股票趨勢(shì)預(yù)測(cè)模型中忽略社交媒體文本信息對(duì)股價(jià)變化的影響,本文在預(yù)測(cè)模型的輸入層面加入社交媒體文本信息特征。本文利用TF-IDF和Weighted Removal的方法提取文本特征信息,將文本特征信息與股票歷史數(shù)據(jù)特征相結(jié)合,構(gòu)建融合基本社交媒體文本信息的LSTM股票趨勢(shì)預(yù)測(cè)模型,實(shí)驗(yàn)表明與基于LSTM的股票預(yù)測(cè)模型相比,該模型在準(zhǔn)確率方面有進(jìn)一步提升。然后,融合基本社交媒體文本信息的預(yù)測(cè)模型采用對(duì)帖子向量簡(jiǎn)單平均的方法得到文本信息特征,忽略了帖子時(shí)間順序的信息,導(dǎo)致對(duì)社交媒體文本信息提取不夠充分。針對(duì)這一問(wèn)題,通過(guò)對(duì)文本信息提取方式的改進(jìn)和信息源種類(lèi)的增加,構(gòu)建基于LSTM和深度社交媒體文本信息的預(yù)測(cè)模型。采用基于LSTM和自注意力機(jī)制模型提取社交媒體文本信息特征。先將帖子向量輸入雙向LSTM模型,在LSTM模型的隱藏狀態(tài)層引入注意力機(jī)制,進(jìn)一步分析與獲取不同帖子對(duì)于最終預(yù)測(cè)的不同貢獻(xiàn)程度。通過(guò)實(shí)驗(yàn)證明,融合深度社交媒體文本信息的股票趨勢(shì)預(yù)測(cè)模型與融合基本社交媒體文本信息的LSTM股票趨勢(shì)預(yù)測(cè)模型相比,在預(yù)測(cè)準(zhǔn)確率上有顯著的提升。在輸入數(shù)據(jù)源層面,增加基本面數(shù)據(jù),構(gòu)建了基于多種信息源的LSTM預(yù)測(cè)模型。通過(guò)實(shí)驗(yàn)對(duì)比,改進(jìn)模型預(yù)測(cè)準(zhǔn)確率有進(jìn)一步提升,證明了在一定程度下,增加數(shù)據(jù)源可以提升預(yù)測(cè)模型的性能。
【學(xué)位單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類(lèi)】:TP391.1;F830.91
【部分圖文】:
2.2.1多層感知機(jī)逡逑多層感知機(jī)(MLP)是人工神經(jīng)網(wǎng)絡(luò)的一種[4°],是由感知機(jī)模型推廣而來(lái)。感知逡逑機(jī)(PLA)模型是一種二分類(lèi)的線性分類(lèi)模型,感知機(jī)的神經(jīng)網(wǎng)絡(luò)表示如圖2.1所逡逑示:逡逑?邐二邐?邋f邋邐?Output逡逑圖2.邋1感知機(jī)神經(jīng)網(wǎng)絡(luò)表示圖逡逑感知機(jī)模型的將實(shí)力特征向量作為輸入,類(lèi)別為輸出。感知機(jī)模型通過(guò)尋找將逡逑數(shù)據(jù)劃分的分離超平面完成分類(lèi),所以感知機(jī)模型可以用來(lái)解決線性可分的二分類(lèi)逡逑的問(wèn)題,即將樣本分為丨+1,-1}兩類(lèi)。分離超平面方程為:逡逑w邋■邋x邋+邋b邋=邋0逡逑由輸入空間到輸出空間的函數(shù):逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6為感知機(jī)模型的參數(shù),we邋叫作權(quán)值(weight),邋be尺叫作逡逑偏置,sign表示符號(hào)函數(shù),即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多層感知機(jī)模型相較于感知機(jī)模型
2.2.1多層感知機(jī)逡逑多層感知機(jī)(MLP)是人工神經(jīng)網(wǎng)絡(luò)的一種[4°],是由感知機(jī)模型推廣而來(lái)。感知逡逑機(jī)(PLA)模型是一種二分類(lèi)的線性分類(lèi)模型,感知機(jī)的神經(jīng)網(wǎng)絡(luò)表示如圖2.1所逡逑示:逡逑?邐二邐?邋f邋邐?Output逡逑圖2.邋1感知機(jī)神經(jīng)網(wǎng)絡(luò)表示圖逡逑感知機(jī)模型的將實(shí)力特征向量作為輸入,類(lèi)別為輸出。感知機(jī)模型通過(guò)尋找將逡逑數(shù)據(jù)劃分的分離超平面完成分類(lèi),所以感知機(jī)模型可以用來(lái)解決線性可分的二分類(lèi)逡逑的問(wèn)題,即將樣本分為丨+1,-1}兩類(lèi)。分離超平面方程為:逡逑w邋■邋x邋+邋b邋=邋0逡逑由輸入空間到輸出空間的函數(shù):逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6為感知機(jī)模型的參數(shù),we邋叫作權(quán)值(weight),邋be尺叫作逡逑偏置,sign表示符號(hào)函數(shù),即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多層感知機(jī)模型相較于感知機(jī)模型
中xt表示在t時(shí)刻的訓(xùn)練樣本的輸入;ht代表在t時(shí)刻,模型的隱藏狀態(tài);和;Cm共同決定:逡逑ht邋=邋f{UXt邋+邋WhtJ逡逑、W和V是模型相關(guān)的線性關(guān)系參數(shù),這些參數(shù)在隱層中是相互共享的。逡逑在t時(shí)刻模型的輸出;化與模型的當(dāng)前隱藏狀態(tài)\有關(guān):逡逑ot邋—邋Vhl邋+邋c逡逑t時(shí)刻模型的損失函數(shù);yt代表t時(shí)刻訓(xùn)練樣本序列的真實(shí)輸出。逡逑常用反向傳播算法(BPTT)對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)進(jìn)行訓(xùn)練,調(diào)整算法的本質(zhì)是BP算法,因?yàn)椋遥危翁幚頃r(shí)間序列的數(shù)據(jù),所以需要基于播。BPTT算法的中心思想與BP算法相同,即沿著需要優(yōu)化參數(shù)的福梯尋找更優(yōu)點(diǎn),直至模型收斂。逡逑長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)逡逑期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)很好的解決了長(zhǎng)期以來(lái)問(wèn)題,能夠記住長(zhǎng)期的。1996
本文編號(hào):2828878
【學(xué)位單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類(lèi)】:TP391.1;F830.91
【部分圖文】:
2.2.1多層感知機(jī)逡逑多層感知機(jī)(MLP)是人工神經(jīng)網(wǎng)絡(luò)的一種[4°],是由感知機(jī)模型推廣而來(lái)。感知逡逑機(jī)(PLA)模型是一種二分類(lèi)的線性分類(lèi)模型,感知機(jī)的神經(jīng)網(wǎng)絡(luò)表示如圖2.1所逡逑示:逡逑?邐二邐?邋f邋邐?Output逡逑圖2.邋1感知機(jī)神經(jīng)網(wǎng)絡(luò)表示圖逡逑感知機(jī)模型的將實(shí)力特征向量作為輸入,類(lèi)別為輸出。感知機(jī)模型通過(guò)尋找將逡逑數(shù)據(jù)劃分的分離超平面完成分類(lèi),所以感知機(jī)模型可以用來(lái)解決線性可分的二分類(lèi)逡逑的問(wèn)題,即將樣本分為丨+1,-1}兩類(lèi)。分離超平面方程為:逡逑w邋■邋x邋+邋b邋=邋0逡逑由輸入空間到輸出空間的函數(shù):逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6為感知機(jī)模型的參數(shù),we邋叫作權(quán)值(weight),邋be尺叫作逡逑偏置,sign表示符號(hào)函數(shù),即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多層感知機(jī)模型相較于感知機(jī)模型
2.2.1多層感知機(jī)逡逑多層感知機(jī)(MLP)是人工神經(jīng)網(wǎng)絡(luò)的一種[4°],是由感知機(jī)模型推廣而來(lái)。感知逡逑機(jī)(PLA)模型是一種二分類(lèi)的線性分類(lèi)模型,感知機(jī)的神經(jīng)網(wǎng)絡(luò)表示如圖2.1所逡逑示:逡逑?邐二邐?邋f邋邐?Output逡逑圖2.邋1感知機(jī)神經(jīng)網(wǎng)絡(luò)表示圖逡逑感知機(jī)模型的將實(shí)力特征向量作為輸入,類(lèi)別為輸出。感知機(jī)模型通過(guò)尋找將逡逑數(shù)據(jù)劃分的分離超平面完成分類(lèi),所以感知機(jī)模型可以用來(lái)解決線性可分的二分類(lèi)逡逑的問(wèn)題,即將樣本分為丨+1,-1}兩類(lèi)。分離超平面方程為:逡逑w邋■邋x邋+邋b邋=邋0逡逑由輸入空間到輸出空間的函數(shù):逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6為感知機(jī)模型的參數(shù),we邋叫作權(quán)值(weight),邋be尺叫作逡逑偏置,sign表示符號(hào)函數(shù),即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多層感知機(jī)模型相較于感知機(jī)模型
中xt表示在t時(shí)刻的訓(xùn)練樣本的輸入;ht代表在t時(shí)刻,模型的隱藏狀態(tài);和;Cm共同決定:逡逑ht邋=邋f{UXt邋+邋WhtJ逡逑、W和V是模型相關(guān)的線性關(guān)系參數(shù),這些參數(shù)在隱層中是相互共享的。逡逑在t時(shí)刻模型的輸出;化與模型的當(dāng)前隱藏狀態(tài)\有關(guān):逡逑ot邋—邋Vhl邋+邋c逡逑t時(shí)刻模型的損失函數(shù);yt代表t時(shí)刻訓(xùn)練樣本序列的真實(shí)輸出。逡逑常用反向傳播算法(BPTT)對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)進(jìn)行訓(xùn)練,調(diào)整算法的本質(zhì)是BP算法,因?yàn)椋遥危翁幚頃r(shí)間序列的數(shù)據(jù),所以需要基于播。BPTT算法的中心思想與BP算法相同,即沿著需要優(yōu)化參數(shù)的福梯尋找更優(yōu)點(diǎn),直至模型收斂。逡逑長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)逡逑期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)很好的解決了長(zhǎng)期以來(lái)問(wèn)題,能夠記住長(zhǎng)期的。1996
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 黃潤(rùn)鵬;左文明;畢凌燕;;基于微博情緒信息的股票市場(chǎng)預(yù)測(cè)[J];管理工程學(xué)報(bào);2015年01期
2 張美英;何杰;;時(shí)間序列預(yù)測(cè)模型研究綜述[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2011年18期
3 周廣旭;一種新的時(shí)間序列分析算法及其在股票預(yù)測(cè)中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2005年09期
4 胡桔州,蘭秋軍;金融時(shí)間序列的數(shù)據(jù)挖掘技術(shù)與經(jīng)典統(tǒng)計(jì)模型的比較[J];系統(tǒng)工程;2005年06期
相關(guān)碩士學(xué)位論文 前3條
1 胡新辰;基于LSTM的語(yǔ)義關(guān)系分類(lèi)研究[D];哈爾濱工業(yè)大學(xué);2015年
2 尤作軍;時(shí)間序列分析在股票中的研究與應(yīng)用[D];沈陽(yáng)工業(yè)大學(xué);2014年
3 王洋;基于時(shí)間序列分析的IP語(yǔ)音收入預(yù)測(cè)[D];吉林大學(xué);2004年
本文編號(hào):2828878
本文鏈接:http://www.lk138.cn/jingjilunwen/jinrongzhengquanlunwen/2828878.html
最近更新
教材專(zhuān)著