基于多項式擬合與支持向量機的股票關(guān)鍵拐點預(yù)測
第 1 章 緒論
1.1 研究背景與意義
隨著社會的穩(wěn)定發(fā)展,普通民眾越來越熱衷于使用證券投資等理財方式進行理財,尤其股票的投資最受歡迎。股票投資擁有門檻低、群眾參與度高等特點,深受廣大投資者的歡迎。在傳統(tǒng)的投資方式中,投資者對于股票市場的判斷主要依據(jù)市場信息和政策信息,還有一些投資者以技術(shù)指標等分析手段對投資目標進行選取。以上投資方式不但效率低下,還會放大投資者性格上貪婪和投機等弱點,造成其錯過最佳的投資時機。 近幾年來一種名為量化投資的新興投資形式逐漸被中國投資者所熟知。量化投資的定義為:利用計算機相關(guān)技術(shù)對證券投資相關(guān)信息進行分析提取,獲得一個投資模型,并利用該投資模型實現(xiàn)對投資策略的指導。 量化投資者通過交易模型對股票數(shù)據(jù)進行分析,符合該交易模型的股票意味著該股票可以進行投資。量化投資通過程序化的操作方式有效規(guī)避了人類貪婪和投機的心理。量化投資基于計算機技術(shù)進行股票分析,依托計算機對數(shù)據(jù)處理上的優(yōu)勢,擁有比人類高得多的效率,可以對全部市場的全部股票所產(chǎn)生的海量交易信息數(shù)據(jù)進行分析,這一點對于人類來說在實踐上十分困難。量化投資也可以通過數(shù)學工具對某支股票的風險進行分析,提前提醒投資者投資的風險,并作為建議供投資者參考。 量化投資為投資者提供了選股的策略指導,利用計算機的特點,規(guī)避了人性情緒化投資和效率偏低的特點。由于量化投資在中國股市中剛剛起步,所以該方向的研究意義深遠。 本文的研究目的就是基于量化投資的特點,利用計算機在數(shù)據(jù)處理上的優(yōu)勢,對存在的大量股票信息數(shù)據(jù)進行處理,通過多項式擬合算法提取出股票離散歷史數(shù)據(jù)中的關(guān)鍵拐點,利用機器學習的分類算法,在這些拐點與非拐點集合中訓練,得出一個可靠的投資模型。通過該模型判斷當前股票市場是否處于股票價格關(guān)鍵拐點,以此來為股票投資者提供決策依據(jù)。本文的這種方法規(guī)避了傳統(tǒng)預(yù)測方法中對股票完整曲線的預(yù)測上的精度低噪聲大等問題,通過降低問題復雜度來提高預(yù)測精度。
.........
1.2 國內(nèi)外研究現(xiàn)狀
對于股票預(yù)測分析的常用方法有以下幾種: 1.時間序列分析法:文獻[1]將股票描述為一個非線性不穩(wěn)定的時間序列,并利用支持向量機的回歸算法對時間序列模型進行分析預(yù)測。 2.神經(jīng)網(wǎng)絡(luò)法:神經(jīng)網(wǎng)絡(luò)是一種智能化方法,具有擬合非線性函數(shù)的學習能力,有較強的健壯性,能夠?qū)⒃肼暈V除[2],可以應(yīng)用到股票預(yù)測中。 3.決策樹預(yù)測:這種方式主要基于決策樹,通過對互聯(lián)網(wǎng)自媒體中,專家的微博,博客等信息發(fā)布工具進行抓取,基于專家的信息進行構(gòu)造,形成一個決策樹并以此作為預(yù)測手段。該方法的股票預(yù)測系統(tǒng)與抓取的專家信息關(guān)系較大,結(jié)果取決于其他人,不能構(gòu)造出屬于自己的預(yù)測體系。 4.輿論預(yù)測:美國印第安納大學的約翰?博倫(Johan Bollen)等人[3],通過在著名社交網(wǎng)站 Twitter 上獲取的信息,利用可以追蹤情緒的軟件工具將 Twitter 上網(wǎng)友的情緒分為六個類別,分別是:冷靜、警惕、確信、活力、友善和幸福。通過使用這些情緒信息來挖掘民眾對于某些事件的態(tài)度,以此來預(yù)測上市公司股票的價值,獲得了較好的預(yù)測結(jié)果。 文獻[5]對時間序列法和神經(jīng)網(wǎng)絡(luò)法兩種方式進行了分析比較,得出結(jié)論:相較于ARIMA 時間序列模型的預(yù)測精度,神經(jīng)網(wǎng)絡(luò)的預(yù)測更加準確一些,其根本原因是因為股票市場中包含許多影響因素,對于這些變化的非線性行為,ARIMA 時間序列模型作為先行模型具有一些缺點,而神經(jīng)網(wǎng)絡(luò)的非線性映射能力可以將這些影響因素區(qū)分出來[3],所以二者中神經(jīng)網(wǎng)絡(luò)更好。
..........
第 2 章 股票技術(shù)分析與機器學習技術(shù)
證券的分析技術(shù)主要分為基本面分析和技術(shù)分析兩大類。基本面分析的目的是為了判斷股價現(xiàn)有的價位是否正常,并根據(jù)宏觀政策、領(lǐng)域發(fā)展趨勢或者未來社會走勢等信息預(yù)測該支股票今后的發(fā)展,該方法適用于判斷長期持有一支股票是否有盈利的可能。而技術(shù)分析主要是用來預(yù)測股票短期的趨勢,通過技術(shù)指標判斷出買入時機與賣出時機,價低進入價高退出,獲得差價從而盈利。由于基本面分析主要由市場形勢,國家政策等宏觀不可控因素決定,所以本文使用股票的技術(shù)分析方法判斷股票漲跌。
2.1 技術(shù)分析的前提
由于每個人對股票的分析以及看法各不相同并且每個人購入股票的習慣難以改變。所以在股票歷史中的某種規(guī)則可能會反映在今后的股票市場的變化中。通過對歷史數(shù)據(jù)的分析挖掘,很有可能會獲取到某種盈利策略.如果股票的價格以一種完全隨機的方式進行變化,那么預(yù)測并沒有太大的作用。但是由于各類趨勢的存在,,使得股票的價格不是以一個完全隨機的方式變化,而是根據(jù)股民心理、買入賣出數(shù)量和小道消息等一系列原因發(fā)生變化。在獲得某種趨勢信息后可以有一定的時間進行買與賣操作,從而獲利。能夠影響股票價格的因素一旦產(chǎn)生,在股票的價格曲線中可以觀測到該因素對股票價格的影響。 經(jīng)過文獻的閱讀發(fā)現(xiàn),文獻[4]的作者通過多次重復實驗,證明了技術(shù)分析在中國股票市場中應(yīng)用的有效性。[4]這表明了技術(shù)分析在中國股票市場的有效性,為本文使用技術(shù)分析的手段預(yù)測股票關(guān)鍵拐點提供了理論依據(jù)。
........
2.2 常用技術(shù)分析的手段
常用的技術(shù)分析主要有通道突破,相對強弱指標,均線等等,各自有不同的特點和應(yīng)用領(lǐng)域:通道突破的主要原理是根據(jù)某種算法模擬出股票價格所擁有的最大最小區(qū)間,當股票突破了曲線上限或下限時說明當前股票的狀態(tài)超過了股票應(yīng)有的正常值,所以會向反方向調(diào)整。均線又稱移動平均線,該策略算法比較簡單,將某一時間段所有的收盤價求和然后除以該周期,得到一個平均值。均值的時間段長度可以根據(jù)需求進行變換,在實際應(yīng)用中 5 日、10 日、20 日和 30 日較為常見。在股票市場中,每一天都能根據(jù)之前的k 天求出一個平均值,多日的平均值放在一起即可得到一條曲線,該條曲線就是移動平均線。根據(jù)均線時間周期的大小可以將均線分為短期均線、中期均線和長期均線三種,適用范圍各自不同。在實際中往往綜合這三種均線的不同組合形式來判斷預(yù)測股市的行情。移動平均線可以用來作為投資人士判斷買點賣點的依據(jù),可以簡單快捷的表現(xiàn)出股票價格的走勢。 對于均線交易策略,文獻[6]證明了其合理性,通過對移動平均交易策略的深入研究得出了在均線規(guī)則下頭投資者可以獲得超額收益。
.........【學位級別】:碩士
第 3 章 基于多項式擬合的離散數(shù)據(jù)趨勢關(guān)鍵拐點識別 ........ 18
3.1 實驗意義 ......... 18
3.2 傳統(tǒng)的趨勢拐點獲取方法 ........... 18
3.3 改進思路 ......... 19
3.3.1 插值擬合與多項式擬合的比較選擇 ....... 20
3.4 基于多項式擬合的離散數(shù)據(jù)趨勢拐點識別 ..... 21
3.5 效果對比 ......... 27
第 4 章 基于支持向量機的股票關(guān)鍵拐點預(yù)測 ........ 32
4.1 實驗架構(gòu) ......... 32
4.2 歷史數(shù)據(jù)抓取 ..... 33
4.2.1 數(shù)據(jù)獲取方式 ......... 33
4.2.2 數(shù)據(jù)保存格式 ......... 33
4.3 收盤價關(guān)鍵拐點識別 ....... 33
4.4 特征向量生成 ..... 36
4.5 兩類分類任務(wù)以及特征向量整合 ..... 41
4.6 支持向量機核函數(shù)的選擇 ........... 44
第 5 章 結(jié)果分析 ........ 50
5. 1 關(guān)鍵拐點應(yīng)用效果 ........ 50
5.2 效果對比 ......... 51
第 5 章 結(jié)果分析
5. 1 關(guān)鍵拐點應(yīng)用效果
在測試數(shù)據(jù)中應(yīng)用訓練所得出的向上關(guān)鍵拐點模型。經(jīng)過模型分類后,取值為 0的日期表示該點不是向上關(guān)鍵拐點,取值為 1 的值表示該點是向上關(guān)鍵拐點并且可以進行買入操作。取向上關(guān)鍵拐點集合中的一個元素拿到股票軟件中進行比對,由下圖5.1 可知,在 2003 年 9 月 18 日之后,股市開啟了一段持續(xù)數(shù)天的上漲趨勢,中間雖有震蕩,但主體價格還是上漲的。在測試數(shù)據(jù)中應(yīng)用訓練所得出的向下關(guān)鍵拐點模型。經(jīng)過模型分類后,取值為 0的日期表示該點不是向下關(guān)鍵拐點,取值為 1 的值表示該點是向下關(guān)鍵拐點,可以進行賣出操作。在股票軟件中找出該向下拐點的日期,在股價趨勢圖中進行比對,由圖5.2 可知,從那天起股票的價格開啟了一段持續(xù)多天的下降趨勢。下降幅度非常大。
.......
總結(jié)
在實驗的采樣階段,區(qū)別于其他的股票關(guān)鍵拐點預(yù)測,本文提出了基于多項式擬合的股票關(guān)鍵拐點識別方式。通過此方法提取出股票收盤價以及各個指標的關(guān)鍵拐點。在分類模型的訓練階段,本文提出以能反映的股票拐點信息的 MACD、KDJ 和換手率等技術(shù)指標作為支持向量機的特征向量的方法,以分類模型的方式而不是回歸模型的方式對股票的關(guān)鍵拐點進行預(yù)測,最終,通過實驗表明,該方法可以為投資者提供一定的參考。 為了完成實驗,本文所做的具體工作如下所示:
(1)通過閱讀大量參考文獻,得知了技術(shù)分析在中國股票市場的有效性,為下文通過技術(shù)分析指標進行股價關(guān)鍵拐點預(yù)測奠定了理論基礎(chǔ)。
(2)通過閱讀文獻,了解了應(yīng)用核函數(shù)的支持向量機在非線性分類預(yù)測上的優(yōu)勢,選擇支持向量機作為實驗的基本算法。
(3)通過實驗分析了在離散數(shù)據(jù)集合中傳統(tǒng)的拐點識別方式的缺點。為了改進這些缺點,提出將多項式擬合法應(yīng)用到離散數(shù)據(jù)當中來獲取其關(guān)鍵拐點。
(4)為了獲得多項式擬合方程的最佳方程階數(shù),本文通過多次實驗對不同階數(shù)的多項式方程擬合曲線進行分析,通過其平均漲幅,平均持續(xù)時間,漲幅與離散時間的標準差以及誤差率,最終得出結(jié)論:13 階的多項式擬合方程在 50 個數(shù)據(jù)的數(shù)據(jù)集中擁有最佳的擬合效果。
(5)在多項式擬合識別股票關(guān)鍵拐點的實際應(yīng)用過程中,發(fā)現(xiàn)由于股票數(shù)據(jù)量巨大,該方法不能有效的工作。所以對多項式擬合方法的擬合過程進行改進。通過分治法的思想,把多項式擬合識別關(guān)鍵拐點這個方法應(yīng)用到了大量數(shù)據(jù)集合中。完成了股票關(guān)鍵拐點的采樣識別。
.........
參考文獻(略)
本文編號:98602
本文鏈接:http://www.lk138.cn/wenshubaike/lwfw/98602.html