基于隨機(jī)森林的信用卡欺詐檢測(cè)研究
發(fā)布時(shí)間:2021-01-14 04:34
隨著互聯(lián)網(wǎng)的發(fā)展和普及,信用卡支付行業(yè)得到迅速發(fā)展,信用卡成為網(wǎng)上購(gòu)物和線下消費(fèi)最受歡迎的支付方式,同時(shí)與信用卡交易相關(guān)的欺詐案件也在增加。欺詐交易分布在真實(shí)世界的交易中,簡(jiǎn)單的識(shí)別方法通常難以準(zhǔn)確地檢測(cè)到欺詐交易行為。為保障信用卡支付的安全,采用人工智能技術(shù)對(duì)信用卡交易進(jìn)行欺詐檢測(cè)顯得尤其重要。信用卡交易數(shù)據(jù)存在數(shù)據(jù)量大、數(shù)據(jù)集不平衡、計(jì)算復(fù)雜度大和識(shí)別率低等問題,本文通過研究不平衡數(shù)據(jù)分類方法、信用卡數(shù)據(jù)特征、隨機(jī)森林方法,提出了一種可以應(yīng)對(duì)高度不均衡數(shù)據(jù)分類問題的隨機(jī)森林方法。該方法首先對(duì)信用卡數(shù)據(jù)進(jìn)行過采樣處理,其次降低訓(xùn)練樣本維度,最后使用隨機(jī)森林進(jìn)行欺詐檢測(cè)識(shí)別。通過對(duì)信用卡數(shù)據(jù)特征的分析,提出一種通過聚類的方式,選擇更具代表性的正類樣本進(jìn)行過擬合的方法,有效的解決了信用卡數(shù)據(jù)集分類結(jié)果假陽性率高的問題,并通過實(shí)驗(yàn)證明該過擬合方法,同樣適用與信用卡數(shù)據(jù)集具有相似特征的金融數(shù)據(jù)。針對(duì)分類器精準(zhǔn)度低的問題,提出一種分類器決策樹的選擇方法,有效的提高了隨機(jī)森林算法的精準(zhǔn)度。本文通過大量的實(shí)驗(yàn),對(duì)信用卡欺詐方法的參數(shù)選擇和性能指標(biāo)進(jìn)行了分析,對(duì)使用隨機(jī)森林解決不均衡數(shù)據(jù)集的分類具有...
【文章來源】:哈爾濱理工大學(xué)黑龍江省
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
信用卡數(shù)據(jù)集特征字部分段示意圖
哈爾濱理工大學(xué)工程碩士學(xué)位論文-9-段正常交易量占當(dāng)天交易總量的比重,其曲線變化趨勢(shì)與當(dāng)天各時(shí)間段交易量基本相同,藍(lán)色曲線(-*-型)為每天當(dāng)前時(shí)段欺詐交易量占當(dāng)前時(shí)段交易總量比率(欺詐率),該曲線明顯峰值出現(xiàn)4次,其中三次出現(xiàn)時(shí)間均為凌晨1-4點(diǎn),另一次出現(xiàn)時(shí)間在11-12點(diǎn)。圖2-3交易時(shí)間與欺詐關(guān)系分析圖Fig.2-3Analysisoftherelationshipbetweentransactiontimeandfraud信用卡欺詐具有強(qiáng)烈的現(xiàn)實(shí)性,綜上所述,可以得出如下結(jié)論:(1)欺詐交易可以發(fā)生在每天的任意時(shí)段,凌晨之后的時(shí)間段發(fā)生的交易為欺詐交易的可能性較高。(2)在凌晨0-4點(diǎn),欺詐交易次數(shù)增加,由于正常交易量下降,導(dǎo)致欺詐率較高。該時(shí)間段的特征是欺詐交易不易被金融機(jī)構(gòu)工作人員審查、制止,也不易被受害人發(fā)現(xiàn),即使被受害人發(fā)現(xiàn)也不易及時(shí)止損。(3)在上午11-12點(diǎn),欺詐交易次數(shù)增加,由于正常交易量較高,雖然欺詐交易率出現(xiàn)峰值,但是欺詐交易率相比凌晨0-4時(shí)段較低。該時(shí)間段的特征是交易量較高,欺詐交易偽裝成正常交易。
哈爾濱理工大學(xué)工程碩士學(xué)位論文-10-圖2-4交易金額與欺詐關(guān)系分析圖Fig.2-4Analysisoftherelationshipbetweentransactionaccountandfraud圖2-4中,x坐標(biāo)區(qū)間為左開右閉,通過圖2-4可知,正常交易和欺詐交易都聚集在小額交易,欺詐交易的金額通常發(fā)生在千元以下,其中10元以下的欺詐交易占欺詐交易總量高達(dá)50%,1000元以上的欺詐交易僅為9筆,占欺詐交易總量不足2%。并未發(fā)生5千元以上的欺詐交易。導(dǎo)致欺詐交易金額如此分布的原因可能是,小額欺詐交易易于實(shí)現(xiàn),當(dāng)交易金額較大時(shí),金融機(jī)構(gòu)具有較高的保護(hù)措施。雖然欺詐交易主要發(fā)生在千元以下,但高額的欺詐一旦發(fā)生,所造成的損失也十分巨大,因此,并不能忽略千元以上的欺詐問題。2.1.3信用卡欺詐交易特征單個(gè)特征如交易金額和交易時(shí)間與欺詐交易相關(guān)性明顯,通過對(duì)信用卡數(shù)據(jù)進(jìn)行多次抽樣、重復(fù)聚類,發(fā)現(xiàn)部分被標(biāo)記為正類的欺詐交易行為,使用多種聚類方法,重復(fù)調(diào)整參數(shù),始終被聚類為負(fù)類,因此,把信用卡樣本根據(jù)數(shù)據(jù)特征和現(xiàn)實(shí)意義可以分為以下四類:(1)一類是,用戶正常用卡消費(fèi),屬于正常交易,非欺詐交易,在統(tǒng)計(jì)上非離群點(diǎn),符合用戶的用卡消費(fèi)行為習(xí)慣,占負(fù)類樣本的絕大部分。(2)二類是,用戶異常用卡消費(fèi),屬于正常交易,由實(shí)際環(huán)境因素導(dǎo)致
【參考文獻(xiàn)】:
期刊論文
[1]信用卡犯罪的刑法規(guī)制[J]. 劉銀龍. 稅務(wù)與經(jīng)濟(jì). 2016(03)
[2]一種隨機(jī)森林的混合算法[J]. 曹正鳳,謝邦昌,紀(jì)宏. 統(tǒng)計(jì)與決策. 2014(04)
[3]隨機(jī)森林理論淺析[J]. 董師師,黃哲學(xué). 集成技術(shù). 2013(01)
[4]信用卡詐騙罪的構(gòu)成、特點(diǎn)及對(duì)策[J]. 董燕萍. 河北法學(xué). 2012(03)
本文編號(hào):2976224
【文章來源】:哈爾濱理工大學(xué)黑龍江省
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
信用卡數(shù)據(jù)集特征字部分段示意圖
哈爾濱理工大學(xué)工程碩士學(xué)位論文-9-段正常交易量占當(dāng)天交易總量的比重,其曲線變化趨勢(shì)與當(dāng)天各時(shí)間段交易量基本相同,藍(lán)色曲線(-*-型)為每天當(dāng)前時(shí)段欺詐交易量占當(dāng)前時(shí)段交易總量比率(欺詐率),該曲線明顯峰值出現(xiàn)4次,其中三次出現(xiàn)時(shí)間均為凌晨1-4點(diǎn),另一次出現(xiàn)時(shí)間在11-12點(diǎn)。圖2-3交易時(shí)間與欺詐關(guān)系分析圖Fig.2-3Analysisoftherelationshipbetweentransactiontimeandfraud信用卡欺詐具有強(qiáng)烈的現(xiàn)實(shí)性,綜上所述,可以得出如下結(jié)論:(1)欺詐交易可以發(fā)生在每天的任意時(shí)段,凌晨之后的時(shí)間段發(fā)生的交易為欺詐交易的可能性較高。(2)在凌晨0-4點(diǎn),欺詐交易次數(shù)增加,由于正常交易量下降,導(dǎo)致欺詐率較高。該時(shí)間段的特征是欺詐交易不易被金融機(jī)構(gòu)工作人員審查、制止,也不易被受害人發(fā)現(xiàn),即使被受害人發(fā)現(xiàn)也不易及時(shí)止損。(3)在上午11-12點(diǎn),欺詐交易次數(shù)增加,由于正常交易量較高,雖然欺詐交易率出現(xiàn)峰值,但是欺詐交易率相比凌晨0-4時(shí)段較低。該時(shí)間段的特征是交易量較高,欺詐交易偽裝成正常交易。
哈爾濱理工大學(xué)工程碩士學(xué)位論文-10-圖2-4交易金額與欺詐關(guān)系分析圖Fig.2-4Analysisoftherelationshipbetweentransactionaccountandfraud圖2-4中,x坐標(biāo)區(qū)間為左開右閉,通過圖2-4可知,正常交易和欺詐交易都聚集在小額交易,欺詐交易的金額通常發(fā)生在千元以下,其中10元以下的欺詐交易占欺詐交易總量高達(dá)50%,1000元以上的欺詐交易僅為9筆,占欺詐交易總量不足2%。并未發(fā)生5千元以上的欺詐交易。導(dǎo)致欺詐交易金額如此分布的原因可能是,小額欺詐交易易于實(shí)現(xiàn),當(dāng)交易金額較大時(shí),金融機(jī)構(gòu)具有較高的保護(hù)措施。雖然欺詐交易主要發(fā)生在千元以下,但高額的欺詐一旦發(fā)生,所造成的損失也十分巨大,因此,并不能忽略千元以上的欺詐問題。2.1.3信用卡欺詐交易特征單個(gè)特征如交易金額和交易時(shí)間與欺詐交易相關(guān)性明顯,通過對(duì)信用卡數(shù)據(jù)進(jìn)行多次抽樣、重復(fù)聚類,發(fā)現(xiàn)部分被標(biāo)記為正類的欺詐交易行為,使用多種聚類方法,重復(fù)調(diào)整參數(shù),始終被聚類為負(fù)類,因此,把信用卡樣本根據(jù)數(shù)據(jù)特征和現(xiàn)實(shí)意義可以分為以下四類:(1)一類是,用戶正常用卡消費(fèi),屬于正常交易,非欺詐交易,在統(tǒng)計(jì)上非離群點(diǎn),符合用戶的用卡消費(fèi)行為習(xí)慣,占負(fù)類樣本的絕大部分。(2)二類是,用戶異常用卡消費(fèi),屬于正常交易,由實(shí)際環(huán)境因素導(dǎo)致
【參考文獻(xiàn)】:
期刊論文
[1]信用卡犯罪的刑法規(guī)制[J]. 劉銀龍. 稅務(wù)與經(jīng)濟(jì). 2016(03)
[2]一種隨機(jī)森林的混合算法[J]. 曹正鳳,謝邦昌,紀(jì)宏. 統(tǒng)計(jì)與決策. 2014(04)
[3]隨機(jī)森林理論淺析[J]. 董師師,黃哲學(xué). 集成技術(shù). 2013(01)
[4]信用卡詐騙罪的構(gòu)成、特點(diǎn)及對(duì)策[J]. 董燕萍. 河北法學(xué). 2012(03)
本文編號(hào):2976224
本文鏈接:http://www.lk138.cn/guanlilunwen/lindaojc/2976224.html
最近更新
教材專著