基于話單大數(shù)據(jù)的詐騙電話識(shí)別與響應(yīng)模型研究
發(fā)布時(shí)間:2020-11-11 00:33
目前,我國電信網(wǎng)絡(luò)詐騙長期處于高發(fā)態(tài)勢,人民群眾財(cái)產(chǎn)安全面臨嚴(yán)重威脅。其中,電話詐騙是最普遍、后果最嚴(yán)重的一種。但由于電話詐騙組織嚴(yán)密、詐騙手段隱蔽、犯罪涉案鏈條長,打擊治理難;且對電話詐騙的事后打擊并未達(dá)到治標(biāo)治本的目標(biāo)。如何在事前事中及時(shí)發(fā)現(xiàn)電話詐騙、阻止電話詐騙,防止電話詐騙的發(fā)生,將其對人民群眾和社會(huì)的危害降到最低,就成為了一個(gè)非常重要的研究課題。本文從話單大數(shù)據(jù)的角度切入,通過數(shù)據(jù)挖掘的技術(shù)手段,對詐騙電話通話話單進(jìn)行離線分析,構(gòu)建詐騙電話識(shí)別與響應(yīng)模型,識(shí)別出特定時(shí)間內(nèi)的詐騙電話,為反電信網(wǎng)絡(luò)詐騙平臺(tái)提供有效的技術(shù)支撐。首先,實(shí)現(xiàn)了話單大數(shù)據(jù)的預(yù)處理。搭建了基于配置開放式的數(shù)據(jù)ETL架構(gòu),支撐了運(yùn)營商將業(yè)務(wù)數(shù)據(jù)庫中的MC話單數(shù)據(jù)保存到反電信網(wǎng)絡(luò)詐騙中心的數(shù)據(jù)倉庫中;基于PCA主成分分析法提取了MC話單數(shù)據(jù)的屬性特征;通過號碼所屬類別對話單數(shù)據(jù)進(jìn)行分類并增加了特征字段,實(shí)現(xiàn)了將通信運(yùn)營商的MC話單數(shù)據(jù)處理為具有完備特征值的CDR話單數(shù)據(jù)。其次,提出了一種詐騙電話識(shí)別模型。提取了號碼活躍度特征、號碼通話行為特征、社交網(wǎng)絡(luò)特征、配對特征、地區(qū)特征及虛擬配對特征,構(gòu)建實(shí)施詐騙的行為事件流;基于隨機(jī)森林算法離線訓(xùn)練得到詐騙電話識(shí)別模型,并通過調(diào)優(yōu)測試提高了模型的性能。實(shí)現(xiàn)了詐騙電話的在線檢測,基于Spark Streaming實(shí)時(shí)流框架,統(tǒng)計(jì)得到可疑號碼通話行為特征,判定號碼信用度;加載詐騙電話識(shí)別模型,通過建立公共分析邏輯、獲取號碼分析邏輯、獲取通話記錄分析邏輯,識(shí)別得到詐騙電話以及深淺度受害用戶,并通過參數(shù)調(diào)優(yōu)實(shí)驗(yàn)滿足了大數(shù)據(jù)吞吐量需求。最后,提出了一種基于多方聯(lián)動(dòng)的詐騙電話響應(yīng)模型。通過共享數(shù)據(jù)、協(xié)同處置,在電信網(wǎng)絡(luò)詐騙的事前、事中、事后進(jìn)行響應(yīng),通過阻止受害者受騙來降低詐騙分子的得逞率,保護(hù)人民群眾財(cái)產(chǎn)安全。
【學(xué)位單位】:中國人民公安大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:D631.1
【部分圖文】:
話單數(shù)據(jù)信網(wǎng)絡(luò)中用戶通信信號在移動(dòng)臺(tái)、基站、基站控制中心以及移實(shí)現(xiàn)對這些通信信號的分析、處理,引入一系列通信操作控制信道共用等。信令就是用來表示移動(dòng)通信系統(tǒng)狀態(tài)信息和完成方法。信系統(tǒng)的信令按應(yīng)用范圍可分為 MSC(Mobile Switching Cen與 PSTN(Public Switch Telephone Network,公用電話交換網(wǎng)令、MSC 與 BS(Base Station,基站)間的信令以及 MS(M BS 之間的信令等,各通信運(yùn)營商公司的話單數(shù)據(jù)中均存儲(chǔ)著數(shù)據(jù)成為分析識(shí)別詐騙電話的數(shù)據(jù)基礎(chǔ)。移動(dòng)為例,其上網(wǎng)日志留存系統(tǒng)的數(shù)據(jù)合成服務(wù)器以 CS(Circ MC 接口為規(guī)范,產(chǎn)生全量話單數(shù)據(jù)(以下簡稱 MC 話單)
圖 2.2 隨機(jī)森林分類結(jié)果判定2.待選特征的隨機(jī)選取在待選特征的隨機(jī)選取中采用隨機(jī)子空間思想,即在對隨機(jī)森林中的子決策樹點(diǎn)進(jìn)行分裂時(shí),從全部屬性中以同等概率隨機(jī)抽取一個(gè)屬性子集(通+ 1個(gè)屬性, 為特征總數(shù)),再從該屬性子集中選擇一個(gè)最優(yōu)屬性對結(jié)裂。隨機(jī)子空間采用隨機(jī)的部分特征替代所有特征來對每個(gè)分類器進(jìn)行訓(xùn)練,了分類器間的相關(guān)性,提升分類性能。如圖 2.3 所示,白色方塊代表所有可被選擇的特征,即待選特征,黑色方塊代征。左側(cè)為一棵決策樹的特征選取過程,通過在待選特征中選取最優(yōu)的分裂特裂;右側(cè)為一個(gè)隨機(jī)森林中的子決策樹的特征選取過程。
圖 2.3 隨機(jī)森林特征選擇過程在 Python 環(huán)境下使用隨機(jī)森林算法來構(gòu)建數(shù)據(jù)分類模型時(shí),通過引用 sklearn 成。以如下例子說明:特征是通過統(tǒng)計(jì)得到的 A、B、C 三個(gè)指標(biāo),訓(xùn)練樣本的從2018年1月1日到2018年2月1日期間的A、B、C指標(biāo),訓(xùn)練樣本的類別是1月1日到2018年2月1日期間通信號碼為詐騙電話,若屬于詐騙電話結(jié)果為Tr則為 False,測試樣本是 2018 年 3 月 1 日當(dāng)天的三個(gè)指標(biāo)以及是否為詐騙電話。 Random Forest 判斷的結(jié)果和實(shí)際是否屬于詐騙電話情況相符,則輸出 True,若果和實(shí)際情況不符,則輸出False。從上述隨機(jī)森林的基本工作原理的闡述可以看出,隨機(jī)森林算法支持高度并行實(shí)現(xiàn)快速訓(xùn)練大數(shù)據(jù)級別的話單數(shù)據(jù)樣本;且隨機(jī)選擇決策樹節(jié)點(diǎn)來劃分特征,單樣本在特征維度較高的時(shí)候仍能保持模型的高效訓(xùn)練;采用隨機(jī)采樣,使得訓(xùn)模型方差小、泛化能力強(qiáng);對部分特征缺失不敏感,對通信話單數(shù)據(jù)采集不完整錯(cuò)誤等情況具有一定的容錯(cuò)性[30],因此在本文對詐騙電話識(shí)別模型的研究中采用
【參考文獻(xiàn)】
本文編號:2878512
【學(xué)位單位】:中國人民公安大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:D631.1
【部分圖文】:
話單數(shù)據(jù)信網(wǎng)絡(luò)中用戶通信信號在移動(dòng)臺(tái)、基站、基站控制中心以及移實(shí)現(xiàn)對這些通信信號的分析、處理,引入一系列通信操作控制信道共用等。信令就是用來表示移動(dòng)通信系統(tǒng)狀態(tài)信息和完成方法。信系統(tǒng)的信令按應(yīng)用范圍可分為 MSC(Mobile Switching Cen與 PSTN(Public Switch Telephone Network,公用電話交換網(wǎng)令、MSC 與 BS(Base Station,基站)間的信令以及 MS(M BS 之間的信令等,各通信運(yùn)營商公司的話單數(shù)據(jù)中均存儲(chǔ)著數(shù)據(jù)成為分析識(shí)別詐騙電話的數(shù)據(jù)基礎(chǔ)。移動(dòng)為例,其上網(wǎng)日志留存系統(tǒng)的數(shù)據(jù)合成服務(wù)器以 CS(Circ MC 接口為規(guī)范,產(chǎn)生全量話單數(shù)據(jù)(以下簡稱 MC 話單)
圖 2.2 隨機(jī)森林分類結(jié)果判定2.待選特征的隨機(jī)選取在待選特征的隨機(jī)選取中采用隨機(jī)子空間思想,即在對隨機(jī)森林中的子決策樹點(diǎn)進(jìn)行分裂時(shí),從全部屬性中以同等概率隨機(jī)抽取一個(gè)屬性子集(通+ 1個(gè)屬性, 為特征總數(shù)),再從該屬性子集中選擇一個(gè)最優(yōu)屬性對結(jié)裂。隨機(jī)子空間采用隨機(jī)的部分特征替代所有特征來對每個(gè)分類器進(jìn)行訓(xùn)練,了分類器間的相關(guān)性,提升分類性能。如圖 2.3 所示,白色方塊代表所有可被選擇的特征,即待選特征,黑色方塊代征。左側(cè)為一棵決策樹的特征選取過程,通過在待選特征中選取最優(yōu)的分裂特裂;右側(cè)為一個(gè)隨機(jī)森林中的子決策樹的特征選取過程。
圖 2.3 隨機(jī)森林特征選擇過程在 Python 環(huán)境下使用隨機(jī)森林算法來構(gòu)建數(shù)據(jù)分類模型時(shí),通過引用 sklearn 成。以如下例子說明:特征是通過統(tǒng)計(jì)得到的 A、B、C 三個(gè)指標(biāo),訓(xùn)練樣本的從2018年1月1日到2018年2月1日期間的A、B、C指標(biāo),訓(xùn)練樣本的類別是1月1日到2018年2月1日期間通信號碼為詐騙電話,若屬于詐騙電話結(jié)果為Tr則為 False,測試樣本是 2018 年 3 月 1 日當(dāng)天的三個(gè)指標(biāo)以及是否為詐騙電話。 Random Forest 判斷的結(jié)果和實(shí)際是否屬于詐騙電話情況相符,則輸出 True,若果和實(shí)際情況不符,則輸出False。從上述隨機(jī)森林的基本工作原理的闡述可以看出,隨機(jī)森林算法支持高度并行實(shí)現(xiàn)快速訓(xùn)練大數(shù)據(jù)級別的話單數(shù)據(jù)樣本;且隨機(jī)選擇決策樹節(jié)點(diǎn)來劃分特征,單樣本在特征維度較高的時(shí)候仍能保持模型的高效訓(xùn)練;采用隨機(jī)采樣,使得訓(xùn)模型方差小、泛化能力強(qiáng);對部分特征缺失不敏感,對通信話單數(shù)據(jù)采集不完整錯(cuò)誤等情況具有一定的容錯(cuò)性[30],因此在本文對詐騙電話識(shí)別模型的研究中采用
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 李祥池;;基于ELK和Spark Streaming的日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電子科學(xué)技術(shù);2015年06期
2 周國民;陳光宣;周銀座;;基于CDR分析的電信詐騙用戶行為的研究[J];信息安全與通信保密;2015年11期
3 秦帥;陳剛;;近年來電信詐騙案件偵查研究綜述[J];公安學(xué)刊(浙江警察學(xué)院學(xué)報(bào));2015年03期
4 李欣海;;隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J];應(yīng)用昆蟲學(xué)報(bào);2013年04期
5 韓勝兵;;電信詐騙犯罪的起源、特點(diǎn)及防治[J];中國刑警學(xué)院學(xué)報(bào);2013年02期
6 洪新德;姚理;;試論電信詐騙的類型及防控[J];長江大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2010年06期
7 孫立智;;論網(wǎng)絡(luò)犯罪及其偵查對策[J];湖北警官學(xué)院學(xué)報(bào);2008年04期
本文編號:2878512
本文鏈接:http://www.lk138.cn/shekelunwen/gongan/2878512.html
教材專著