基于話單大數(shù)據(jù)的詐騙電話識(shí)別與響應(yīng)模型研究

發(fā)布時(shí)間：2020-11-11 00:33

　　目前,我國電信網(wǎng)絡(luò)詐騙長期處于高發(fā)態(tài)勢,人民群眾財(cái)產(chǎn)安全面臨嚴(yán)重威脅。其中,電話詐騙是最普遍、后果最嚴(yán)重的一種。但由于電話詐騙組織嚴(yán)密、詐騙手段隱蔽、犯罪涉案鏈條長,打擊治理難;且對電話詐騙的事后打擊并未達(dá)到治標(biāo)治本的目標(biāo)。如何在事前事中及時(shí)發(fā)現(xiàn)電話詐騙、阻止電話詐騙,防止電話詐騙的發(fā)生,將其對人民群眾和社會(huì)的危害降到最低,就成為了一個(gè)非常重要的研究課題。本文從話單大數(shù)據(jù)的角度切入,通過數(shù)據(jù)挖掘的技術(shù)手段,對詐騙電話通話話單進(jìn)行離線分析,構(gòu)建詐騙電話識(shí)別與響應(yīng)模型,識(shí)別出特定時(shí)間內(nèi)的詐騙電話,為反電信網(wǎng)絡(luò)詐騙平臺(tái)提供有效的技術(shù)支撐。首先,實(shí)現(xiàn)了話單大數(shù)據(jù)的預(yù)處理。搭建了基于配置開放式的數(shù)據(jù)ETL架構(gòu),支撐了運(yùn)營商將業(yè)務(wù)數(shù)據(jù)庫中的MC話單數(shù)據(jù)保存到反電信網(wǎng)絡(luò)詐騙中心的數(shù)據(jù)倉庫中;基于PCA主成分分析法提取了MC話單數(shù)據(jù)的屬性特征;通過號(hào)碼所屬類別對話單數(shù)據(jù)進(jìn)行分類并增加了特征字段,實(shí)現(xiàn)了將通信運(yùn)營商的MC話單數(shù)據(jù)處理為具有完備特征值的CDR話單數(shù)據(jù)。其次,提出了一種詐騙電話識(shí)別模型。提取了號(hào)碼活躍度特征、號(hào)碼通話行為特征、社交網(wǎng)絡(luò)特征、配對特征、地區(qū)特征及虛擬配對特征,構(gòu)建實(shí)施詐騙的行為事件流;基于隨機(jī)森林算法離線訓(xùn)練得到詐騙電話識(shí)別模型,并通過調(diào)優(yōu)測試提高了模型的性能。實(shí)現(xiàn)了詐騙電話的在線檢測,基于Spark Streaming實(shí)時(shí)流框架,統(tǒng)計(jì)得到可疑號(hào)碼通話行為特征,判定號(hào)碼信用度;加載詐騙電話識(shí)別模型,通過建立公共分析邏輯、獲取號(hào)碼分析邏輯、獲取通話記錄分析邏輯,識(shí)別得到詐騙電話以及深淺度受害用戶,并通過參數(shù)調(diào)優(yōu)實(shí)驗(yàn)滿足了大數(shù)據(jù)吞吐量需求。最后,提出了一種基于多方聯(lián)動(dòng)的詐騙電話響應(yīng)模型。通過共享數(shù)據(jù)、協(xié)同處置,在電信網(wǎng)絡(luò)詐騙的事前、事中、事后進(jìn)行響應(yīng),通過阻止受害者受騙來降低詐騙分子的得逞率,保護(hù)人民群眾財(cái)產(chǎn)安全。
【學(xué)位單位】：中國人民公安大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2018
【中圖分類】：D631.1
【部分圖文】：

移動(dòng)通信網(wǎng)絡(luò),話單數(shù)據(jù),信令

話單數(shù)據(jù)信網(wǎng)絡(luò)中用戶通信信號(hào)在移動(dòng)臺(tái)、基站、基站控制中心以及移實(shí)現(xiàn)對這些通信信號(hào)的分析、處理，引入一系列通信操作控制信道共用等。信令就是用來表示移動(dòng)通信系統(tǒng)狀態(tài)信息和完成方法。信系統(tǒng)的信令按應(yīng)用范圍可分為 MSC（Mobile Switching Cen與 PSTN（Public Switch Telephone Network，公用電話交換網(wǎng)令、MSC 與 BS（Base Station，基站）間的信令以及 MS（M BS 之間的信令等，各通信運(yùn)營商公司的話單數(shù)據(jù)中均存儲(chǔ)著數(shù)據(jù)成為分析識(shí)別詐騙電話的數(shù)據(jù)基礎(chǔ)。移動(dòng)為例，其上網(wǎng)日志留存系統(tǒng)的數(shù)據(jù)合成服務(wù)器以 CS（Circ MC 接口為規(guī)范，產(chǎn)生全量話單數(shù)據(jù)（以下簡稱 MC 話單）

森林分類

圖 2.2 隨機(jī)森林分類結(jié)果判定2.待選特征的隨機(jī)選取在待選特征的隨機(jī)選取中采用隨機(jī)子空間思想，即在對隨機(jī)森林中的子決策樹點(diǎn)進(jìn)行分裂時(shí)，從全部屬性中以同等概率隨機(jī)抽取一個(gè)屬性子集（通+ 1個(gè)屬性，為特征總數(shù)），再從該屬性子集中選擇一個(gè)最優(yōu)屬性對結(jié)裂。隨機(jī)子空間采用隨機(jī)的部分特征替代所有特征來對每個(gè)分類器進(jìn)行訓(xùn)練，了分類器間的相關(guān)性，提升分類性能。如圖 2.3 所示，白色方塊代表所有可被選擇的特征，即待選特征，黑色方塊代征。左側(cè)為一棵決策樹的特征選取過程，通過在待選特征中選取最優(yōu)的分裂特裂；右側(cè)為一個(gè)隨機(jī)森林中的子決策樹的特征選取過程。

過程圖,特征選擇,森林,過程

圖 2.3 隨機(jī)森林特征選擇過程在 Python 環(huán)境下使用隨機(jī)森林算法來構(gòu)建數(shù)據(jù)分類模型時(shí)，通過引用 sklearn 成。以如下例子說明：特征是通過統(tǒng)計(jì)得到的 A、B、C 三個(gè)指標(biāo)，訓(xùn)練樣本的從2018年1月1日到2018年2月1日期間的A、B、C指標(biāo)，訓(xùn)練樣本的類別是1月1日到2018年2月1日期間通信號(hào)碼為詐騙電話，若屬于詐騙電話結(jié)果為Tr則為 False，測試樣本是 2018 年 3 月 1 日當(dāng)天的三個(gè)指標(biāo)以及是否為詐騙電話。 Random Forest 判斷的結(jié)果和實(shí)際是否屬于詐騙電話情況相符，則輸出 True，若果和實(shí)際情況不符，則輸出False。從上述隨機(jī)森林的基本工作原理的闡述可以看出，隨機(jī)森林算法支持高度并行實(shí)現(xiàn)快速訓(xùn)練大數(shù)據(jù)級別的話單數(shù)據(jù)樣本；且隨機(jī)選擇決策樹節(jié)點(diǎn)來劃分特征，單樣本在特征維度較高的時(shí)候仍能保持模型的高效訓(xùn)練；采用隨機(jī)采樣，使得訓(xùn)模型方差小、泛化能力強(qiáng)；對部分特征缺失不敏感，對通信話單數(shù)據(jù)采集不完整錯(cuò)誤等情況具有一定的容錯(cuò)性[30]，因此在本文對詐騙電話識(shí)別模型的研究中采用
【參考文獻(xiàn)】

相關(guān)期刊論文前7條

1 李祥池;;基于ELK和Spark Streaming的日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電子科學(xué)技術(shù);2015年06期

2 周國民;陳光宣;周銀座;;基于CDR分析的電信詐騙用戶行為的研究[J];信息安全與通信保密;2015年11期

3 秦帥;陳剛;;近年來電信詐騙案件偵查研究綜述[J];公安學(xué)刊(浙江警察學(xué)院學(xué)報(bào));2015年03期

4 李欣海;;隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J];應(yīng)用昆蟲學(xué)報(bào);2013年04期

5 韓勝兵;;電信詐騙犯罪的起源、特點(diǎn)及防治[J];中國刑警學(xué)院學(xué)報(bào);2013年02期

6 洪新德;姚理;;試論電信詐騙的類型及防控[J];長江大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2010年06期

7 孫立智;;論網(wǎng)絡(luò)犯罪及其偵查對策[J];湖北警官學(xué)院學(xué)報(bào);2008年04期

本文編號(hào)：2878512

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://lk138.cn/shekelunwen/gongan/2878512.html

上一篇：蘭州市機(jī)動(dòng)車限行的環(huán)境效應(yīng)及政策再設(shè)計(jì)
下一篇：社區(qū)矯正人員隱私權(quán)的保護(hù)范圍

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于話單大數(shù)據(jù)的詐騙電話識(shí)別與響應(yīng)模型研究