洗錢防制
廖峻毅 資工三B 108305006
洗錢防制
1
研究背景與目的
洗錢防制對於金融產業是一項重大的挑戰。犯罪集團會利用各種方式將非法資金洗白,若金融機構不積極審查其所經手的交易,則會變成犯罪集團的洗錢渠道,損害自身商譽。
本次研究將結合玉山銀行在T-Brain(AI cup)所舉辦的「你說可疑不可疑?疑似洗錢交易預測」,利用機器學習的方式預測可疑交易名單候選人可能性,降低可疑活動的誤報率、更精準的篩選出應進行申報的可疑行為。希望藉由機器學習技術的應用,將人力資源留給較為艱難且複雜的案件審核作業中,為健康的金融環境盡一份心力,並獲得比賽的成績。
洗錢防制
2
資料前處理
洗錢防制
3
顧客資訊custinfo | |
cust_id | 顧客編號 |
alert_key | alert主鍵 |
risk_rank | 風險等級 |
occupation_code | 職業 |
total_asset | 行內總資產 |
AGE | 年齡 |
Alert 時間 alert date | |
alert_key | alert主鍵 |
date | alert主鍵發生日期 |
Label y(通報sar與否) y | |
alert_key | alert主鍵 |
sar_flag | alert主鍵報SAR與否 |
顧客信用借款資訊 ccba | |
cust_id | 顧客編號 |
lupay | 上月繳款總額 |
byymm | 帳務年月 |
cycam | 信用額度 |
usgam | 已使用額度 |
clamt | 本月分期預借現金金額 |
csamt | 本月預借現金金額 |
inamt | 本月分期消費金額 |
cucsm | 本月消費金額 |
cucah | 本月借現金額 |
簽帳金融卡消費cdtx | |
cust_id | 顧客編號 |
date | 消費日期 |
country | 消費地國別 |
cur_type | 消費地幣別 |
amt | 交易金額-台幣 |
付款交單D/P | |
cust_id | 顧客編號 |
debit_credit | 借貸別 |
tx_date | 交易日期 |
tx_time | 交易時間 |
tx_type | 交易類別 |
tx_amt | 交易金額 |
exchg_rate | 匯率 |
info_asset_code | 資訊資產代號 |
fiscTxId | 交易代碼 |
txbranch | 分行代碼 |
cross_bank | 是否為跨行交易 |
ATM | 是否為實體ATM交易 |
外匯remit | |
cust_id | 顧客編號 |
trans_date | 外匯交易日(帳務日) |
trans_no | 交易編號 |
trade_amount_usd | 交易金額(折合美金) |
個人行為
資料前處理-Missing value
D/P交易金額遺失資料共有22015筆遺失。使用顧客為群組將遺失資料設為顧客的中位數。但有17894筆交易內容中該顧客並未有其他有值的交易資訊,使用當天日期的交易中位數作為遺失資料值。
洗錢防制
4
D/P最初資料(missing data)個數與平均
D/P補入顧客交易中位數後
(missing data)個數與平均
D/P當天交易交易中位數後
(missing data)個數與平均
註:D/P資料共有1969918筆資料
洗錢防制
5
cust_id | 顧客編號 |
alert_key | alert 主鍵 |
date | 日期 |
sar_flag | 是否通報SAR |
risk_rank | 風險等級 |
occupation_code | 職業類別 |
total_asset | 行內總資產 |
AGE | 年齡 |
lupay | 上月繳款總額 |
cycam | 信用額度 |
usgam | 已使用額度 |
clamt | 本月分期預借現金金額 |
csamt | 本月預借現金金額 |
inamt | 本月分期消費金額 |
cucsm | 本月消費金額 |
cucah | 本月借現金額 |
remit_trade_amount_usd | 近五日外匯總金額 |
remit_Count | 近五日外匯交易次數 |
TW_amt | 近五日簽帳金融卡境內消費總金額 |
TW_count | 近五日簽帳金融卡境內消費次數 |
Foreign_amt | 近五日簽帳金融卡境外消費總金額 |
Foreign_count | 近五日簽帳金融卡境外消費次數 |
dta | DB五日內境內總金額 |
dtc | DB五日內境內次數 |
dfa | DB五日內境外總金額 |
dfc | DB五日內外內次數 |
cta | CR五日內境內總金額 |
ctc | CR五日內境內次數 |
cfa | CR五日內境外總金額 |
cfc | CR五日內外內次數 |
共30欄
模型簡介-隨機森林樹
隨機森林樹(Random Forest Tree)是一種集成學習(ensemble learning)的模型。它是由許多決策樹(decision tree)組成的森林,通常用於分類和回歸。
具有以下優點:
洗錢防制
6
模型簡介-Extreme Gradient Boosting Regressor
XGBoost(Extreme Gradient Boosting)是一種集成學習(ensemble learning)的演算法,通常用於分類和回歸。XGB Regressor是XGBoost的回歸版本,用於進行回歸分析。
XGBoost的工作原理是通過梯度提升(gradient boosting)的方法來建立弱學習器(weak learner)的有力集合。這是將多個弱學習器組合成一個強學習器(strong learner),以提高分類或回歸的準確性。
XGBoost Regressor有許多優點,包括:
洗錢防制
7
模型簡介-Extreme Gradient Boosting Pairwise Ranker
XGB Ranker是XGBoost的另一種版本,用於進行排名分析。
XGB Ranker pairwise是XGB Ranker的其中一種,總共有三種類別,分別是pointwise、pairwise與listwise。
在排名分析中,pairwise是一種常用的方法。它的原理是對於每兩個資料之間建立一個關係,並將這些關係看為一對(pair)。
XGB Ranker pairwise是針對pairwise排名分析而設計的XGB Ranker版本。它使用特殊的損失函數和評分函數來評估模型的效果,以便能準確的預測每對之間的相對重要性。
洗錢防制
8
遭遇問題
模型實作:在本學期才開始深入機器學習相關的領域,不熟悉一些既有的算法,如:Random Forest抑或是XGBoosting的方式來進行預測,但在課堂中老師有一一提及,才慢慢熟悉。
對於題目領域不熟悉:在一開始對於金融界是一無所知,不知道該如何將資料做整理,甚至是不知道要如何將資料丟進模型中。
洗錢防制
9
評分方式
洗錢防制
10
成果
在公開測資中有1845筆名單,有11筆真正通報的案件。
洗錢防制
11
使用模型 | Random Forest | XGB Regressor | XGB Ranker Pairwise |
獲得成績 | 0.006514 | 0.010373 | 0.008064 |
Public成績
Private成績
心得
第一次接觸到關於機器學習的領域,從完全不懂Random Forest到後續使用延伸的模組函式庫完成資料的預測。過程中遇到許多問題,像是不知道如何進行資料前處理、模型的選取或是模型的輸入該如何調整,像是XGB Ranker需要先將資料進行分組,但透過GOOGLE或是在上課老師的講述下,大部分問題都有找到解決方式,也因為本次比賽時程後續有所改動,變為最後兩天才公布private data使得進度被打亂,但在之前有先寫好資料前處理的方式所以還是能夠將資料合併後進行預測。最後,在本學期學習到很多關於機器學習的相關知識,在未來進行不同的數據分析上將增加一項不同的分析選擇,也了解不同機器學習的優缺點以及使用的方式,並學到要如何進行資料前處理。
洗錢防制
12
未來規劃
在2023年01月28日玉山銀行將進行頒獎典禮,頒獎典禮將會有前六名得獎者分享比賽心得與使用作法。希望能夠去聽其他人的做法,比較不同手法的優缺點。
在本學期並未能夠完成對於Transformer的學習與應用,對於這種具有時間序列的預測分析,我認為老師在課堂上所說的RNN、LSTM都是一種方式,但老師上課有講述到上述兩種方式的缺點,因此希望未來能夠使用Transformer將客戶每一筆交易資訊作為一個輸入,完成有時間序列的輸入預測。
洗錢防制
13