Credit Card Fraud Detection Dataset#
datasets 名#
creditcard
作成されるテーブル#
table_name |
count |
---|---|
creditcard_train |
199364 |
creditcard_test |
85443 |
データセット#
v1 |
v2 |
v3 |
v4 |
v5 |
v6 |
v7 |
v8 |
v9 |
v10 |
… |
v20 |
v21 |
v22 |
v23 |
v24 |
v25 |
v26 |
v27 |
v28 |
fraud |
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
161145 |
-0.132066 |
0.107044 |
-0.650588 |
-0.996032 |
1.814333 |
1.74074 |
0.496852 |
0.633016 |
0.017181 |
-0.362707 |
… |
-0.062612 |
-0.062489 |
0.005292 |
0.251519 |
-2.46681 |
-0.88969 |
0.337462 |
0.306395 |
0.074817 |
0 |
204520 |
2.125994 |
0.014207 |
-1.51476 |
0.115021 |
0.59851 |
-0.333235 |
0.199289 |
-0.264353 |
0.384111 |
0.028747 |
… |
-0.086076 |
-0.329368 |
-0.78815 |
0.26773 |
0.066122 |
-0.135785 |
0.203841 |
-0.068267 |
-0.057678 |
0 |
182659 |
-0.086694 |
0.16624 |
1.573127 |
0.687266 |
0.222359 |
1.102606 |
1.575093 |
-1.098608 |
0.763887 |
1.404677 |
… |
0.05296 |
0.015324 |
1.063663 |
-0.410841 |
0.722723 |
-0.171733 |
-0.613543 |
-1.201571 |
-1.139931 |
0 |
25117 |
1.352339 |
-0.534984 |
0.555143 |
-0.629355 |
-1.14417 |
-0.852967 |
-0.642128 |
-0.032659 |
-0.654482 |
0.619206 |
… |
-0.066712 |
-0.014814 |
-0.180379 |
0.178112 |
0.34772 |
0.15181 |
-0.404361 |
0.013746 |
0.016152 |
0 |
227642 |
-1.52676 |
0.647782 |
0.615391 |
-0.561114 |
0.83695 |
-0.514251 |
0.984325 |
-0.09743 |
-0.062634 |
-1.033567 |
… |
-0.073333 |
-0.221533 |
-0.393158 |
-0.21499 |
0.588447 |
0.679496 |
0.518434 |
0.065022 |
0.147294 |
0 |
背景#
kaggle から提供されているデータセット。
顧客が購入した覚えのない商品の代金を請求されることのないよう、クレジットカード会社が不正なクレジットカード取引を認識できるようにすることが重要である。
このデータセットには、2013年9月に欧州のカード会員がクレジットカードで行った取引が含まれている。このデータセットは2日間に発生した取引を示しており、284,807件の取引のうち492件の不正があった。このデータセットは非常にアンバランスであり、ポジティブ・クラス(詐欺)は全取引の0.172%を占めている。
このデータセットには、PCA 変換の結果である数値入力変数のみが含まれている。残念ながら、機密保持の問題から、元の特徴量とデータに関するより詳細な背景情報は提供できない。特徴量 V1、V2、…V28 は PCA で得られた主成分で、PCA 変換されていない唯一の特徴量は「時間」と「金額」である。特徴量「時間」には、各取引とデータセット内の最初の取引との間の経過秒数が含まれる。特徴量 Amount
は取引金額であり、この特徴量は例依存のコスト感応学習に使用できる。特徴「クラス」は応答変数であり、不正の場合に 1、そうでない場合に 0 を取る。
クラスのアンバランス比を考慮すると、モデルの評価指標胃は AUPRC(Area Under the Precision-Recall Curve)を用いて精度を測定することを推奨する。アンバランスな分類では、Confusion Matrix の精度は意味を持たない。
カラム#
# |
Column |
Dtype |
---|---|---|
— |
—— |
—– |
0 |
v1 |
float32 |
1 |
v2 |
float32 |
2 |
v3 |
float32 |
3 |
v4 |
float32 |
4 |
v5 |
float32 |
5 |
v6 |
float32 |
6 |
v7 |
float32 |
7 |
v8 |
float32 |
8 |
v9 |
float32 |
9 |
v10 |
float32 |
10 |
v11 |
float32 |
11 |
v12 |
float32 |
12 |
v13 |
float32 |
13 |
v14 |
float32 |
14 |
v15 |
float32 |
15 |
v16 |
float32 |
16 |
v17 |
float32 |
17 |
v18 |
float32 |
18 |
v19 |
float32 |
19 |
v20 |
float32 |
20 |
v21 |
float32 |
21 |
v22 |
float32 |
22 |
v23 |
float32 |
23 |
v24 |
float32 |
24 |
v25 |
float32 |
25 |
v26 |
float32 |
26 |
v27 |
float32 |
27 |
v28 |
float32 |
28 |
fraud |
Int8 |
カラム値のバリエーション#
col |
unique |
|
---|---|---|
0 |
v1 |
[-0.893903374671936, -0.6218521595001221, -0.8… |
1 |
v2 |
[0.5986573100090027, -2.8945610523223877, 0.52… |
2 |
v3 |
[0.12536482512950897, 0.3332284390926361, -0.1… |
3 |
v4 |
[-2.1177990436553955, 2.0313141345977783, -2.1… |
4 |
v5 |
[0.10462318360805511, -1.826711893081665, -0.6… |
5 |
v6 |
[-1.342612385749817, 0.3046911358833313, -0.10… |
6 |
v7 |
[0.5445583462715149, 0.5485988855361938, 0.822… |
7 |
v8 |
[0.33184704184532166, -0.049116719514131546, 0… |
8 |
v9 |
[0.6631479859352112, 0.6624489426612854, 0.402… |
9 |
v10 |
[-1.4226480722427368, -0.5939374566078186, -1…. |
10 |
v11 |
[-1.618863582611084, -0.1866425722837448, 1.63… |
11 |
v12 |
[-0.21801625192165375, 0.5385546684265137, 0.8… |
12 |
v13 |
[-1.390457272529602, 0.08651535958051682, -0.9… |
13 |
v14 |
[0.3611852824687958, 0.009672778658568859, 1.0… |
14 |
v15 |
[-1.3783788681030273, 0.9705513715744019, 1.10… |
15 |
v16 |
[-0.08121561259031296, -0.02445187233388424, -… |
16 |
v17 |
[-0.1931256651878357, 0.022692689672112465, 0…. |
17 |
v18 |
[-0.5247811079025269, -0.15335841476917267, -0… |
18 |
v19 |
[-0.8695187568664551, -1.1978988647460938, 0.4… |
19 |
v20 |
[-0.2989850342273712, 1.6385842561721802, -0.1… |
20 |
v21 |
[0.14328597486019135, 0.7141421437263489, 0.17… |
21 |
v22 |
[0.49414360523223877, 0.23691193759441376, 0.5… |
22 |
v23 |
[-0.22639571130275726, -0.8079662322998047, 0…. |
23 |
v24 |
[0.048197075724601746, 0.461132675409317, -0.2… |
24 |
v25 |
[-0.1260743886232376, 0.06494324654340744, -0…. |
25 |
v26 |
[0.7630700469017029, -0.3435371220111847, -0.0… |
26 |
v27 |
[0.1714375913143158, -0.08313187211751938, 0.1… |
27 |
v28 |
[0.11603761464357376, 0.1910451501607895, -0.0… |
28 |
fraud |
[0, 1] |