失敗したモデルの例#
Contents
2値分類の例#
telco_churn_train
データにおいて、 target_column: gender
と設定した場合の性別の2値分類を考えてみよう。実は、これで生成されたモデルはうまくいっていない。そのことをどこで確認できるかを解説していく。
WF の記述#
_export:
ml:
input_database: ml_datasets
output_database: ml_results
+gluon_train:
ml_train>:
notebook: gluon_train
input_table: ${ml.input_database}.telco_churn_train
target_column: gender
model_name: gender_model
time_limit: 10*60
+gluon_predict:
ml_predict>:
notebook: gluon_predict
model_name: gender_model
input_table: ${ml.input_database}.telco_churn_test
output_table: ${ml.output_database}.telco_churn_predicted
Normarized Confusion Matrix#
予測したラベルが Negative (偽) |
予測したラベルが Positive (真) |
|
---|---|---|
真のラベルが Negative (偽) |
TN (True Negative) |
FP (False Positive) |
真のラベルが Positive (真) |
FN (False Negative) |
TP (True Positive) |
TP(0.94): 真のラベルが “Male” であるものを正しく “Male” と予測できた割合。非常に高い割合で正しく予測できていることになる。
FP(0.82): 真のラベルが “Female” であるものを誤って “Male” と予測してしまった割合。非常に高い割合で誤った予測をしていることになる。
TN(0.18): 真のラベルが “Female” であるものを正しく “Female” と予測できた割合。ほとんど正しく予測できていることになる。
FN(0.06): 真のラベルが “Male” であるものを誤って “Female” と予測してしまった割合。このケースはほとんど起きていないことがわかる。
この混同行列からわかることは、
“Male” だけの予測に関しては、精度高く予測できているように見える。
一方 “Female” の予測に関してはほとんど間違ってしまっている。
このことから導かれる結論は、このモデルはほとんどのサンプルを “Male” と予測するだけのものになってしまっていることである。
Note
ほとんどのサンプルを常に一方のラベルで予測してしまうモデルは、特にトレーニングデータのラベルに偏りがあるときに生じる。大多数の方の label を常に予測するようなモデルが生成されてしまいがちで、それを回避するために Oversampling を行うのである。
多値分類の例#
online_retail_ltv_train
データにおいて、 ignore_columns
で重要な特徴量を除いた場合の cltv の数量予測(回帰)を考えてみよう。もちろん、これで生成されたモデルはうまくいっていない。
WF の記述#
_export:
ml:
input_database: ml_datasets
output_database: ml_results
+gluon_train:
ml_train>:
notebook: gluon_train
input_table: ${ml.input_database}.online_retail_ltv_train
target_column: cltv
model_name: ltv_model
ignore_columns: purchase_amount,frequency,recency, avg_basket_value, order_time_gap, avg_backet_size, cnt_returns, has_returned
time_limit: 10*60
+gluon_predict:
ml_predict>:
notebook: gluon_predict
model_name: ltv_model
input_table: ${ml.input_database}.online_retail_ltv_test
output_table: ${ml.output_database}.online_retail_ltv_predicted