Data Preprocessing#
1. Target Scaling#
Note
problem_type
が “regression” の場合のみ、以下の条件を満たした時に適用される。
ラベルの最小値と最大値との差が 10000 以上ある場合に適用される Scaling で、np.log1p
による変換が行われる。log1p は元の数値 x に対して log(1 + x) の値を返す。

Fig. 22 Scaling 前のラベルの分布の例。ラベルの値が0に近いところに集中しつつ、非常に値が大きいものも散見され、Scaling が必要な例となっている。)#

Fig. 23 Scaling 後の値の分布の例。正規分布に近い形になっている。#
2. SMOTE Oversampling#
Note
oversampling_threshold
オプションが設定され、か problem_type
が “binary” の場合のみに適用される。
上記の条件の時に SMOTE Oversampling が実行される。また、加えて proba_calibration=TRUE
に設定した場合には、予測確率に対するキャリブレーションが実施される。