Data Preprocessing#

1. Target Scaling#

Note

problem_type が “regression” の場合のみ、以下の条件を満たした時に適用される。

ラベルの最小値と最大値との差が 10000 以上ある場合に適用される Scaling で、np.log1p による変換が行われる。log1p は元の数値 x に対して log(1 + x) の値を返す。

_images/3-8-4-1.png

Fig. 22 Scaling 前のラベルの分布の例。ラベルの値が0に近いところに集中しつつ、非常に値が大きいものも散見され、Scaling が必要な例となっている。)#

_images/3-8-5-1.png

Fig. 23 Scaling 後の値の分布の例。正規分布に近い形になっている。#

2. SMOTE Oversampling#

Note

oversampling_threshold オプションが設定され、か problem_type が “binary” の場合のみに適用される。

上記の条件の時に SMOTE Oversampling が実行される。また、加えて proba_calibration=TRUE に設定した場合には、予測確率に対するキャリブレーションが実施される。