回帰#

データセット#

online_retail_ltv_train

customerid

cltv

country

purchase_amount

recency

order_time_gap

frequency

avg_basket_value

avg_basket_size

cnt_returns

has_returned

14393

67.94999695

United Kingdom

67.94999695

0

1

67.94999695

13

0

0

15364

913.1900024

United Kingdom

331.7999878

0

1

331.7999878

84

0

0

13564

647.7399902

United Kingdom

1749.02002

223

111

3

583.0066528

220.3333282

2

1

17979

737.8099976

United Kingdom

504.5400085

90

45

3

168.1799927

92

1

1

14628

671.960022

United Kingdom

331.5799866

0

1

331.5799866

106

0

0

WF の記述#

以下の Float 型の cltv カラムを target_column に設定する。

cltv

67.94999695

913.1900024

647.7399902

737.8099976

671.960022

_export:
  ml:
    input_database: ml_datasets
    output_database: ml_results  
    train_table: online_retail_ltv_train
    test_table: online_retail_ltv_test
    predict_table: online_retail_ltv_predicted

+gluon_train:
  ml_train>:
    docker:
      task_mem: 128g # 64g/128g/256g/384g/512g
    notebook: gluon_train
    input_table: ${ml.input_database}.${ml.train_table}
    target_column: cltv
    model_name: ltv_model
    # 以下がオプション    
    time_limit: 3*60
    # export_leaderboard: ${ml.output_database}.leaderboard_${ml.train_table}
    # export_feature_importance: ${ml.output_database}.feature_importance_${ml.train_table}

+gluon_predict:
  ml_predict>:
    notebook: gluon_predict
    model_name: ltv_model
    input_table: ${ml.input_database}.${ml.test_table}
    output_table: ${ml.output_database}.${ml.predict_table}
    # 以下がオプション    
    export_leaderboard: ${ml.output_database}.leaderboard_${ml.test_table}
    export_feature_importance: ${ml.output_database}.feature_importance_${ml.test_table}

task_mem#

このタスクで使用するメモリーのタスクユニットを指定している。

アウトプット#

予測結果を格納するテーブル#

+gluon_predict タスクにおいて output_table に指定した online_retail_ltv_predicted テーブルが、予測結果を格納するテーブルとなる。

また、予測対象のテーブルとして +gluon_predict タスクで input_table に指定した telco_churn_test テーブルにはすでに結果が cltv カラムに入っているので、予測結果と比較することができる。(もちろん実ケースにおいては、予測対象のテーブルには結果が入っていない。)

customerid

cltv

166381

676.47

124631

303.63

145254

221.37

163651

540.42

182572

265.38

cltv または predicted_cltv#

今回の例では cltv カラムが存在しているので予測結果は predicted_churn カラムに格納される。

Note

回帰における予測の出力は予測値のみとなり、predicted_proba や predicted_probabilities は付与されない。

テストデータに対する Leaderboard#