Online Retail dataset#

datasets 名#

online_retail

作成されるテーブル#

table_name

count

online_retail

406829

online_retail_ltv

3186

online_retail_ltv_train

2230

online_retail_ltv_test

956

データセット#

online_retail#

invoiceno

stockcode

description

quantity

invoicedate

unitprice

customerid

country

time

1

581571

85053

FRENCH ENAMEL CANDLEHOLDER

2

2011-12-09 12:00:00

2.1

15311

United Kingdom

1664426894

2

581571

23110

PARISIENNE KEY CABINET

2

2011-12-09 12:00:00

5.75

15311

United Kingdom

1664426894

3

581571

21169

YOU’RE CONFUSING ME METAL SIGN

1

2011-12-09 12:00:00

1.69

15311

United Kingdom

1664426894

4

581571

21258

VICTORIAN SEWING BOX LARGE

8

2011-12-09 12:00:00

10.95

15311

United Kingdom

1664426894

online_retail_ltv#

customerid

cltv

country

purchase_amount

recency

order_time_gap

frequency

avg_basket_value

avg_basket_size

cnt_returns

has_returned

time

0

14796

7839.509919

United Kingdom

5132.989962

229

20.181818

12

427.749163

316.583333

8

1

1655089140

1

17579

440.200001

United Kingdom

270.86

41

41

2

135.43

65

0

0

1655089140

2

16326

3085.959963

United Kingdom

1073.919983

174

34.6

6

178.986664

36

0

0

1655089140

3

13495

1990.119988

United Kingdom

1072.429992

136

67.5

3

357.476664

161.666667

1

1

1655089140

4

15793

948.959988

United Kingdom

306.639999

0

NaN

1

306.639999

192

0

0

1655089140

背景#

online_retail データセットは、UC Irvine Machine Learning Repository から提供されているデータセット。

このデータセットは、英国を拠点とする無店舗のオンライン小売業で、2010年12月1日から2011年12月9日の間に発生した全取引を含む、国境を越えたデータセットである。同社の顧客の多くは卸売業者である。

さらにこのデータセットに対して、customerid ごとに Customer Lifetime Value(cltv)を計算して付与したものonline_retail_ltv テーブルとなっている。online_retail データセットは Raw Data なので TD AUtoML においての活用は online_retail_ltv を活用していくことになる。

カラム#

online_retail#

#

Column

Dtype

説明

0

invoiceno

string

請求書番号。名目上、各取引に一意に割り当てられる6桁の整数番号。このコードが文字’c’で始まる場合、キャンセルを示す。

1

stockcode

string

在庫コード。商品(アイテム)コード。名目上、各商品に一意に割り当てられる5桁の整数番号。

2

description

string

商品(アイテム)名、公称。

3

quantity

int64

取引ごとの各商品(アイテム)の数量。数値。

4

invoicedate

string

請求日時。各取引が発生した日時。

5

unitprice

float64

単価。スターリング単位での製品単価。

6

customerid

int64

顧客番号。名目、各顧客に一意に割り当てられた5桁の整数番号。

7

country

string

国名。各顧客が居住する国名。

8

time

int64

online_retail_ltv#

#

Column

Dtype

説明

0

customerid

Int16

顧客ID

1

cltv

float32

Customer Lifetime Value

2

country

string

3

purchase_amount

float32

購入総額

4

recency

Int16

First Order と Last Oder の差分

5

order_time_gap

float32

6

frequency

Int8

購入頻度

7

avg_basket_value

float32

1回の invoice の平均購入額

8

avg_basket_size

float32

1回の invoice の平均点数

9

cnt_returns

Int8

ユニークな invoice_no 数

10

has_returned

Int8

invoice があるかどうか

カラム値のバリエーション#

online_retail#

col

unique

0

invoiceno

[581571, 581572, 581574, 581578, 581579, 58158…

1

stockcode

[21755, 85053, 23110, 21169, 21258, 23168, 231…

2

description

[LOVE BUILDING BLOCK WORD, FRENCH ENAMEL CANDL…

3

quantity

[1, 2, 8, 36, 96, 48, 24, 4, 6, 10, 12, 3, 25,…

4

invoicedate

[2011-12-09 12:00:00, 2011-12-09 12:08:00, 201…

5

unitprice

[6.25, 2.0999999046325684, 5.75, 1.69000005722…

6

customerid

[15311, 16705, 12526, 12713, 17581, 12748, 137…

7

country

[United Kingdom, Germany, France, Norway, Belg…

online_retail_ltv#

col

unique

0

customerid

[12691, 15249, 17430, 16367, 14716, 15990, 179…

1

cltv

[1035.800048828125, 6657.35986328125, 265.7600…

2

country

[France, United Kingdom, Channel Islands, Germ…

3

purchase_amount

[556.2999877929688, 4275.8701171875, 112.59999…

4

recency

[212, 128, 0, 118, 221, 167, 107, 30, 34, 99, …

5

order_time_gap

[70.33333587646484, 21.0, None, 58.5, 31.14285…

6

frequency

[4, 7, 1, 3, 8, 2, 9, 5, 10, 11, 6, 24, 26, 19…

7

avg_basket_value

[139.0749969482422, 610.8385620117188, 112.599…

8

avg_basket_size

[49.5, 322.28570556640625, 60.0, 91.0, 355.0, …

9

cnt_returns

[0, 2, 1, 3, 4, 12, 11, 5, 6, 7, 13, 14, 9, 18…

10

has_returned

[0, 1]