Covtype dataset for multiclass classfication#

datasets 名#

covtype

作成されるテーブル#

table_name

count

covtype_train

406708

covtype_test

174304

データセット#

[406708 rows x 56 columns]

col_0

col_1

col_2

col_3

col_4

col_5

col_6

col_7

col_8

col_9

col_10

col_11

col_12

col_13

col_14

col_15

col_16

col_17

col_18

col_19

col_20

col_21

col_22

col_23

col_24

col_25

col_26

col_27

col_28

col_29

col_30

col_31

col_32

col_33

col_34

col_35

col_36

col_37

col_38

col_39

col_40

col_41

col_42

col_43

col_44

col_45

col_46

col_47

col_48

col_49

col_50

col_51

col_52

col_53

target

time

1

2958

356

12

60

18

1382

201

219

155

485

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

1.69106e+09

2

2769

112

19

150

60

1167

249

216

86

633

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

0

0

0

0

0

0

0

0

2

1.69106e+09

3

2717

22

23

30

17

1168

199

185

115

1973

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

1.69106e+09

4

2368

343

9

480

144

1307

202

227

163

577

0

0

0

1

0

0

0

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

3

1.69106e+09

背景#

UC Irvine Machine Learning Repository から提供されているデータセット。

標高、アスペクト、傾斜、丘陵斜面、土壌タイプなどの属性に基づいて、ピクセルを7つの森林被覆タイプに分類。

地図上の変数のみから森林被覆タイプを予測(リモートセンシングデータはなし)。 与えられた観測点(30 x 30mのセル)の実際の森林被覆タイプは、US Forest Service (USFS) Region 2 Resource Information System (RIS)のデータから決定された。 独立変数は、元々 USGS(US Geological Survey:米国地質調査所)と USFS のデータから得られたデータから得られた。 データは未加工の状態で(スケーリングされていない)、質的独立変数(原生地域と土壌タイプ)のデータの2値(0または1)の列を含んでいる。

この調査地域には、コロラド州北部のルーズベルト国有林に位置する4つの原生地域が含まれる。 これらの地域は、人為的攪乱を最小限に抑えた森林であり、現存する森林被覆の種類は、森林管理の実践というよりもむしろ生態学的プロセスの結果である。

これら4つの原生地域について、背景となる情報をいくつか紹介しよう: ネオタ(エリア2)は、おそらく4つの原生地域の中で最も平均標高が高い。ラワ(エリア1)とコマンチ・ピーク(エリア3)の平均標高は低く、キャッシュ・ラ・プードル(エリア4)の平均標高は最も低い。

これらの地域の主な樹種は、ネオタはトウヒ/モミ(タイプ1)、ラワとコマンチ・ピークはロッジポールパイン(タイプ2)、次いでトウヒ/モミ、アスペン(タイプ5)であろう。Cache la Poudreでは、ポンデローサ・マツ(タイプ3)、ダグラスファー(タイプ6)、コットンウッド/ヤナギ(タイプ4)が多い。

Rawah と Comanche Peak の地域は、樹種の種類と予測変数値(標高など)の範囲から、Neota や Cache la Poudre よりもデータセット全体の典型的な地域となる傾向がある。

カラム#

#

Column

Dtype

0

0

Int64

1

1

Int64

2

2

Int64

3

3

Int64

4

4

Int64

5

5

Int64

6

6

Int64

7

7

Int64

8

8

Int64

9

9

Int64

10

10

Int64

11

11

Int64

12

12

Int64

13

13

Int64

14

14

Int64

15

15

Int64

16

16

Int64

17

17

Int64

18

18

Int64

19

19

Int64

20

20

Int64

21

21

Int64

22

22

Int64

23

23

Int64

24

24

Int64

25

25

Int64

26

26

Int64

27

27

Int64

28

28

Int64

29

29

Int64

30

30

Int64

31

31

Int64

32

32

Int64

33

33

Int64

34

34

Int64

35

35

Int64

36

36

Int64

37

37

Int64

38

38

Int64

39

39

Int64

40

40

Int64

41

41

Int64

42

42

Int64

43

43

Int64

44

44

Int64

45

45

Int64

46

46

Int64

47

47

Int64

48

48

Int64

49

49

Int64

50

50

Int64

51

51

Int64

52

52

Int64

53

53

Int64

54

Target

Int8

カラム値のバリエーション#

col

unique

0

col_0

[2813, 2958, 2769, 2717, 2368, 2896, 3235, 296…

1

col_1

[219, 356, 112, 22, 343, 32, 239, 151, 245, 75…

2

col_2

[16, 12, 19, 23, 9, 17, 14, 28, 5, 2, 24, 8, 1…

3

col_3

[67, 60, 150, 30, 480, 499, 216, 319, 90, 120,…

4

col_4

[12, 18, 60, 17, 144, 130, 45, 49, 37, 15, 14,…

5

col_5

[2180, 1382, 1167, 1168, 1307, 2307, 1031, 339…

6

col_6

[200, 201, 249, 199, 202, 214, 197, 237, 150, …

7

col_7

[254, 219, 216, 185, 227, 200, 250, 239, 247, …

8

col_8

[186, 155, 86, 115, 163, 117, 189, 129, 225, 1…

9

col_9

[2774, 485, 633, 1973, 577, 607, 301, 1218, 23…

10

col_10

[1, 0]

11

col_11

[0, 1]

12

col_12

[0, 1]

13

col_13

[0, 1]

14

col_14

[0, 1]

15

col_15

[0, 1]

16

col_16

[0, 1]

17

col_17

[0, 1]

18

col_18

[0, 1]

19

col_19

[0, 1]

20

col_20

[0, 1]

21

col_21

[0, 1]

22

col_22

[0, 1]

23

col_23

[0, 1]

24

col_24

[0, 1]

25

col_25

[0, 1]

26

col_26

[0, 1]

27

col_27

[0, 1]

28

col_28

[0, 1]

29

col_29

[0, 1]

30

col_30

[0, 1]

31

col_31

[0, 1]

32

col_32

[0, 1]

33

col_33

[0, 1]

34

col_34

[0, 1]

35

col_35

[0, 1]

36

col_36

[0, 1]

37

col_37

[0, 1]

38

col_38

[0, 1]

39

col_39

[0, 1]

40

col_40

[0, 1]

41

col_41

[0, 1]

42

col_42

[0, 1]

43

col_43

[1, 0]

44

col_44

[0, 1]

45

col_45

[0, 1]

46

col_46

[0, 1]

47

col_47

[0, 1]

48

col_48

[0, 1]

49

col_49

[0, 1]

50

col_50

[0, 1]

51

col_51

[0, 1]

52

col_52

[0, 1]

53

col_53

[0, 1]

54

target

[1, 2, 3, 7, 6, 5, 4]