Covtype dataset for multiclass classfication#
datasets 名#
covtype
作成されるテーブル#
table_name |
count |
---|---|
covtype_train |
406708 |
covtype_test |
174304 |
データセット#
[406708 rows x 56 columns]
col_0 |
col_1 |
col_2 |
col_3 |
col_4 |
col_5 |
col_6 |
col_7 |
col_8 |
col_9 |
col_10 |
col_11 |
col_12 |
col_13 |
col_14 |
col_15 |
col_16 |
col_17 |
col_18 |
col_19 |
col_20 |
col_21 |
col_22 |
col_23 |
col_24 |
col_25 |
col_26 |
col_27 |
col_28 |
col_29 |
col_30 |
col_31 |
col_32 |
col_33 |
col_34 |
col_35 |
col_36 |
col_37 |
col_38 |
col_39 |
col_40 |
col_41 |
col_42 |
col_43 |
col_44 |
col_45 |
col_46 |
col_47 |
col_48 |
col_49 |
col_50 |
col_51 |
col_52 |
col_53 |
target |
time |
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 |
2958 |
356 |
12 |
60 |
18 |
1382 |
201 |
219 |
155 |
485 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1.69106e+09 |
2 |
2769 |
112 |
19 |
150 |
60 |
1167 |
249 |
216 |
86 |
633 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2 |
1.69106e+09 |
3 |
2717 |
22 |
23 |
30 |
17 |
1168 |
199 |
185 |
115 |
1973 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1.69106e+09 |
4 |
2368 |
343 |
9 |
480 |
144 |
1307 |
202 |
227 |
163 |
577 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
3 |
1.69106e+09 |
背景#
UC Irvine Machine Learning Repository から提供されているデータセット。
標高、アスペクト、傾斜、丘陵斜面、土壌タイプなどの属性に基づいて、ピクセルを7つの森林被覆タイプに分類。
地図上の変数のみから森林被覆タイプを予測(リモートセンシングデータはなし)。 与えられた観測点(30 x 30mのセル)の実際の森林被覆タイプは、US Forest Service (USFS) Region 2 Resource Information System (RIS)のデータから決定された。 独立変数は、元々 USGS(US Geological Survey:米国地質調査所)と USFS のデータから得られたデータから得られた。 データは未加工の状態で(スケーリングされていない)、質的独立変数(原生地域と土壌タイプ)のデータの2値(0または1)の列を含んでいる。
この調査地域には、コロラド州北部のルーズベルト国有林に位置する4つの原生地域が含まれる。 これらの地域は、人為的攪乱を最小限に抑えた森林であり、現存する森林被覆の種類は、森林管理の実践というよりもむしろ生態学的プロセスの結果である。
これら4つの原生地域について、背景となる情報をいくつか紹介しよう: ネオタ(エリア2)は、おそらく4つの原生地域の中で最も平均標高が高い。ラワ(エリア1)とコマンチ・ピーク(エリア3)の平均標高は低く、キャッシュ・ラ・プードル(エリア4)の平均標高は最も低い。
これらの地域の主な樹種は、ネオタはトウヒ/モミ(タイプ1)、ラワとコマンチ・ピークはロッジポールパイン(タイプ2)、次いでトウヒ/モミ、アスペン(タイプ5)であろう。Cache la Poudreでは、ポンデローサ・マツ(タイプ3)、ダグラスファー(タイプ6)、コットンウッド/ヤナギ(タイプ4)が多い。
Rawah と Comanche Peak の地域は、樹種の種類と予測変数値(標高など)の範囲から、Neota や Cache la Poudre よりもデータセット全体の典型的な地域となる傾向がある。
カラム#
# |
Column |
Dtype |
---|---|---|
0 |
0 |
Int64 |
1 |
1 |
Int64 |
2 |
2 |
Int64 |
3 |
3 |
Int64 |
4 |
4 |
Int64 |
5 |
5 |
Int64 |
6 |
6 |
Int64 |
7 |
7 |
Int64 |
8 |
8 |
Int64 |
9 |
9 |
Int64 |
10 |
10 |
Int64 |
11 |
11 |
Int64 |
12 |
12 |
Int64 |
13 |
13 |
Int64 |
14 |
14 |
Int64 |
15 |
15 |
Int64 |
16 |
16 |
Int64 |
17 |
17 |
Int64 |
18 |
18 |
Int64 |
19 |
19 |
Int64 |
20 |
20 |
Int64 |
21 |
21 |
Int64 |
22 |
22 |
Int64 |
23 |
23 |
Int64 |
24 |
24 |
Int64 |
25 |
25 |
Int64 |
26 |
26 |
Int64 |
27 |
27 |
Int64 |
28 |
28 |
Int64 |
29 |
29 |
Int64 |
30 |
30 |
Int64 |
31 |
31 |
Int64 |
32 |
32 |
Int64 |
33 |
33 |
Int64 |
34 |
34 |
Int64 |
35 |
35 |
Int64 |
36 |
36 |
Int64 |
37 |
37 |
Int64 |
38 |
38 |
Int64 |
39 |
39 |
Int64 |
40 |
40 |
Int64 |
41 |
41 |
Int64 |
42 |
42 |
Int64 |
43 |
43 |
Int64 |
44 |
44 |
Int64 |
45 |
45 |
Int64 |
46 |
46 |
Int64 |
47 |
47 |
Int64 |
48 |
48 |
Int64 |
49 |
49 |
Int64 |
50 |
50 |
Int64 |
51 |
51 |
Int64 |
52 |
52 |
Int64 |
53 |
53 |
Int64 |
54 |
Target |
Int8 |
カラム値のバリエーション#
col |
unique |
|
---|---|---|
0 |
col_0 |
[2813, 2958, 2769, 2717, 2368, 2896, 3235, 296… |
1 |
col_1 |
[219, 356, 112, 22, 343, 32, 239, 151, 245, 75… |
2 |
col_2 |
[16, 12, 19, 23, 9, 17, 14, 28, 5, 2, 24, 8, 1… |
3 |
col_3 |
[67, 60, 150, 30, 480, 499, 216, 319, 90, 120,… |
4 |
col_4 |
[12, 18, 60, 17, 144, 130, 45, 49, 37, 15, 14,… |
5 |
col_5 |
[2180, 1382, 1167, 1168, 1307, 2307, 1031, 339… |
6 |
col_6 |
[200, 201, 249, 199, 202, 214, 197, 237, 150, … |
7 |
col_7 |
[254, 219, 216, 185, 227, 200, 250, 239, 247, … |
8 |
col_8 |
[186, 155, 86, 115, 163, 117, 189, 129, 225, 1… |
9 |
col_9 |
[2774, 485, 633, 1973, 577, 607, 301, 1218, 23… |
10 |
col_10 |
[1, 0] |
11 |
col_11 |
[0, 1] |
12 |
col_12 |
[0, 1] |
13 |
col_13 |
[0, 1] |
14 |
col_14 |
[0, 1] |
15 |
col_15 |
[0, 1] |
16 |
col_16 |
[0, 1] |
17 |
col_17 |
[0, 1] |
18 |
col_18 |
[0, 1] |
19 |
col_19 |
[0, 1] |
20 |
col_20 |
[0, 1] |
21 |
col_21 |
[0, 1] |
22 |
col_22 |
[0, 1] |
23 |
col_23 |
[0, 1] |
24 |
col_24 |
[0, 1] |
25 |
col_25 |
[0, 1] |
26 |
col_26 |
[0, 1] |
27 |
col_27 |
[0, 1] |
28 |
col_28 |
[0, 1] |
29 |
col_29 |
[0, 1] |
30 |
col_30 |
[0, 1] |
31 |
col_31 |
[0, 1] |
32 |
col_32 |
[0, 1] |
33 |
col_33 |
[0, 1] |
34 |
col_34 |
[0, 1] |
35 |
col_35 |
[0, 1] |
36 |
col_36 |
[0, 1] |
37 |
col_37 |
[0, 1] |
38 |
col_38 |
[0, 1] |
39 |
col_39 |
[0, 1] |
40 |
col_40 |
[0, 1] |
41 |
col_41 |
[0, 1] |
42 |
col_42 |
[0, 1] |
43 |
col_43 |
[1, 0] |
44 |
col_44 |
[0, 1] |
45 |
col_45 |
[0, 1] |
46 |
col_46 |
[0, 1] |
47 |
col_47 |
[0, 1] |
48 |
col_48 |
[0, 1] |
49 |
col_49 |
[0, 1] |
50 |
col_50 |
[0, 1] |
51 |
col_51 |
[0, 1] |
52 |
col_52 |
[0, 1] |
53 |
col_53 |
[0, 1] |
54 |
target |
[1, 2, 3, 7, 6, 5, 4] |