California house pricing dataset#

datasets 名#

california_house

作成されるテーブル#

table_name

count

california_house_train

14448

california_house_test

6192

データセット#

longitude

latitude

housing_median_age

total_rooms

total_bedrooms

population

households

median_income

median_house_value

ocean_proximity

0

-122.23

37.88

41

880

129

322

126

8.3252

452600

NEAR BAY

1

-122.22

37.86

21

7099

1106

2401

1138

8.3014

358500

NEAR BAY

2

-122.24

37.85

52

1467

190

496

177

7.2574

352100

NEAR BAY

3

-122.25

37.85

52

1274

235

558

219

5.6431

341300

NEAR BAY

4

-122.25

37.85

52

1627

280

565

259

3.8462

342200

NEAR BAY

背景#

kaggle から提供されているデータセット。

これは、Aurélien Géron 氏の最近の著書「Hands-On Machine learning with Scikit-Learn and TensorFlow」の第2章で使用されたデータセットである。このデータセットは、初歩的なデータクリーニングを必要とし、理解しやすい変数のリストがあり、おもちゃっぽさと面倒くささの間の最適なサイズに収まっているため、機械学習アルゴリズムを実装するための優れた入門書として役立つ。

このデータは、1990年の国勢調査データに基づき、カリフォルニア州の特定の地区で見つかった住宅と、その住宅に関するいくつかの要約統計に関連する。データはクリーニングされていないので、いくつかの前処理が必要である。

カラム#

#

Column

Dtype

説明

0

longitude

float32

経度

1

latitude

float32

緯度

2

housing_median_age

Int64

ブロック内の住宅の築年数の中央値

3

total_rooms

Int64

ブロック内の総部屋数

4

total_bedrooms

Int64

ブロック内の寝室の総数

5

population

Int64

ブロック内の総人口

6

households

Int64

ブロック内の世帯数の合計

7

median_income

float32

所得の中央値(単位:万米ドル)

8

median_house_value

Int64

ブロック内の世帯の住宅価格の中央値(単位:米ドル)

9

ocean_proximity

string

海への近さ、海から見た家の位置

カラム値のバリエーション#

col

unique

0

longitude

[-121.95999908447266, -121.91999816894531, -12…

1

latitude

[37.959999084472656, 37.310001373291016, 38.63…

2

housing_median_age

[28, 13, 30, 33, 19, 11, 52, 42, 40, 5, 10, 16…

3

total_rooms

[1838, 6035, 2930, 2579, 3173, 2660, 188, 328,…

4

total_bedrooms

[273.0, 1551.0, 739.0, 564.0, 678.0, 352.0, 62…

5

population

[899, 2946, 1661, 1155, 2204, 1226, 301, 605, …

6

households

[270, 1481, 668, 431, 606, 366, 72, 87, 271, 7…

7

median_income

[5.2144999504089355, 4.0524001121521, 2.781300…

8

median_house_value

[229200, 213900, 118900, 42100, 129200, 319800…

9

ocean_proximity

[INLAND, <1H OCEAN, NEAR OCEAN, NEAR BAY, ISLAND]