California house pricing dataset#
datasets 名#
california_house
データセット#
longitude |
latitude |
housing_median_age |
total_rooms |
total_bedrooms |
population |
households |
median_income |
median_house_value |
ocean_proximity |
|
---|---|---|---|---|---|---|---|---|---|---|
0 |
-122.23 |
37.88 |
41 |
880 |
129 |
322 |
126 |
8.3252 |
452600 |
NEAR BAY |
1 |
-122.22 |
37.86 |
21 |
7099 |
1106 |
2401 |
1138 |
8.3014 |
358500 |
NEAR BAY |
2 |
-122.24 |
37.85 |
52 |
1467 |
190 |
496 |
177 |
7.2574 |
352100 |
NEAR BAY |
3 |
-122.25 |
37.85 |
52 |
1274 |
235 |
558 |
219 |
5.6431 |
341300 |
NEAR BAY |
4 |
-122.25 |
37.85 |
52 |
1627 |
280 |
565 |
259 |
3.8462 |
342200 |
NEAR BAY |
背景#
kaggle から提供されているデータセット。
これは、Aurélien Géron 氏の最近の著書「Hands-On Machine learning with Scikit-Learn and TensorFlow」の第2章で使用されたデータセットである。このデータセットは、初歩的なデータクリーニングを必要とし、理解しやすい変数のリストがあり、おもちゃっぽさと面倒くささの間の最適なサイズに収まっているため、機械学習アルゴリズムを実装するための優れた入門書として役立つ。
このデータは、1990年の国勢調査データに基づき、カリフォルニア州の特定の地区で見つかった住宅と、その住宅に関するいくつかの要約統計に関連する。データはクリーニングされていないので、いくつかの前処理が必要である。
カラム#
# |
Column |
Dtype |
説明 |
---|---|---|---|
0 |
longitude |
float32 |
経度 |
1 |
latitude |
float32 |
緯度 |
2 |
housing_median_age |
Int64 |
ブロック内の住宅の築年数の中央値 |
3 |
total_rooms |
Int64 |
ブロック内の総部屋数 |
4 |
total_bedrooms |
Int64 |
ブロック内の寝室の総数 |
5 |
population |
Int64 |
ブロック内の総人口 |
6 |
households |
Int64 |
ブロック内の世帯数の合計 |
7 |
median_income |
float32 |
所得の中央値(単位:万米ドル) |
8 |
median_house_value |
Int64 |
ブロック内の世帯の住宅価格の中央値(単位:米ドル) |
9 |
ocean_proximity |
string |
海への近さ、海から見た家の位置 |
カラム値のバリエーション#
col |
unique |
|
---|---|---|
0 |
longitude |
[-121.95999908447266, -121.91999816894531, -12… |
1 |
latitude |
[37.959999084472656, 37.310001373291016, 38.63… |
2 |
housing_median_age |
[28, 13, 30, 33, 19, 11, 52, 42, 40, 5, 10, 16… |
3 |
total_rooms |
[1838, 6035, 2930, 2579, 3173, 2660, 188, 328,… |
4 |
total_bedrooms |
[273.0, 1551.0, 739.0, 564.0, 678.0, 352.0, 62… |
5 |
population |
[899, 2946, 1661, 1155, 2204, 1226, 301, 605, … |
6 |
households |
[270, 1481, 668, 431, 606, 366, 72, 87, 271, 7… |
7 |
median_income |
[5.2144999504089355, 4.0524001121521, 2.781300… |
8 |
median_house_value |
[229200, 213900, 118900, 42100, 129200, 319800… |
9 |
ocean_proximity |
[INLAND, <1H OCEAN, NEAR OCEAN, NEAR BAY, ISLAND] |