20 newsgroup dataset#
datasets 名#
20newsgroups
作成されるテーブル#
table_name |
count |
---|---|
twenty_newsgroups_imbalanced_train |
4871 |
twenty_newsgroups_train |
11314 |
twenty_newsgroups_test |
7532 |
データセット#
f1 |
f2 |
f3 |
f4 |
f5 |
f6 |
f7 |
f8 |
f9 |
f10 |
… |
f292 |
f293 |
f294 |
f295 |
f296 |
f297 |
f298 |
f299 |
f300 |
target |
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 |
0.073796 |
0.000881 |
-0.016037 |
0.000022 |
0.030982 |
-0.001004 |
-0.007974 |
0.002138 |
-0.029928 |
-0.005595 |
… |
-0.0071 |
-0.018491 |
-0.025618 |
0.009482 |
-0.006878 |
-0.021084 |
0.001769 |
-0.020712 |
0.009806 |
7 |
1 |
0.090861 |
-0.032717 |
0.057247 |
-0.012499 |
0.00162 |
0.052554 |
-0.002015 |
-0.006493 |
-0.016144 |
-0.001977 |
… |
-0.009033 |
0.027236 |
0.013074 |
0.038814 |
0.005506 |
0.023681 |
0.008041 |
-0.009105 |
-0.006418 |
4 |
2 |
0.127038 |
-0.031527 |
0.047666 |
-0.013407 |
0.016378 |
-0.000299 |
-0.005774 |
-0.010496 |
-0.028881 |
-0.003043 |
… |
-0.020156 |
0.024311 |
-0.00503 |
-0.013865 |
-0.014705 |
-0.005564 |
0.017326 |
0.00712 |
-0.026723 |
4 |
3 |
0.044475 |
-0.015113 |
0.017531 |
0.185205 |
-0.0769 |
0.069887 |
-0.069656 |
-0.017769 |
-0.006758 |
0.01612 |
… |
-0.008048 |
-0.017886 |
0.009841 |
-0.003394 |
-0.009912 |
-0.006604 |
0.003249 |
0.003771 |
-0.003153 |
1 |
4 |
0.058337 |
-0.005264 |
0.000654 |
-0.000386 |
-0.009956 |
-0.028789 |
-0.003035 |
-0.011906 |
-0.002413 |
0.003116 |
… |
-0.006437 |
-0.067622 |
-0.007574 |
-0.024674 |
-0.004355 |
0.008061 |
-0.005972 |
0.013054 |
-0.033191 |
14 |
背景#
20 Newsgroups から提供されているデータセット。
20 Newsgroups Dataset を多クラス分類用に修正したもの。TFIDF ベクトル化を適用し、スパース特徴量を SVD により300特徴量に削減。
アンバランスなトレーニングデータセットも含む。
カラム#
| # | Column | Dtype | |:——-|:———| | f1 | floating | | f2 | floating | | f3 | floating | | f4 | floating | | f5 | floating | | … | … | | f298 | floating | | f299 | floating | | f300 | floating | | target | integer |
カラム値のバリエーション#
col |
unique |
|
---|---|---|
0 |
f1 |
[0.05356637388467789, 0.05135340988636017, 0.0… |
1 |
f2 |
[0.005448576062917709, -0.004205332137644291, … |
2 |
f3 |
[-0.019761959090828896, 0.0028261891566216946,… |
3 |
f4 |
[-0.007109358906745911, 0.027452345937490463, … |
4 |
f5 |
[0.0035709955263882875, 0.02428584173321724, 0… |
… |
… |
… |
297 |
f298 |
[0.02674463577568531, -0.0015302231768146157, … |
298 |
f299 |
[0.004240306094288826, 0.010785778053104877, -… |
299 |
f300 |
[0.010550130158662796, -0.02849995531141758, -… |
300 |
target |
[1, 8, 9, 3, 10, 17, 15, 6, 11, 4, 19, 5, 13, … |