20 newsgroup dataset#

datasets 名#

20newsgroups

作成されるテーブル#

table_name

count

twenty_newsgroups_imbalanced_train

4871

twenty_newsgroups_train

11314

twenty_newsgroups_test

7532

データセット#

f1

f2

f3

f4

f5

f6

f7

f8

f9

f10

f292

f293

f294

f295

f296

f297

f298

f299

f300

target

0

0.073796

0.000881

-0.016037

0.000022

0.030982

-0.001004

-0.007974

0.002138

-0.029928

-0.005595

-0.0071

-0.018491

-0.025618

0.009482

-0.006878

-0.021084

0.001769

-0.020712

0.009806

7

1

0.090861

-0.032717

0.057247

-0.012499

0.00162

0.052554

-0.002015

-0.006493

-0.016144

-0.001977

-0.009033

0.027236

0.013074

0.038814

0.005506

0.023681

0.008041

-0.009105

-0.006418

4

2

0.127038

-0.031527

0.047666

-0.013407

0.016378

-0.000299

-0.005774

-0.010496

-0.028881

-0.003043

-0.020156

0.024311

-0.00503

-0.013865

-0.014705

-0.005564

0.017326

0.00712

-0.026723

4

3

0.044475

-0.015113

0.017531

0.185205

-0.0769

0.069887

-0.069656

-0.017769

-0.006758

0.01612

-0.008048

-0.017886

0.009841

-0.003394

-0.009912

-0.006604

0.003249

0.003771

-0.003153

1

4

0.058337

-0.005264

0.000654

-0.000386

-0.009956

-0.028789

-0.003035

-0.011906

-0.002413

0.003116

-0.006437

-0.067622

-0.007574

-0.024674

-0.004355

0.008061

-0.005972

0.013054

-0.033191

14

背景#

20 Newsgroups から提供されているデータセット。

20 Newsgroups Dataset を多クラス分類用に修正したもの。TFIDF ベクトル化を適用し、スパース特徴量を SVD により300特徴量に削減。

アンバランスなトレーニングデータセットも含む。

カラム#

| # | Column | Dtype | |:——-|:———| | f1 | floating | | f2 | floating | | f3 | floating | | f4 | floating | | f5 | floating | | … | … | | f298 | floating | | f299 | floating | | f300 | floating | | target | integer |

カラム値のバリエーション#

col

unique

0

f1

[0.05356637388467789, 0.05135340988636017, 0.0…

1

f2

[0.005448576062917709, -0.004205332137644291, …

2

f3

[-0.019761959090828896, 0.0028261891566216946,…

3

f4

[-0.007109358906745911, 0.027452345937490463, …

4

f5

[0.0035709955263882875, 0.02428584173321724, 0…

297

f298

[0.02674463577568531, -0.0015302231768146157, …

298

f299

[0.004240306094288826, 0.010785778053104877, -…

299

f300

[0.010550130158662796, -0.02849995531141758, -…

300

target

[1, 8, 9, 3, 10, 17, 15, 6, 11, 4, 19, 5, 13, …