trainとtestの重なり具合

matplotlib-vennを利用してtrain,testの重なり具合を前処理なしのデータで可視化してみました

https://github.com/konstantint/matplotlib-venn

e787ad5f-2c07-4ac8-b918-9a06be5dfe32.png

train,testで共通のチャンネルがあったりしておもしろそうですね


■追記

wkwkhautboisさんからコメントで指摘頂いた通り、上記は一般的な表記ではないので一般的なベン図の表記に変更したものを追記いたします

84dc6274-d6cb-4961-a624-0eaea9efb24e.png

Icon9
wkwkhautbois

きれいに出力できて良さそうなライブラリですね。

意図してかは分かりませんが、一般的なベン図の表記と違う図が出ているみたいです。
例えば、図だと'categoryId'が全部で17+17+18=52カテゴリ存在するみたいに普通は読むと思うんですが、実際は18カテゴリしか存在しません。
試しに venn2([set(train['categoryId']), set(test['categoryId'])]) としたら一般的な形で出てきましたので共有です。

Aws4 request&x amz signedheaders=host&x amz signature=681d630341e7d7d51d6b20382b330bfb7cf90ea45ad3172d8fa0085232f9d909
suk1yak1

コメントありがとうございます ご指摘頂いた通り、一般的なベン図とは異なっております

赤:trainのカテゴリ数 黄:trainとtest共通のカテゴリ数 緑:testのカテゴリ数

となっております

大きな意図はないのですがtrain,testでそれぞれ見たときに行数と比較しやすいので重複したカテゴリを除外せずに表示しております

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。