終了済み: クレジットカードの支払い履行・不履行の予測

β版ProbSpaceコンペ第1弾!

賞金: 100,000 参加チーム数: 284 6ヶ月前に終了

データの周期性

性別、年齢からわかるデータの周期性

先程出ていたリークに関するトピックに関連して、時系列データの可能性があること発見したので共有、質問させていただきます。

import pandas as pd
import matplotlib.pyplot as plt
train_df = pd.read_csv("train_data.csv")
test_df = pd.read_csv("test_data.csv")
columns = ["id", "credit", "gender", "education", "marriage", "age"]
columns += [f"payment_{i}" for i in range(9, 3, -1)]
columns += [f"claim_{i}" for i in range(9, 3, -1)]
columns += [f"advance_{i}" for i in range(9, 3, -1)]
train_df.columns = columns + ["y"]
test_df.columns = columns

性別とIDの関係を散布図にしたものが以下のようになります。

plt.figure(figsize=(20,10))
feature = "gender"
plt.subplot(2,1,1)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.yticks( [1, 2] )
plt.scatter(train_df["id"], train_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('1 : man, 2 : woman', fontsize=20)
plt.title('train_data', fontsize=20)
plt.subplots_adjust(hspace=0.4)

plt.subplot(2,1,2)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.yticks( [1, 2] )
plt.scatter(test_df["id"], test_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('1 : man, 2 : woman', fontsize=20)
plt.title('test_data', fontsize=20)
plt.show()

年齢とIDの関係を散布図にしたものが以下のようになります。

plt.figure(figsize=(20,10))
feature = "age"
plt.subplot(2,1,1)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.scatter(train_df["id"], train_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('age', fontsize=20)
plt.title('train_data', fontsize=20)
plt.subplots_adjust(hspace=0.4)

plt.subplot(2,1,2)
plt.tick_params(axis='x', which='major', labelsize=12)
plt.tick_params(axis='y', which='major', labelsize=12)
plt.scatter(test_df["id"], test_df[feature])
plt.xlabel('ID', fontsize=20)
plt.ylabel('age', fontsize=20)
plt.title('test_data', fontsize=20)
plt.savefig('agescatter.png')
plt.show()

性別、年齢についてIDの後半で何らかのパターンを確認することができました。時系列データになっているか、あるいは何かしらの処理が施されたデータであると考えられます。
私はこの情報をスコア向上に活かすことはできませんでした。もし活かすことができるとしたらどんな方法があるのか知りたいです。
よろしくお願いいたします。

カラム名の設定の仕方、その他のEDAなどは下記URLを参考にさせていただきました。
https://prob.space/competitions/credit_default_risk/discussions/nadare-Post80bd84e2dd385da870da

添付データ

  • %E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%91%A8%E6%9C%9F%E6%80%A7.ipynb
  • Favicon
    new user
    コメントするには 新規登録 もしくは ログイン が必要です。