終了済み: 浮世絵作者予測

Open Review Competition

賞金: 150,000 参加チーム数: 234 13日前に終了

2nd place solution

2nd Place Solution

終わってみて,三ヶ月間と,データサイズの割りには期間の長いコンペだったなぁというのが素直な感想です.
とはいえ,浮世絵はこれまで真剣に眺めることもなかったので新鮮でしたし,色々と試したいことも試せて非常に勉強になりました. 参加された方々はお疲れ様でした.
さて,既に 1st place の ak110 氏が素晴らしい solution を投稿してくださっていますので,私の方からは個人的に試して上手くいったこと・上手くいかなかったことを簡単にまとめてみました.




1. Model Pipeline

solution 全体の概要は下図の通りです.
ご覧いただくと分かる通り,あまりこれといった工夫はしておらず,model ensemble に頼った形の solution であったと自分でも思います.

probspace_ukiyoe_Maxwell.png


2. Confusion Matrix

典型的な DenseNet 121 の混同行列は以下のような感じでした.

fig1_exp-061_oof_ft2_tta50.png

特に class 7 の予測精度が芳しくなく,似通った class 3 と混同しやすいのがみてとれます.
また,class 1 の作者は多様な作品スタイルをもつ画家のようでして,FP および FN が他 class と比べて多く発生しています.多才な class 1 の作者は一体どなたなんでしょうね.どなたかご存知でしたらご教授ください(笑


3. What worked

  • 色々とモデルを試した中では,私の configuration ですと DenseNet が良い性能をだしていました.Growth Rate なども弄りましたが,あまり効果が見られず vanilla なものを使用しています.当初は,SE-ResNext あたりが最終モデルかなと思っていましたので,この結果は個人的には意外なものでした.

  • データの数が少ないので log-loss などの soft な評価指標で改善がみられるような augmentation は全て盛り込みました.

  • CutMix はこれまで上手く効いたコンペにめぐり合えていなかったのですが,今回はよく効いていました.RGB の各チャンネルの統計量をクラス毎に計算した結果,色情報が重要そうであると思っていたので,画像同士を重ね合わせることのない CutMix を選択しました.とはいえ,1st place の ak110 氏が MixUp を使用されていますので,あまり意味の無い配慮だったかもしれませんが,時代的には手に入る染料・顔料は各作者毎に限られた一定のものだったのではないかと思っていました.(参考:浮世絵の色材研究

  • Psuedo Labling は多少ではありますが効いていました(LB で + 0.005 つまり データ 2 個分の改善).テストデータサイズがあまり大きくない関係上,今回は効果はあまり大きくはなかったと思っています.

  • TTA もあまり効果は大きくなかったものの,最低でも LB + 0.002 つまり,データ 1 個分の改善はありました.数回程度ですと推論が安定しなかったため,50 回も行っています.が・・・,ここまでは本来必要なかったかもしれません.


4. What did not work

  • 距離学習である Arcface を試しましたが上手くいきませんでした.下図は,Arcface + t-SNE で各クラスの分布を各 fold 毎に可視化したものです.それなりに分類できているように見えますが,精度向上に繋げることができていません.

arcface.png

  • Stacking も試しましたが,train の画像の数が少ないためかシンプルな blending と同等かそれ以下の結果しか得られず途中で諦めました.一応,2nd layer の meta feature として Arcface の特徴量や各種統計量などを使用してもみたのですが,効果はみとめられませんでした.

  • クラス不均衡なデータでしたので,custom function で調整しようとしたりしたのですが,上手くいきませんでした.個人的にはクラス不均衡を調整しようとする試みが上手くいったことがほとんどないです.テーブルデータですと,down sampling はまぁまぁ上手くいくのですが,画像データの場合,画像の数の不足に悩まされることが多いと思います.そのため, down sampling という選択肢をもつことができることが少ないというのも一つの問題かと思います.


5. Summary

SpeakerDeck にも上記のお話をまとめたものを挙げておきました.
こちらの方が図などは見やすいと思いますので,宜しければご覧ください.

Speaker Deck: ProbSpace Competition, Ukiyo-e Author Prediction
https://speakerdeck.com/hoxomaxwell/probspace-competition-ukiyo-e-author-prediction

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。