Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

kaggle Playground Series - Season 3, Episode 5

今回はワインの品質レベルの予測

ワインに含まれる11種類の成分の分布で1~10までの(テストデータは3~8)ランクを予測(多値分類)するというもの。

 

■キーポイントは3つ

  1,2は個人的にトライしてみたい事です。

  • optunaを使用したパラメータの最適化

       これはわかりやすいコードを書いてくれた人がいたので参考に

  させて頂きました。この方は多分日本人。注釈に日本語が使われていたから。

  お世話になりました。

       optunaは以前トライしたことがあったのですが、その時は労力のわりに効果が少なかったので(個人の力のせい??)その後遠ざかっていました。

       改めて見ると対応するアルゴリズムも増えており進化しているようです。

       今回使用したLightGBM用のモデルは最適化する特徴量の順番も考慮していました。

  とりあえず使ってみたレベルなのでこれ以上のコメントは差し控えます。。

  • LightGBMとXGBoostを使用した性能比較やアンサンブルの検討

  これまではLightGBM一択だったのですが、XGBoostを使っている人も相当数いるのでこちらにも再トライ。かつ、アンサンブルも合わせて行ったところ順位が上がりました。めでたし、めでたし。

  • 特徴量の追加

   プレイグラウンドではあまり特徴量を追加する人は少ないように感じているのですが、個人的には毎回トライしています。残念ながらあまり成功したためしがないです。

   今回も特徴量間の比率(割り算)を行いましたがノイズが多くなったようでポイントは上がりませんでした。

   しかし、科学的に重要なパラメータ(特徴量)をご存知な方が情報をアップしてくれていたのでそちらを使用したところポイントアップ。

   やっぱり業務を知っている人はそれだけで大きな強みですね。

   今はやりのChatGPTを使った人もいるようでこれもありかもしれません。

 

■ 結果

  316/903位

  

  今回は結構オーバーフィットが起こりやすかったようで、98番も順位が落ちました。

  目先のスコアーだけで投稿してもダメだという良い例ですね。

  やっぱり奥が深いですね。