kaggle Playground Series - Season 3, Episode 5

ワインに含まれる11種類の成分の分布で1～10までの（テストデータは3～8）ランクを予測（多値分類）するというもの。

■キーポイントは3つ

　　1,2は個人的にトライしてみたい事です。

これはわかりやすいコードを書いてくれた人がいたので参考に

　　させて頂きました。この方は多分日本人。注釈に日本語が使われていたから。

　　お世話になりました。

optunaは以前トライしたことがあったのですが、その時は労力のわりに効果が少なかったので（個人の力のせい？？）その後遠ざかっていました。

改めて見ると対応するアルゴリズムも増えており進化しているようです。

今回使用したLightGBM用のモデルは最適化する特徴量の順番も考慮していました。

　　とりあえず使ってみたレベルなのでこれ以上のコメントは差し控えます。。

　　これまではLightGBM一択だったのですが、XGBoostを使っている人も相当数いるのでこちらにも再トライ。かつ、アンサンブルも合わせて行ったところ順位が上がりました。めでたし、めでたし。

　　　プレイグラウンドではあまり特徴量を追加する人は少ないように感じているのですが、個人的には毎回トライしています。残念ながらあまり成功したためしがないです。

　　　今回も特徴量間の比率（割り算）を行いましたがノイズが多くなったようでポイントは上がりませんでした。

　　　しかし、科学的に重要なパラメータ（特徴量）をご存知な方が情報をアップしてくれていたのでそちらを使用したところポイントアップ。

　　　やっぱり業務を知っている人はそれだけで大きな強みですね。

　　　今はやりのChatGPTを使った人もいるようでこれもありかもしれません。

■　結果

　　316/903位

　　今回は結構オーバーフィットが起こりやすかったようで、98番も順位が落ちました。

　　目先のスコアーだけで投稿してもダメだという良い例ですね。

　　やっぱり奥が深いですね。

Why5