kaggle Playground Series - Season 3, Episode 7
kaggle Playground Series - Season 3, Episode 7です。
今回はキャンセルの予測(二項分類)です。
データは前回のようにデータに変な偏りはありませんでした。
この比率が正しいとするなら、キャンセル率は結構高いです。
比率が似通っているので予測しやすいかなと思いましたがその通り実際のスコアもトップスコアは0.92でした。
■ポイントにしたのは2つ
- 特徴量の最適化
特定日付でキャンセルが増えるのではないかと思い、データから曜日、年始からの経過日(YTD)を追加。
人数構成は合計人数、子供の比率、大人の比率を追加。
結果は曜日、YTDとも不要で、もともとの年と月が重要でもともとの日は不要。
人数構成は合計人数のみが重要。もともとの大人、子供それぞれの人数も不要。
- LightGBM,XGBoostの最適化とアンサンブル
今回もOptunaを使用して最適化を実施、アンサンブルの予測も実施。
個人のベスト予測はLightGBM + optuna + cv5でした。
毎回アンサンブルがベストではなかったです。
■結果 125/680位(上位18%)
今回はデータに極端な偏りがなかったのでPublicとPrivateで大きな順位の変動はなかったです。
ちなみに最高位の人はモデルを6つ作りその予測のアンサンブルでした。