Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

kaggle Playground Series - Season 3, Episode 7

kaggle Playground Series - Season 3, Episode 7です。

今回はキャンセルの予測(二項分類)です。

データは前回のようにデータに変な偏りはありませんでした。

この比率が正しいとするなら、キャンセル率は結構高いです。

比率が似通っているので予測しやすいかなと思いましたがその通り実際のスコアもトップスコアは0.92でした。

 

■ポイントにしたのは2つ

  • 特徴量の最適化

  特定日付でキャンセルが増えるのではないかと思い、データから曜日、年始からの経過日(YTD)を追加。

  人数構成は合計人数、子供の比率、大人の比率を追加。

  結果は曜日、YTDとも不要で、もともとの年と月が重要でもともとの日は不要。

  人数構成は合計人数のみが重要。もともとの大人、子供それぞれの人数も不要。

  • LightGBM,XGBoostの最適化とアンサンブル

  今回もOptunaを使用して最適化を実施、アンサンブルの予測も実施。

  個人のベスト予測はLightGBM + optuna + cv5でした。

  毎回アンサンブルがベストではなかったです。

 

■結果 125/680位(上位18%)

今回はデータに極端な偏りがなかったのでPublicとPrivateで大きな順位の変動はなかったです。

ちなみに最高位の人はモデルを6つ作りその予測のアンサンブルでした。