kaggle Playground Series - Season 3, Episode 6
今回はパリ周辺の住宅価格を予測する課題です。
毎回、データに手が加えられていのですが今回はやりすぎの感があります。
squaremetersとpriceに通常ではあり得ないような相関が出ています。
出題者の意向としては、”上と下に見えるグループをしっかり予測してね。”と言うことかもしれませんが、それよりも真ん中のグループをしっかり予測した方が良い結果が出るはず。
このデータ分布から見るとPublicのスコアーは全くあてにならないと思われます。たまたま、テストデータに含まれる外れ値の予測値が良いと大幅にポイントアップすると思われるからです。提出するデータはよく考えないとPrivateで大きなポイントダウンを受けることになるはず。実際に最終結果はそんな感じでした。
なので、予測を実行した時のrmse値がよかったXGBoostをOptunaで最適化してCV5で処理したものを提出しました。
あと、あり得ない値の異常値(squaremeters,floors,citycode,made等)があったのでそれは削除しました。
citycodeを分解したり、squaremeterとattic,basement,garageの比率の特徴量を追加しましたが結局ない方が良い結果でした。
■結果 35/705位 満足できる結果でした。