Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

kaggle Playground Series - Season 3, Episode 6

今回はパリ周辺の住宅価格を予測する課題です。

毎回、データに手が加えられていのですが今回はやりすぎの感があります。

squaremetersとpriceに通常ではあり得ないような相関が出ています。

出題者の意向としては、”上と下に見えるグループをしっかり予測してね。”と言うことかもしれませんが、それよりも真ん中のグループをしっかり予測した方が良い結果が出るはず。

このデータ分布から見るとPublicのスコアーは全くあてにならないと思われます。たまたま、テストデータに含まれる外れ値の予測値が良いと大幅にポイントアップすると思われるからです。提出するデータはよく考えないとPrivateで大きなポイントダウンを受けることになるはず。実際に最終結果はそんな感じでした。

 

なので、予測を実行した時のrmse値がよかったXGBoostをOptunaで最適化してCV5で処理したものを提出しました。

あと、あり得ない値の異常値(squaremeters,floors,citycode,made等)があったのでそれは削除しました。

citycodeを分解したり、squaremeterとattic,basement,garageの比率の特徴量を追加しましたが結局ない方が良い結果でした。

 

■結果 35/705位 満足できる結果でした。