Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

コンペ kaggle Tabular Playground Series - Jun 2022

kaggle Tabular Playground Series - Jun 2022にトライ。

今回は欠損値の予測です。

あんまり馴染みがないお題目で初めは戸惑いましたが、Codeを参考に方針を組み立てました。

81種類の正規化された波形データにランダムに存在する欠損値を予測する。

データ量が多く、処理に時間が掛かることが困った。

一組のデータが百万個、何をするにしても時間が掛かる。

複雑な手法を試そうとすると処理に12時間以上掛かるので処理を打ち切られた。

分割したり、他の環境に移行すれば良いのだろうが今回は見送り。

 

EDA

 F_2には欠損が存在しない。

 F_4はデータに相関あり。

 その他はデータに相関が見られない。

 

 方針

  F_4はLIghtGBMで予測

  それ以外はskのモデルで予測

 

いろいろな方法がある。

ツリー型の予測モデルはNANが存在していても予測できるのでこれまであまり重要性を感じていなかったけど、ニューラルネット系では何らかの処理をしないと予測できないし、よく考えるとツリー型でも欠損値をうまく補完すれば精度が上がるので地味だけど重要な技術だと認識した。

 

結果:

 193位/844人中