コンペ kaggle Tabular Playground Series - Jun 2022
kaggle Tabular Playground Series - Jun 2022にトライ。
今回は欠損値の予測です。
あんまり馴染みがないお題目で初めは戸惑いましたが、Codeを参考に方針を組み立てました。
81種類の正規化された波形データにランダムに存在する欠損値を予測する。
データ量が多く、処理に時間が掛かることが困った。
一組のデータが百万個、何をするにしても時間が掛かる。
複雑な手法を試そうとすると処理に12時間以上掛かるので処理を打ち切られた。
分割したり、他の環境に移行すれば良いのだろうが今回は見送り。
F_2には欠損が存在しない。
F_4はデータに相関あり。
その他はデータに相関が見られない。
方針
F_4はLIghtGBMで予測
それ以外はskのモデルで予測
いろいろな方法がある。
ツリー型の予測モデルはNANが存在していても予測できるのでこれまであまり重要性を感じていなかったけど、ニューラルネット系では何らかの処理をしないと予測できないし、よく考えるとツリー型でも欠損値をうまく補完すれば精度が上がるので地味だけど重要な技術だと認識した。
結果:
193位/844人中