SIGNATE コンペ
本格的なコンペに初参加!
ソニーグループ合同 データ分析コンペティション(for Recruiting) に参戦。
世界の都市のPM2.5の濃度を予測する課題。
PM2.5の濃度に関係すると思われるものを考えた。
以下は独断と偏見。
各都市の環境(人口密度、面積、気候)
→ 各都市の人口密度、面積、標高、気候をネットから収集。めちゃくちゃ時間がかかった。
地球上のメッシュ単位の濃度
→ 一般社団法人世界メッシュ研究所のライブラリのお世話になりました。いろんな研究をしているところがあります。また、成果を無償で提供しているのが本当にありがたいです。地球は丸いので思いついても自分でメッシュを切るなんて簡単にできないことです。感謝。
世界は広いので地域を分割して予測
→ 大陸別、都市間距離でのクラスタリング等いろいろ試しましたが、結局、中国、インド、その他の3つに分けました。
他の都市との距離(汚染のひどい都市に近いと影響を受ける。)
→ 全都市のガスの平均濃度を特徴量としました。都市間の距離を特徴量とすることも考えたのですが、こっちの方がより直接的な気がしてこちらを採用。
ガスの濃度(PM2.5 は複数のガスの化学変化反応で発生するとのこと。)
→ 各ガス濃度の比率の影響が大きい傾向が出ました。
温度(一般的に化学反応は温度に大きく依存する。)
→ 提供データにありました。
日照時間(光によって促進される化学反応もある。光化学スモッグ)
→ 緯度、経度によって日照時間が変わるので日照時間を算出。これもいろんなライブラリがあります。
結果
342位/835人(上位41%に入る)
初めてにしてはまずまずかな。
やはり本当のコンペはレベルが高いと感じた。