kaggle Playground Series Season 3, Episode 4
去年まで月一回実施されていたTabular Playground Series がPlayground Seriesへリニューアルされました。
課題の頻度と実施期間もエピソードと呼ぶ課題ごとに異なります。
今回はクレジットカード詐欺の検出で期間は7日間でした。
以前は難易度に関係なく1か月だったので、案件によっては長すぎる気がしていたのでこの変更は良いと感じました。また、機械学習にはスピード感が重要な要素の一つなので難易度で期間が変わることは良いことだと思います。
これは以前に実施された課題を元にデータをモディファイされた二値分類の課題です。
■キーポイントは2点と考えました。
- 特徴量'Time'の変換
Timeはデータ取得開始時を0secとしてトランズアクションが発生した時間を表しているので、データの周期性が分からないので24時間単位の値に置き換えました。
0,1の分布に差が見られます。 - 二値の0:1の比率が約400:1と大きい事
比率が大きすぎるので予測が安定しませんでした。今回は1の値をとるデータを増やし200:1にしたところ予測が安定しました。
予測はLightGBM単体で行いました。
特徴量を増やしたりしましたが、結局、増やさない方が良い結果でした。特徴量を増やして精度を上げるのは簡単にはいかないようです。
結果は396/643位今回はもう一つでした。
予測を安定させるのに時間を取られました。あと、上位の人たちは複数のモデルでアンサンブルを行い精度を上げているようです。特徴量をいじくるのはあまり見かけないような気がします。私も次回は複数モデルでアンサンブルに挑戦します。