去年まで月一回実施されていたTabular Playground Series がPlayground Seriesへリニューアルされました。

課題の頻度と実施期間もエピソードと呼ぶ課題ごとに異なります。

今回はクレジットカード詐欺の検出で期間は7日間でした。

以前は難易度に関係なく1か月だったので、案件によっては長すぎる気がしていたのでこの変更は良いと感じました。また、機械学習にはスピード感が重要な要素の一つなので難易度で期間が変わることは良いことだと思います。

これは以前に実施された課題を元にデータをモディファイされた二値分類の課題です。

■キーポイントは2点と考えました。

特徴量'Time'の変換
Timeはデータ取得開始時を0secとしてトランズアクションが発生した時間を表しているので、データの周期性が分からないので24時間単位の値に置き換えました。

0,1の分布に差が見られます。
二値の0:1の比率が約400:1と大きい事
比率が大きすぎるので予測が安定しませんでした。今回は1の値をとるデータを増やし200:1にしたところ予測が安定しました。

NG

OK