Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

分類

追試 kaggle Home Credit Default Risk

コンペ上級者がどんな考え方でコンペを進めているのかを調べる目的で過去のコンペに挑戦。 今回はHome Credit Default Risk ハウジングローンの信用評価の2値分類。 特徴、提供されたテーブルの多さ。 メインキーのSK_ID_CURRの下にSK_ID_BUEAU,SK_ID_PREVと…

kaggle Playground Series - Season 3, Episode 7

kaggle Playground Series - Season 3, Episode 7です。 今回はキャンセルの予測(二項分類)です。 データは前回のようにデータに変な偏りはありませんでした。 この比率が正しいとするなら、キャンセル率は結構高いです。 比率が似通っているので予測しや…

kaggle Playground Series - Season 3, Episode 5

今回はワインの品質レベルの予測。 ワインに含まれる11種類の成分の分布で1~10までの(テストデータは3~8)ランクを予測(多値分類)するというもの。 ■キーポイントは3つ 1,2は個人的にトライしてみたい事です。 optunaを使用したパラメータの最適化 これ…

kaggle Playground Series Season 3, Episode 4

去年まで月一回実施されていたTabular Playground Series がPlayground Seriesへリニューアルされました。 課題の頻度と実施期間もエピソードと呼ぶ課題ごとに異なります。 今回はクレジットカード詐欺の検出で期間は7日間でした。 以前は難易度に関係なく1…

kaggle Tabular Playground Series

kaggleで毎月実施されているテーブルデータの練習問題です。 www.kaggle.com 今回はバイオデータから状態1、0を判断する2値の分類問題です。 データはセンサーの時系列情報のみなので、LihgtGBMで予測するにはデータを変換する必要がありました。 センサー…

SIGNATE ランクアップ

スキルアップのため、SIGNATE,Kaggleのコンペに参加し始めました。 今回は"第20回_Beginner限定コンペ】診断データを使った糖尿病発症予測"に挑戦。 無事'intermediate'に昇格。 最近はLightGBMに特化して練習中。 その理由は性能が良い(高速。新規に特徴量…