Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

2023-01-01から1年間の記事一覧

忘備録 ポイント情報をメッシュに落とし込む

データ分析に欠かせないのがGISです。 最近は無償ツールやサイトがが増えて便利な時代になりました。 一昔前はGISエンジンやデータは目玉が飛び出るほど高価なものでした。 時代は変わりました。 代表的な無償のGISは日本政府が提供しているjSTAT MAPでしょ…

忘備録 LightGBM カスタムメトリックの使い方

これもしょっちゅう使うものではないので、必要な時に思い出せない。。 医療系の予測時によく特異な関数が出てくる気がする。 でも、標準の評価関数の方が良い時もよくある話。 qiita.com

忘備録 Catboost eval_metricの使い方

Catbboostでeval_metricの使用法を紹介しているサイト。 LihgtGBMの使用法、設定方法のサイトはいろいろあるがCatboostのは少ないので忘れないように。 個人の見解ですかCatboostもデータによるが結構予測精度が良い時が多いような気がする。 mlexplained.bl…

忘備録 大きなデータを分割読み込みする方法

アクセスログなどデータが大きすぎてメモリー不足になった時に使いたいソース。 kaggleで見つけたのですがURLを忘れてしまいました。 作者の人に感謝、感謝です。 def chunk_load(path, file, sample_ratio, seed, usecols=None, chunksize=None, encoding=N…

忘備録 メモリーの有効利用

データが大きくなるとメモリー残量を気にしながらモデル作成しないとメモリーオーバーで落ちる。 これはかなり悲しい出来事です。 そこで↓ kagleで紹介されていた関数。 def reduce_mem_usage(df, verbose=False): numerics = ['int16', 'int32', 'int64', '…

忘備録 LightGBM、CatBoost:二値分類、目的関数への重みづけ

二値分類タスクでは、クラスの不均衡性で目的関数の重みづけが重要となる場合があります。LightGBMの場合 params = { 'objective' : objective, 'metric' : metric, 'boosting_type': boosting_type, 'device': device, 'random_state':39, 'is_unbalance': …

忘備録 tsflex:時系列処理と特徴抽出

kaggle Parkinson's Freezing of Gait Predictionの中で見つけたライブラリ。 時系列データのいろいろな処理で一括でできてしかも軽い。 www.kaggle.com 残念ながらこのコンペの上位はNNを使用したモデルで占められていてlightbgmは惨敗でした。信号や画像の…

SIGNATE ブルーカーボン・ダイナミクスを可視化せよ!

久しぶりのSIGNATEコンペ ブルーカーボン・ダイナミクスを可視化せよ! に参加しました。沖縄の過去時点の藻場状況を予測する内容です。扱えるデータの種類は多く人工衛星の数値データをメインに人工衛星の画像データまであります。私は画像データは使用しま…

追試 kaggle Home Credit Default Risk

コンペ上級者がどんな考え方でコンペを進めているのかを調べる目的で過去のコンペに挑戦。 今回はHome Credit Default Risk ハウジングローンの信用評価の2値分類。 特徴、提供されたテーブルの多さ。 メインキーのSK_ID_CURRの下にSK_ID_BUEAU,SK_ID_PREVと…

忘備録 colab CUDAバージョン固定

今度はcolabのCUDAが11へバージョンアップされたようでLightGBMのGPU版が動かなくなってしまった。 CUDAのバージョンを10へダウンさせるコード。↓ # https://zenn.dev/takeshita/articles/a02402e59d72a7 !wget https://developer.download.nvidia.com/compu…

忘備録 colab LightGBM バージョン固定

最近、LightGBMが3.3.5.99へバージョンアップされてしまいOtunaが動かなくなったのを復旧するため、LightGBMのバージョンを3.3.2へバージョンダウンさせたコード。↓ !pip install lightgbm==3.3.2 --install-option=--gpu最新版のlightGBMのGPU版をインスト…

Book Kaggleで勝つデータ分析の技術

Kaggleを始めたころ買った本です。 しっかりとした著者が時間をかけ内容をまとめた本だと思います。 この手の本は長く役に立つので重宝しています。 当初はよく理解できなかったことも多々ありますが、時々思い出したようにページをめくると、こちらのスキル…

kaggle Playground Series - Season 3, Episode 8

kaggle Playground Series - Season 3, Episode 8です。 今回は宝石の価格予測(回帰)です。 この手の品物には馴染みがないので、ChatGPT君と話をしながら評価基準を勉強しました。ちなみにカラットは体積(大きさ)ではなく重さだそうです。体積だと思って…

kaggle Playground Series - Season 3, Episode 7

kaggle Playground Series - Season 3, Episode 7です。 今回はキャンセルの予測(二項分類)です。 データは前回のようにデータに変な偏りはありませんでした。 この比率が正しいとするなら、キャンセル率は結構高いです。 比率が似通っているので予測しや…

kaggle Playground Series - Season 3, Episode 6

今回はパリ周辺の住宅価格を予測する課題です。 毎回、データに手が加えられていのですが今回はやりすぎの感があります。 squaremetersとpriceに通常ではあり得ないような相関が出ています。 出題者の意向としては、”上と下に見えるグループをしっかり予測し…

kaggle Playground Series - Season 3, Episode 5

今回はワインの品質レベルの予測。 ワインに含まれる11種類の成分の分布で1~10までの(テストデータは3~8)ランクを予測(多値分類)するというもの。 ■キーポイントは3つ 1,2は個人的にトライしてみたい事です。 optunaを使用したパラメータの最適化 これ…

kaggle Playground Series Season 3, Episode 4

去年まで月一回実施されていたTabular Playground Series がPlayground Seriesへリニューアルされました。 課題の頻度と実施期間もエピソードと呼ぶ課題ごとに異なります。 今回はクレジットカード詐欺の検出で期間は7日間でした。 以前は難易度に関係なく1…