Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

忘備録

忘備録 LightGBM カスタムメトリックの使い方

これもしょっちゅう使うものではないので、必要な時に思い出せない。。 医療系の予測時によく特異な関数が出てくる気がする。 でも、標準の評価関数の方が良い時もよくある話。 qiita.com

忘備録 Catboost eval_metricの使い方

Catbboostでeval_metricの使用法を紹介しているサイト。 LihgtGBMの使用法、設定方法のサイトはいろいろあるがCatboostのは少ないので忘れないように。 個人の見解ですかCatboostもデータによるが結構予測精度が良い時が多いような気がする。 mlexplained.bl…

忘備録 大きなデータを分割読み込みする方法

アクセスログなどデータが大きすぎてメモリー不足になった時に使いたいソース。 kaggleで見つけたのですがURLを忘れてしまいました。 作者の人に感謝、感謝です。 def chunk_load(path, file, sample_ratio, seed, usecols=None, chunksize=None, encoding=N…

忘備録 メモリーの有効利用

データが大きくなるとメモリー残量を気にしながらモデル作成しないとメモリーオーバーで落ちる。 これはかなり悲しい出来事です。 そこで↓ kagleで紹介されていた関数。 def reduce_mem_usage(df, verbose=False): numerics = ['int16', 'int32', 'int64', '…

忘備録 LightGBM、CatBoost:二値分類、目的関数への重みづけ

二値分類タスクでは、クラスの不均衡性で目的関数の重みづけが重要となる場合があります。LightGBMの場合 params = { 'objective' : objective, 'metric' : metric, 'boosting_type': boosting_type, 'device': device, 'random_state':39, 'is_unbalance': …

忘備録 tsflex:時系列処理と特徴抽出

kaggle Parkinson's Freezing of Gait Predictionの中で見つけたライブラリ。 時系列データのいろいろな処理で一括でできてしかも軽い。 www.kaggle.com 残念ながらこのコンペの上位はNNを使用したモデルで占められていてlightbgmは惨敗でした。信号や画像の…

忘備録 colab CUDAバージョン固定

今度はcolabのCUDAが11へバージョンアップされたようでLightGBMのGPU版が動かなくなってしまった。 CUDAのバージョンを10へダウンさせるコード。↓ # https://zenn.dev/takeshita/articles/a02402e59d72a7 !wget https://developer.download.nvidia.com/compu…

忘備録 colab LightGBM バージョン固定

最近、LightGBMが3.3.5.99へバージョンアップされてしまいOtunaが動かなくなったのを復旧するため、LightGBMのバージョンを3.3.2へバージョンダウンさせたコード。↓ !pip install lightgbm==3.3.2 --install-option=--gpu最新版のlightGBMのGPU版をインスト…