2023-01-01から1年間の記事一覧
データ分析に欠かせないのがGISです。 最近は無償ツールやサイトがが増えて便利な時代になりました。 一昔前はGISエンジンやデータは目玉が飛び出るほど高価なものでした。 時代は変わりました。 代表的な無償のGISは日本政府が提供しているjSTAT MAPでしょ…
これもしょっちゅう使うものではないので、必要な時に思い出せない。。 医療系の予測時によく特異な関数が出てくる気がする。 でも、標準の評価関数の方が良い時もよくある話。 qiita.com
Catbboostでeval_metricの使用法を紹介しているサイト。 LihgtGBMの使用法、設定方法のサイトはいろいろあるがCatboostのは少ないので忘れないように。 個人の見解ですかCatboostもデータによるが結構予測精度が良い時が多いような気がする。 mlexplained.bl…
アクセスログなどデータが大きすぎてメモリー不足になった時に使いたいソース。 kaggleで見つけたのですがURLを忘れてしまいました。 作者の人に感謝、感謝です。 def chunk_load(path, file, sample_ratio, seed, usecols=None, chunksize=None, encoding=N…
データが大きくなるとメモリー残量を気にしながらモデル作成しないとメモリーオーバーで落ちる。 これはかなり悲しい出来事です。 そこで↓ kagleで紹介されていた関数。 def reduce_mem_usage(df, verbose=False): numerics = ['int16', 'int32', 'int64', '…
二値分類タスクでは、クラスの不均衡性で目的関数の重みづけが重要となる場合があります。LightGBMの場合 params = { 'objective' : objective, 'metric' : metric, 'boosting_type': boosting_type, 'device': device, 'random_state':39, 'is_unbalance': …
kaggle Parkinson's Freezing of Gait Predictionの中で見つけたライブラリ。 時系列データのいろいろな処理で一括でできてしかも軽い。 www.kaggle.com 残念ながらこのコンペの上位はNNを使用したモデルで占められていてlightbgmは惨敗でした。信号や画像の…
久しぶりのSIGNATEコンペ ブルーカーボン・ダイナミクスを可視化せよ! に参加しました。沖縄の過去時点の藻場状況を予測する内容です。扱えるデータの種類は多く人工衛星の数値データをメインに人工衛星の画像データまであります。私は画像データは使用しま…
コンペ上級者がどんな考え方でコンペを進めているのかを調べる目的で過去のコンペに挑戦。 今回はHome Credit Default Risk ハウジングローンの信用評価の2値分類。 特徴、提供されたテーブルの多さ。 メインキーのSK_ID_CURRの下にSK_ID_BUEAU,SK_ID_PREVと…
今度はcolabのCUDAが11へバージョンアップされたようでLightGBMのGPU版が動かなくなってしまった。 CUDAのバージョンを10へダウンさせるコード。↓ # https://zenn.dev/takeshita/articles/a02402e59d72a7 !wget https://developer.download.nvidia.com/compu…
最近、LightGBMが3.3.5.99へバージョンアップされてしまいOtunaが動かなくなったのを復旧するため、LightGBMのバージョンを3.3.2へバージョンダウンさせたコード。↓ !pip install lightgbm==3.3.2 --install-option=--gpu最新版のlightGBMのGPU版をインスト…
Kaggleを始めたころ買った本です。 しっかりとした著者が時間をかけ内容をまとめた本だと思います。 この手の本は長く役に立つので重宝しています。 当初はよく理解できなかったことも多々ありますが、時々思い出したようにページをめくると、こちらのスキル…
kaggle Playground Series - Season 3, Episode 8です。 今回は宝石の価格予測(回帰)です。 この手の品物には馴染みがないので、ChatGPT君と話をしながら評価基準を勉強しました。ちなみにカラットは体積(大きさ)ではなく重さだそうです。体積だと思って…
kaggle Playground Series - Season 3, Episode 7です。 今回はキャンセルの予測(二項分類)です。 データは前回のようにデータに変な偏りはありませんでした。 この比率が正しいとするなら、キャンセル率は結構高いです。 比率が似通っているので予測しや…
今回はパリ周辺の住宅価格を予測する課題です。 毎回、データに手が加えられていのですが今回はやりすぎの感があります。 squaremetersとpriceに通常ではあり得ないような相関が出ています。 出題者の意向としては、”上と下に見えるグループをしっかり予測し…
今回はワインの品質レベルの予測。 ワインに含まれる11種類の成分の分布で1~10までの(テストデータは3~8)ランクを予測(多値分類)するというもの。 ■キーポイントは3つ 1,2は個人的にトライしてみたい事です。 optunaを使用したパラメータの最適化 これ…
去年まで月一回実施されていたTabular Playground Series がPlayground Seriesへリニューアルされました。 課題の頻度と実施期間もエピソードと呼ぶ課題ごとに異なります。 今回はクレジットカード詐欺の検出で期間は7日間でした。 以前は難易度に関係なく1…