Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

忘備録 ポイント情報をメッシュに落とし込む

データ分析に欠かせないのがGISです。 最近は無償ツールやサイトがが増えて便利な時代になりました。 一昔前はGISエンジンやデータは目玉が飛び出るほど高価なものでした。 時代は変わりました。 代表的な無償のGISは日本政府が提供しているjSTAT MAPでしょ…

忘備録 LightGBM カスタムメトリックの使い方

これもしょっちゅう使うものではないので、必要な時に思い出せない。。 医療系の予測時によく特異な関数が出てくる気がする。 でも、標準の評価関数の方が良い時もよくある話。 qiita.com

忘備録 Catboost eval_metricの使い方

Catbboostでeval_metricの使用法を紹介しているサイト。 LihgtGBMの使用法、設定方法のサイトはいろいろあるがCatboostのは少ないので忘れないように。 個人の見解ですかCatboostもデータによるが結構予測精度が良い時が多いような気がする。 mlexplained.bl…

忘備録 大きなデータを分割読み込みする方法

アクセスログなどデータが大きすぎてメモリー不足になった時に使いたいソース。 kaggleで見つけたのですがURLを忘れてしまいました。 作者の人に感謝、感謝です。 def chunk_load(path, file, sample_ratio, seed, usecols=None, chunksize=None, encoding=N…

忘備録 メモリーの有効利用

データが大きくなるとメモリー残量を気にしながらモデル作成しないとメモリーオーバーで落ちる。 これはかなり悲しい出来事です。 そこで↓ kagleで紹介されていた関数。 def reduce_mem_usage(df, verbose=False): numerics = ['int16', 'int32', 'int64', '…

忘備録 LightGBM、CatBoost:二値分類、目的関数への重みづけ

二値分類タスクでは、クラスの不均衡性で目的関数の重みづけが重要となる場合があります。LightGBMの場合 params = { 'objective' : objective, 'metric' : metric, 'boosting_type': boosting_type, 'device': device, 'random_state':39, 'is_unbalance': …

忘備録 tsflex:時系列処理と特徴抽出

kaggle Parkinson's Freezing of Gait Predictionの中で見つけたライブラリ。 時系列データのいろいろな処理で一括でできてしかも軽い。 www.kaggle.com 残念ながらこのコンペの上位はNNを使用したモデルで占められていてlightbgmは惨敗でした。信号や画像の…

SIGNATE ブルーカーボン・ダイナミクスを可視化せよ!

久しぶりのSIGNATEコンペ ブルーカーボン・ダイナミクスを可視化せよ! に参加しました。沖縄の過去時点の藻場状況を予測する内容です。扱えるデータの種類は多く人工衛星の数値データをメインに人工衛星の画像データまであります。私は画像データは使用しま…

追試 kaggle Home Credit Default Risk

コンペ上級者がどんな考え方でコンペを進めているのかを調べる目的で過去のコンペに挑戦。 今回はHome Credit Default Risk ハウジングローンの信用評価の2値分類。 特徴、提供されたテーブルの多さ。 メインキーのSK_ID_CURRの下にSK_ID_BUEAU,SK_ID_PREVと…

忘備録 colab CUDAバージョン固定

今度はcolabのCUDAが11へバージョンアップされたようでLightGBMのGPU版が動かなくなってしまった。 CUDAのバージョンを10へダウンさせるコード。↓ # https://zenn.dev/takeshita/articles/a02402e59d72a7 !wget https://developer.download.nvidia.com/compu…

忘備録 colab LightGBM バージョン固定

最近、LightGBMが3.3.5.99へバージョンアップされてしまいOtunaが動かなくなったのを復旧するため、LightGBMのバージョンを3.3.2へバージョンダウンさせたコード。↓ !pip install lightgbm==3.3.2 --install-option=--gpu最新版のlightGBMのGPU版をインスト…

Book Kaggleで勝つデータ分析の技術

Kaggleを始めたころ買った本です。 しっかりとした著者が時間をかけ内容をまとめた本だと思います。 この手の本は長く役に立つので重宝しています。 当初はよく理解できなかったことも多々ありますが、時々思い出したようにページをめくると、こちらのスキル…

kaggle Playground Series - Season 3, Episode 8

kaggle Playground Series - Season 3, Episode 8です。 今回は宝石の価格予測(回帰)です。 この手の品物には馴染みがないので、ChatGPT君と話をしながら評価基準を勉強しました。ちなみにカラットは体積(大きさ)ではなく重さだそうです。体積だと思って…

kaggle Playground Series - Season 3, Episode 7

kaggle Playground Series - Season 3, Episode 7です。 今回はキャンセルの予測(二項分類)です。 データは前回のようにデータに変な偏りはありませんでした。 この比率が正しいとするなら、キャンセル率は結構高いです。 比率が似通っているので予測しや…

kaggle Playground Series - Season 3, Episode 6

今回はパリ周辺の住宅価格を予測する課題です。 毎回、データに手が加えられていのですが今回はやりすぎの感があります。 squaremetersとpriceに通常ではあり得ないような相関が出ています。 出題者の意向としては、”上と下に見えるグループをしっかり予測し…

kaggle Playground Series - Season 3, Episode 5

今回はワインの品質レベルの予測。 ワインに含まれる11種類の成分の分布で1~10までの(テストデータは3~8)ランクを予測(多値分類)するというもの。 ■キーポイントは3つ 1,2は個人的にトライしてみたい事です。 optunaを使用したパラメータの最適化 これ…

kaggle Playground Series Season 3, Episode 4

去年まで月一回実施されていたTabular Playground Series がPlayground Seriesへリニューアルされました。 課題の頻度と実施期間もエピソードと呼ぶ課題ごとに異なります。 今回はクレジットカード詐欺の検出で期間は7日間でした。 以前は難易度に関係なく1…

Book "明日をどこまで計算できるか?”

日々、モデルを作成して色々な予測をやってみたり、他の人がやった結果を見ていると世の中で予測できないことは無いんじゃないかと勝手に思う時がたびたびありますが、”本当のところはどうなのよ。”と思って読んでみました。 誰もが気にする3つのこと”天気…

SIGNATE マイナビ × SIGNATE Student Cup 2019: 賃貸物件の家賃予測

オプトレコメンドエンジン作成と並行してトライしていたマイナビ × SIGNATE Student Cup 2019: 賃貸物件の家賃予測の結果、家賃予測はこれまで何度かトライしたことがあるので上達度合いを腕試し。 東京23区の賃貸物件の家賃を予測する内容ですが、土地が…

SIGNATE オプト レコメンドエンジン作成 (SOTA Challenge)

今回はSINATE SOTA CHallengeのオプトレコメンドエンジン作成です。 SOTA CHallengeとは以前実施したコンペを練習課題として解放しています。データの提供だけでなく、作業期間も実際のコンペ時と同じように設定されており、最終順位もわかります。 練習問題…

SIGNATE【練習問題】機械稼働音の異常検知

SIGNATE【練習問題】機械稼働音の異常検知にトライ。 音の扱いはまったく素人なので、SIGNATE 工場設備の予知保全を受けてからやった。音声処理ライブラリLibROSAを使用してのデータ読み込みから、分析は簡単なところは平均振幅、ゼロクロス数やフォーリエ変…

コンペ kaggle Tabular Playground Series - Jun 2022

kaggle Tabular Playground Series - Jun 2022にトライ。 今回は欠損値の予測です。 あんまり馴染みがないお題目で初めは戸惑いましたが、Codeを参考に方針を組み立てました。 81種類の正規化された波形データにランダムに存在する欠損値を予測する。 データ…

SIGNATE コンペ

本格的なコンペに初参加! ソニーグループ合同 データ分析コンペティション(for Recruiting) に参戦。 世界の都市のPM2.5の濃度を予測する課題。 PM2.5の濃度に関係すると思われるものを考えた。 以下は独断と偏見。 各都市の環境(人口密度、面積、気候)…

SINATEの練習問題

スキルアップには考えるより、まずは手を動かすこと。 SIGNATEには世の中でよくみられるケースの練習問題があります。 とりあえず、すべてやっている途中。 【練習問題】銀行の顧客ターゲティング 185位/12,450人中 【練習問題】お弁当の需要予測 3,317位/15…

kaggle Tabular Playground Series

kaggleで毎月実施されているテーブルデータの練習問題です。 www.kaggle.com 今回はバイオデータから状態1、0を判断する2値の分類問題です。 データはセンサーの時系列情報のみなので、LihgtGBMで予測するにはデータを変換する必要がありました。 センサー…

SIGNATE ランクアップ

スキルアップのため、SIGNATE,Kaggleのコンペに参加し始めました。 今回は"第20回_Beginner限定コンペ】診断データを使った糖尿病発症予測"に挑戦。 無事'intermediate'に昇格。 最近はLightGBMに特化して練習中。 その理由は性能が良い(高速。新規に特徴量…

AI Questに参加しました。その2 協働プログラム案件が新聞に載りました。

プログラムは前半と後半の2つに分かれていて、後半プログラムのAI導入を検討したい中小企業との協働プログラム案件が日刊工業新聞に載りました。 (リンク先の記事を全文読むためにはユーザー登録が必要です。悪しからず。) www.nikkan.co.jp 協業先はネジ…

AI Questに参加しました。その1

経産省が主催しているAI Questに21年9月から参加しました。 ”AI Questは、参加者同士が学び合い、高め合いながらAI活用を通した企業の課題解決方法を身に付けるプログラムです。”をコンセプトに参加者の共助によってAIのスキルアップをしようと言う場です。…

KaggleとSIGNATE

時間が空いてしまいました。 KaggleとSIGNATEにかかりっきりになってしまいした。 もっと早くに出会えればよかったと思っている今日この頃です。 その理由: データサイエンスの今が分かる。 情報の鮮度が高いです。 こんなにいろいろことが予測できるように…

景気動向指数は株価に影響するの??

景気動向指数が株価に影響しているかどうかを調査してみた。 ■比較対象 景気動向指数と日経平均EFTの株価の関連を調べる。 ■方法 景気動向指数は2か月遅れでだいたい毎月7日に発表される。 (例、7月に発表されるのは5月の指数) CI先行指数が景気の先行きを…