Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

Python

忘備録 LightGBM カスタムメトリックの使い方

これもしょっちゅう使うものではないので、必要な時に思い出せない。。 医療系の予測時によく特異な関数が出てくる気がする。 でも、標準の評価関数の方が良い時もよくある話。 qiita.com

忘備録 大きなデータを分割読み込みする方法

アクセスログなどデータが大きすぎてメモリー不足になった時に使いたいソース。 kaggleで見つけたのですがURLを忘れてしまいました。 作者の人に感謝、感謝です。 def chunk_load(path, file, sample_ratio, seed, usecols=None, chunksize=None, encoding=N…

忘備録 メモリーの有効利用

データが大きくなるとメモリー残量を気にしながらモデル作成しないとメモリーオーバーで落ちる。 これはかなり悲しい出来事です。 そこで↓ kagleで紹介されていた関数。 def reduce_mem_usage(df, verbose=False): numerics = ['int16', 'int32', 'int64', '…

AI Questに参加しました。その1

経産省が主催しているAI Questに21年9月から参加しました。 ”AI Questは、参加者同士が学び合い、高め合いながらAI活用を通した企業の課題解決方法を身に付けるプログラムです。”をコンセプトに参加者の共助によってAIのスキルアップをしようと言う場です。…

主要指標の相関図

■TPOIX・ETFの価格変動を分析しているとき目についた為替、石油価格、金利等のもろもろの指標と世界の主要株価指標との相関を取ってみた。 対象指標の一覧 データのダウンロードはPYTHONのpandas-datareaderライブラリーを使用してyahooから入手。 パラメー…

2019年のTOPIX・ETFの価格変動を基に分析 ~その3~

TOPIX・ETFデータの2016年~2019年 ETFの価格と前日比±1.5%以上価格が変動した日の年度ごとのグラフ 2016年から2019年までTOPIX・ETFの大きな前日比価格変動(±1.5%以上)とその日のニューストピックスで景気動向が分かるかどうかを見ようとしたが無理なよ…

2019年のTOPIX・ETFの価格変動を基に分析 ~その2~

やったこと キーワードリストの作成と作業フローの確立 ■手順:ー 1,354の単語を含む文章を抽出し対象外と思われる1,061単語を選んでネガティブリストを作成。ネガティブリストにしたのは時事問題を漏らさずキャッチしたいから。次に1,354の単語とネガティブ…

2019年のTOPIX・ETFの価格変動を基に分析

やったこと 株価が大きく変動した時にどんなニュースが報道されていたかを調べることで、何が景気に影響を及ぼすと考えているかを考察する。 ■手順:ー 1.TOPIXや業種単位、コモディティなどの大きなカテゴリのETFのデータをダウンロード スクライピング禁…

2020年度と2019年度の比較

2020年度が2019年度に比べてどうだったかを検討。 (注:銀行業を含まず) ■対象:2057社 ■売上 2020年:703兆円 2019年:714兆円 2019年に比べて:△14兆円 (-2%) ■営業利益率: 2020年:38兆円 2019年:51兆円 2019年に比べて:△13兆円 (-25.5 %) …

2020年度の決算情報から感じたこと。

2020年度の銀行業を除く東証上場2,058社の売上合計は703兆円。 703兆円とはどんな規模感? 日本のGDPは554兆円(2018年)より大きい。 日本企業は世界中で日本のGDPより大きな金額を回していることになる。 話は少しそれますが日本のGDPは1995年以降、1年、2…

全体を俯瞰する方法を考える。

JupyterNotebookで企業単体業績の見える化にトライしましたが、本来の目的は”世の中の政治・経済情勢と企業の業績と株価の関係性を見てみる。”なので全企業や業種単位で見てみてどうかを検討するのが筋ではないかと思いどうすれば良いかを考えた。 ■データ …

業績情報の見える化

企業の単体業績データの準備が出来たのでJupyterNotebookで見える化に挑戦。 こんな感じ。 直観的に傾向を把握できます。 グラフと企業のIR(決算短信、中期計画資料等)をながめると方向性が見える。 IR情報には事業単位での話や、新規取り組みの話が書いて…

ダウンロードした企業データを分析用に加工する。

ダウンロードしたデータを以下のように加工。 財務3表を一つのファイルに統合して、以下の項目を追加。 ■売上比 ■前年比 ■主要指標 統合したデータを今後分析に使用しやすいように以下の形で保存 ■5年分の業績を1ファイル ■5年分を年度ごとに分割 いっぺん…

企業業績のデータのダウンロード

東証のリストをもとに企業業績を定期定期にダウンロードすることに挑戦。 決算情報なので項目が共通、すべての項目に金額が記入されていると思いプログラムを書き、リストに従い連続実行させるとエラー多発。 よくよく見ると、”金額が入っていない項目がある…

ITツール群(環境)

現在使用中のもの:ー ■Raspberry pi: データ収集用サーバーとして利用。(Linix) ■Anaconda: 分析環境として使用。(Windows) ●Spyder: Pythonのプログラム作成 ● Jupyter Notebook: データ分析用 ●RStudio: データ分析用 ■GitLab: ソース管理に使用 なんと…