2019年のTOPIX・ETFの価格変動を基に分析
やったこと
株価が大きく変動した時にどんなニュースが報道されていたかを調べることで、何が景気に影響を及ぼすと考えているかを考察する。
■手順:ー
1.TOPIXや業種単位、コモディティなどの大きなカテゴリのETFのデータをダウンロード
スクライピング禁止のサイトがあるので、そこに注意して実施。
2.ダウンロードしたデータを可視化する。
役に立ちそうなtidyverse、quantmodのパッケージに挑戦しつつ進める。
特にtidyverseは以下の役に立つパッケージが一度に取り込めるので大変便利。
(どんなパッケージが良いかあれこれ考えなくて良い。”使いやすい環境”を構築するには結構時間が掛かるし、ビギナーにとって”使いやすい環境”を判断するのも難しい。)
ggplot2: グラフ描画パッケージ
dplyr: データ操作パッケージ
tidyr: tidy dataを作るためのパッケージ
readr: データファイル読み込みパッケージ
purrr: 繰り返し計算を行うためのツール
tibble: tidyverseの世界で使うデータ形式。データフレームの一種
stringr: 文字列操作ライブラリ
forcats: ファクタ(因子)操作ライブラリ
使い込んでいくのはこれからですが、パイプ演算子 %>% は使い始めると止まらないし、long <-> wide 形式の概念はすごいと思う。(”コンピュータが理解しやすいデータ”と”人間が理解しやすいデータ”の形式変換と勝手に理解した。)
おかげで複数データを一つのグラフ上に表示することが簡単に出来るようになった。
(→エクセルでは当たり前に出来るのですが、Rではなかなかできず悩んでいた。)
トピックスのETFのデータをローソク足チャートで表示、パラメータを設定するだけでここまで出来る。
複数系列の重ね合わせもこの通り。
3.ケーススタディ:2019年一年でTOPIX・ETFにいつ大きな価格変動(前日比)があったかを調査
変動値の閾値をいろいろためしたが、結論として±1.5%に決定。
2019年は1年で26回あった。多いのか少ないのか?
4.26回のそれぞれの日に何が起こったかを調査
ロイターの過去ニュースのサイトで変動原因のニュースをコピペして基データを作成。
自然言語処理に挑戦と思い形態素解析エンジンMeCabを使える環境にしていじり始めましたが、この沼も相当深そうなので、今回は正規表現を使用して漢字とカタカナの単語を抜き出しその出現頻度を調べた。
自然言語処理も引き続き挑戦していく予定。
やることはまだまだいっぱいある。
1,354の単語が抽出されて出現頻度は以下の通り。
ここから景気に影響しそうな単語を抽出する予定。
さてどのようにするか?
■お世話になりました。
*株価データのダウンロード
*ローソクグラフの作成
*パッケージ
*ロイターのサイト
https://www.reuters.com/resources/archive/jp/index.html