2019年のTOPIX・ETFの価格変動を基に分析 ~その2~
やったこと
キーワードリストの作成と作業フローの確立
■手順:ー
1,354の単語を含む文章を抽出し対象外と思われる1,061単語を選んでネガティブリストを作成。ネガティブリストにしたのは時事問題を漏らさずキャッチしたいから。次に1,354の単語とネガティブリストをぶつけてキーワードリストを作成。最後にキーワードリストとニュースデータをぶつけてキーワードの出現頻度をみた。今後はキーワードが本当にキーワードと呼べるかどうかを確認していく。
■作業フロー:ー
- 対象のデータを1年分抽出
- 前日比±1.5%以上変動した日を抽出
- 抽出日のニュースを取集
- 単語リストを作成
- 作成したリストとネガティブリストをぶつけてキーワードリストを作成。
- ニュースとキーワードリストをぶつけて、キーワードの出現頻度を見る。
- 必要に応じてキーワードをカテゴライズ(例:アメリカ関係、中国関係等)して分析
いろいろ工夫したが、まだまだ改良できると思うのでこれは今後の課題。
単語単体では出現回数が少ないが、カテゴリーでまとめると見え方が大きく変わる。
やっぱり、アメリカ、中国、欧州、為替の影響を受けているのが改めて分かった。
■次にやること:ー
TOPIX・ETFのデータで2019年以外を分析して、結果を眺める。
目論見通り時事問題のワードが引っかかれば良いのですが。
さてどうなるでしょうか。