Why5

巷にあふれる情報(データ)をもとに"なぜ”、"なぜ”、"なぜ”、、、と掘り下げるブログです。現在は主にAIによる予測スキルの向上に励んでいます。

免責に関して:本サイトの情報により生じた如何なる損害についても、当方は責任を負いません。

2019年のTOPIX・ETFの価格変動を基に分析 ~その2~

やったこと

 キーワードリストの作成と作業フローの確立

 

■手順:ー

 1,354の単語を含む文章を抽出し対象外と思われる1,061単語を選んでネガティブリストを作成。ネガティブリストにしたのは時事問題を漏らさずキャッチしたいから。次に1,354の単語とネガティブリストをぶつけてキーワードリストを作成。最後にキーワードリストとニュースデータをぶつけてキーワードの出現頻度をみた。今後はキーワードが本当にキーワードと呼べるかどうかを確認していく。

 

■作業フロー:ー

  1.  対象のデータを1年分抽出
  2.  前日比±1.5%以上変動した日を抽出
  3.  抽出日のニュースを取集
  4.  単語リストを作成
  5.  作成したリストとネガティブリストをぶつけてキーワードリストを作成。
  6.  ニュースとキーワードリストをぶつけて、キーワードの出現頻度を見る。
  7.  必要に応じてキーワードをカテゴライズ(例:アメリカ関係、中国関係等)して分析

 正規表現自然言語処理をうまく使いこなすがミソ。

 いろいろ工夫したが、まだまだ改良できると思うのでこれは今後の課題。

 

f:id:kaerupub:20210503070854p:plain

単語+文章

f:id:kaerupub:20210503070931p:plain

キーワードの度数表

f:id:kaerupub:20210503071006p:plain

カテゴリー単位の集計

単語単体では出現回数が少ないが、カテゴリーでまとめると見え方が大きく変わる。

やっぱり、アメリカ、中国、欧州、為替の影響を受けているのが改めて分かった。

 

■次にやること:ー

 TOPIXETFのデータで2019年以外を分析して、結果を眺める。

 目論見通り時事問題のワードが引っかかれば良いのですが。

 さてどうなるでしょうか。