潜在トピック空間上でのマルチタスク学習による企業評価テキストデータを用いた財務指標予測†
著者†
茂庭綾香,中川雄太,江口浩二(神戸大学)
概要†
個別の企業に関するテキストデータからその企業の財務指標を予測する課題に取り組む.このような目的のもと,我々は教師ありトピックモデルの一種であるMultiMedLDAについて提案してきた.MultiMedLDAでは,一つのテキストに対して離散値と連続値という二種類のラベルが付与されていると仮定する.双方のラベルとテキストの間の関係を学習し,一方のラベルが未知となった場合に,既知であるもう一方のラベルとテキストから未知のラベルの値を予測する.テキスト情報に加えて既知ラベルの情報を利用することで,未知ラベルの予測精度の改善が期待できる.この手法の有効性を検証するため,『会社四季報』のデータを用いて実験を行った.各企業の短評をテキストデータ,当該企業が属する業種を離散値ラベル,ROE(Return On Equity,自己資本利益率)を連続値ラベルとして,ROEが未知である状況を想定した.
キーワード†
マルチタスク教師付きトピックモデル,金融テキストマイニング,収益予測