金融文書を用いた事前学習言語モデルの構築と検証†
著者†
鈴木雅弘, 坂地泰紀, 平野正徳, 和泉潔(東京大学)
概要†
BERTを始めとする事前学習言語モデルは、様々な自然言語処理のタスクにおいて成果を上げている。これらのモデルの多くはWikipediaやニュース記事などの一般的なコーパスを用いているため、専門的な単語が使用される金融分野においては十分な効果が得られない。本研究では決算短信や有価証券報告書から事前学習言語モデルを構築する。また金融ドメインのタスクによって汎用モデルとの性能を比較する。
キーワード†
事前学習モデル, 自然言語処理, BERT