Amazon Web Services ブログ

日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました

多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT のような最新の言語モデルを利用することが可能です。

今回 AWS の Open Dataset に新しく、日本語自然言語処理で定番の形態素解析器である Sudachi の語彙(SudachiDict)および単語ベクトル(chiVe)のデータが加わりました。これらについて以下でご紹介します。

Sudachi

Sudachi はオープンソースの日本語形態素解析器です。形態素解析では、主に文章のテキスト分割、品詞の付与、そして正規化処理を行います。Sudachi は従来の形態素解析器と比較して、(1) 複数のテキスト分割単位を併用することが可能、(2) UniDic や NEologd をベースとした多数の語彙を収録している、(3) プラグインによりさまざまな機能を追加可能、といった特徴を持っています。そのため日本語で自然言語処理を行う際に一般的によく利用されています。

SudachiDict

SudachiDict は形態素解析器 Sudachi で利用されている語彙データです。収録語彙の範囲に応じた以下の 3 種類が提供されているため、用途に合わせて好きなものを利用することが可能です。

  • Small: UniDic の収録語とその正規化表記、分割単位を収録
  • Core: 基本的な語彙を収録
  • Full: 雑多な固有名詞まで収録

chiVe

chiVe は大規模コーパスと複数粒度分割に基づく、日本語単語ベクトルです。自然言語処理において、2013 年に提唱された word2vec 以降、単語をベクトルに変換して機械学習モデル構築の中で利用するのは、非常に一般的なアプローチとなっています。chiVe では、国立国語学研究所の日本語ウェブコーパス(NWJC)に対して、Sudachi による分かち書きを用いています。chiVe は、オープンソースの日本語自然言語処理ライブラリである GiNZA と組み合わせて利用することもでき、それにより高精度なモデル開発を行うことが可能です。

これらのデータは S3 上でホストされているため、AWS で日本語自然言語処理モデルの開発を行う際に、素早くデータをダウンロードして利用することができます。例えば SudachiDict の Small をダウンロードするのであれば、AWS CLI から以下のコマンドを打つだけです(AWS CLI のインストールについては、こちらをご覧ください。)!

aws s3 cp s3://sudachi/sudachidict/sudachi-dictionary-latest-small.zip ./

これらデータの詳細については、AWS Open Data の Sudachi に関するページをご覧ください。

https://registry.opendata.aws/sudachi/

ぜひこれらのデータを活用して、AWS 上での日本語自然言語処理モデル開発を楽しんでください!