【AWS re:Invent 2017】新サービス「Amazon Comprehend」が発表!

AWS re:Invent 2017で新サービスAmazon Comprehendが発表されました。
Amazon Transcribe, Amazon Translateと共に発表されたテキスト処理系のサービスです。

Amazon Comprehendは自然言語処理により文章の内容を解析し、エンティティやキーフレーズの抽出、言語の特定、書かれている内容の感情を推定することができます。

エンティティ

エンティティは以下が抽出可能です

  • 製品名等
  • 日付
  • イベント
  • 場所
  • 組織
  • 人物
  • 数量
  • タイトル
  • その他

キーフレーズ

キーフレーズは特定のことを指す名詞を含む一連の言葉です。公式ドキュメントの例では、「a bueautiful day」のようにday(名詞)とそれを修飾する「a」「beautiful」の一連の句をキーフレーズとして抽出可能なようです。

言語の特定

言語の特定は現在ちょうど100言語に対応しているとのことです。もちろん日本語にも対応しています。
ComprehendのAPI explorerを使用し日本語を入力してみるとちゃんとJapaneseと認識されます。ただし、漢字ひらがなの文章であれば日本語と認識しますが、ローマ字だと日本語として認識しないようです。
なお、残念ながら日本語だと言語の特定しか動作しません。

感情の推定

感情の推定は、ポシティブ、ネガティブ、中間(Neutral)、ミックス(!?)の感情をスコアリングし、そのスコアを元にアプリケーション側で感情の判別を行います。
試しに、Amazonに対して肯定的なニュース記事と否定的なニュース記事をComprehendに読み込ませてみたところ、肯定的なニュースではポジティブの値が高く、否定的なニュースではネガティブの値が高くなっていました。ただし、普通の文章であれば中間の値が9割以上を占めるようです。

Topic Modeling

Comprehendには、複数の文章を一括で解析し、キーワードの抽出などを行うTopic Modelingという機能もあります。
Topic Modelingを行う文章をS3に置き、Topic Modelingを実行するとキーワードの抽出結果がS3に出力されます。

Amazon Comprehendは、Transcribe, Translateと共に使用することでより強力なツールとなりそうです。

コメントを残す

メールアドレスが公開されることはありません。

Time limit is exhausted. Please reload CAPTCHA.