AWS Lake Formationとは?品質の良いインサイトの発見!


AWS Lake Formationとは?概要

AWS Lake Formation とは、安全なデータレイクを短い期間で簡単に作成するサービスです。

データレイクとは、さまざまなデータを安全で一元的に収納できる場所で、すべてのデータが元の形式と分析用に処理された形式の両方で保存することができます。

データレイクを作成することで、データがサイロ化することを防止することができ、AWSの多種多様な複数の分析を組み合わせることができます。複数の分析をすることで、品質の高いインサイトを見つける可能性が高まり、企業経営上の重要な意思決定に役立てることが期待できます。

データレイクの設定や管理には手間がかかる

データレイクの採用は、企業経営にとって魅力的ですが、設定や管理には、スタッフが手作業で行わなければならない手間がかかる作業がいくつもあり、作成までに多くの時間と労力が必要です。AWS Lake Formationを使えば、設定や管理に手間をかけずにデータレイクを活用することができます

概念図

AWS Lake Formationの利点

データレイクを迅速で効率的に活用できる

AWS Lake Formationを使用することで、スタッフが時間と労力をかけなければならなかったデータレイクを設定・管理するために必要な、データの収集、移動、保存、カタログ化などの作業を迅速に実行できるようになります。

スタッフは、データソースにAWS Lake Formationをポイントするだけで、AWS Lake Formationがクロールして、新しく作成した Amazon S3 データレイクにデータを移動してくれます。

Amazon S3 データレイクに移動されたデータは、クエリ用語で整理され、適切なサイズにまとめられ、分析に最適な Apache Parquet や ORC などのフォーマットにも変換します。

さらに、AWS Lake Formationには機械学習が組み込まれており、データの品質向上が期待できます。たとえば、レコードの重複を排除するために、レコード (同一のものを表す 2 つのエントリ) の検索を実行します。

※Amazon S3 は 99.999999999% のデータ耐久性があり、オブジェクトが失われる確率が低い。

セキュリティ、ガバナンス、監査のポリシーを一元で 一貫して定義できる

AWS Lake Formationによって、セキュリティ、ガバナンス、監査のポリシーを一元で一貫して定義・適用できます。

通常、セキュリティ、ガバナンス、監査のポリシーは、セキュリティサービス (AWS Identity and Access Management と AWS Key Management Service)、ストレージサービス ( S3)、分析および機械学習サービス (Redshift、Athena、Apache Spack 向け EMR)などのサービスごとに定義・設定を手動で行わなければなりませんが、AWS Lake Formationによって一元で一貫して分析アプリケーション全体に定義・適用できるため、スタッフの時間と労力を減らし、コンプライアンス対応の向上が見込まれます。

データの検索が簡単で分かりやすい

AWS Lake Formationによってデータレイクに収納されたデータは、利用するときに分かりやすいようにカタログで一元管理され、データの最適な使用をサポートします。データは、AWSの多種多様な複数の分析機能を使って、さらに高水準の分析を行うことができます。

参考資料
https://aws.amazon.com/jp/lake-formation/