DAT343 セッションレポート: [NEW LAUNCH] Analyze Amazon Aurora PostgreSQL data in Amazon Redshift with zero-ETL

こちらのプレビューに対するセッションになります。
去年発表されたAurora-MySQLからRedshiftへのZero-ETL統合のPostgreSQL版リリースに対するセッション/ゼロETL deep diveセッションとなります。

セッション概要

AWS is investing in a zero-ETL future so organizations can quickly and easily connect to and act on all their data across services. AWS just announced a new zero-ETL integration that helps you unlock the data in your Amazon Aurora PostgreSQL-Compatible Edition databases and makes it available in your Amazon Redshift data warehouse within seconds of the data updates being written. In this session, learn about the capabilities of the Aurora PostgreSQL zero-ETL integration with Amazon Redshift. Walk away from this session with a practical understanding of the capabilities of this zero-ETL integration.

AWSはゼロETLの未来に投資しており、組織は迅速かつ容易にサービス間のすべてのデータに接続し、行動することができます。AWSは、Amazon Aurora PostgreSQL互換版データベースのデータをアンロックし、データの更新が書き込まれた数秒以内にAmazon Redshiftデータウェアハウスで利用できるようにする、新しいゼロETL統合を発表しました。このセッションでは、Amazon RedshiftとAurora PostgreSQLのゼロETL統合の機能について学びます。このセッションでは、このゼロETL統合の機能を実践的に理解することができます。

Amazon Aurora と Amazon Redshift ゼロETL統合

ゼロETLを利用することで、Amazon Redshiftから各データベースのデータにアクセスして、ほぼリアルタイムの分析や機械学習が可能となります。

ゼロETLという名の通り、 ETL オペレーション「Extract (抽出)」「Transform (変換)」「Load (書き出し)」の構築なしでデータの連携が可能となります。

メリット

ほぼリアルタイムのデータアクセス

Amazon Redshift で Aurora のトランザクションデータに数秒でアクセスして、ペタバイト規模のデータでもほぼリアルタイムの分析と機械学習を実行できます。

使いやすい

トランザクションデータを分析システムに移動するための ETL パイプラインを構築して管理する必要なく、トランザクションデータをほぼリアルタイムで迅速に分析できます。

シームレスなデータ統合

複数の Aurora データベースクラスターからのデータを統合し、データを 1 つの Amazon Redshift データウェアハウスに複製して、複数のアプリケーションとデータソースにわたって統合分析を実行します。

インフラストラクチャ管理なし

Amazon Aurora Serverless v2 と Amazon Redshift Serverless の両方を使用すると、インフラストラクチャを管理することなく、トランザクションデータでほぼリアルタイムの分析を実行できます。

ユースケース

ほぼリアルタイムの運用上の分析

Amazon Redshift の分析と ML 機能を使用して、トランザクションデータやその他のデータからほぼリアルタイムでインサイトを引き出し、時間的制約のある重要なイベントに効果的に対応できます。ほぼリアルタイムの分析により、コンテンツターゲティング、最適化されたゲーム体験、データ品質監視、不正検出、顧客行動分析などのユースケースについて、より正確でタイムリーな洞察を得ることができます。

大規模な分析

Amazon Redshift との Aurora ゼロ ETL 統合により、Amazon Redshift の機能を使用して、複数の Aurora データベースクラスターから統合されたペタバイトのトランザクションデータを分析できます。組み込み ML、マテリアライズドビュー、データ共有、複数のデータストアやデータレイクへのフェデレーションアクセスなど、Amazon Redshift の包括的な分析機能を活用できます。Amazon Redshift ML を使用すると、Amazon SageMaker にネイティブに統合されているため、簡単な SQL コマンドで何十億もの予測を実行できます。

運用負担を削減する

トランザクションデータベースから中央データウェアハウスにデータを移動するには、多くの場合、複雑なデータパイプライン ETL ソリューションの構築、保守、運用が必要です。ゼロ ETL 統合により、スキーマ、既存のデータ、データ変更を Aurora データベースから新規または既存の Amazon Redshift クラスターにシームレスに複製できます。ゼロ ETL 統合により、複雑なデータパイプライン管理が不要になります。

開始方法

Aurora と Amazon Redshift 間のゼロETL統合を作成するには、データソースとして Aurora DB クラスターを指定し、ターゲットとして Amazon Redshift データウェアハウスを指定します。統合により、ソースデータベースからターゲットデータウェアハウスにデータが複製されます。データは数秒で Amazon Redshift で利用できるようになり、データアナリストはデータの Amazon Redshift 分析と ML 機能を使い始めることができます。

使い方

RDSのコンソールに「ゼロETL統合」の設定が追加されていますのでそちらから設定をしていくようになります。

大まかな設定手順としては、
1. DBパラメータグループの設定
2. ターゲットとなるRedshiftを選択 ※IAMアクセスが必要
3. ソースデータベースとターゲットRedshiftを選択肢、Redshiftに対してデータのレプリケートを開始する。

こちらのゼロETLを設定が完了することで、
ソースデータベースにデータが書き込まれたデータが数秒以内にRedshiftでも利用可能となるようです。

実際の設定方法

ゼロETLの作成画面から、下記のSTEP1~4をまず設定します。

  • STEP1: 統合名の設定
  • STEP2: ソースDBの選択

データ参照元となる「ソースデータベース」(今回の場合はAurora)と対象の「データベース名」を選択します。

  • STEP3: ターゲットRedshiftの選択

ターゲットとなるRedshiftを選択します。

  • STEP4: タグや暗号化設定

必要に応じてタグや暗号化設定を実施します。

の4ステップすることでAurora-Redshiftの設定は完了となります。

20~30分ほどで設定が完了するとのことです。
ステータスがActiveになると利用可能となるのですが、利用開始するにはRedshiftで統合の設定(インテグレーション専用のデータベースの作成)が必要になるのでそちらも実施する必要があります。

先ほど作成したゼロETL統合の識別子を使用して下記のようなコマンドをRedshiftで実行する必要があるようです。

そうすることで、Auroraのテーブル・データがRedshiftへ連携される仕組みとなっています。

さいごに

今回はAurora PostgreSQL-RedshiftのゼロETLについて紹介しましたが、今回の発表でAuroraMySQL/AuroraPostgreSQL/DynamoDB/RDS MySQLからゼロETLが利用可能となっています。他のゼロETLについてはまた別の機会で調査してみます。

また、今回のブログの参考にしたセッションの動画については現在、動画が公開されています。興味あれば、ご視聴ください!
動画の後半では実際にゼロETLの設定をしたのち、Auroraにデータを投入してRedshiftにニアリアルタイムで参照できることのでも実施していますので、利用イメージも付きやすいかと思います。