前回のハンズオンの続きです。
これまで7回にわたって、AWS TutorialsさんのAWS Tutorials Crash Course – AWS Glue and Lake Formationで基本トピックを学ばせていただいてきました。
今回第8回は本シリーズの最終章、、、ではないような最終章です(;^ω^)。
以下のYoutubeを参考にさせていただき学習します。
以下の流れで構成されており、今回は「GlueとLake Formationの高度なトピック」です。
- Glue Data Catalog
- Data Access Control
- Glue Crawler
- Glue Data Catalog Revisited
- Glue Job and Glue Studio
- Glue Workflow
- Advanced Topics
概要
これまでのハンズオンで学習したのは、あくまでGlueやLake Formationの基本的なトピックでした。
今回Vol.8の動画では、いくつか応用編のトピック動画が紹介されていますので順次ご紹介します。
動画のリンクは上記Youtubeの概要欄に記載されています。
【動画1】Working with Data Sources in AWS Glue Job
Glueジョブを作成する際は、様々なデータソースを用います。リレーショナルDBやRedshift、S3、DynamoDBなど。
こうしたデータソースを扱う際には特定のベストプラクティスが存在します。
Glueジョブによるベストプラクティスを学ぶことが出来ます。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画2】Building Event Based AWS Glue ETL Pipeline
様々な方法でGlueのETLパイプラインを構築することができますが、主に3種類の方法があります。
- イベントベースのパイプライン
- Glueワークフローを使用したパイプライン
- Step Functionを使ったパイプライン
Glueワークフローを使用したパイプラインは、前回Vol.7で説明がありました。
イベントベースのパイプラインについて説明しています。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画3】Building ETL Pipeline using AWS Glue and Step Functions
Step Functionsを使ってGlue ETLパイプラインを構築する方法が説明されています。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画4】AWS Lake Formation – Tag Based Access Control
Lake Formationにおけるタグベースのアクセス制御です。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画5】AWS Glue Custom Classifier
これまでのハンズオンで、Glueクローラーは分類子を使用してデータのスキーマを識別し、カタログ化しました。
この動画では複雑なタイプのデータをカタログ化するためのクローラーを用います。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画6】AWS Lake Formation Blueprint
これまでのハンズオンで、Glueワークフローデザイナーを用いてジョブとクローラーをドラッグ&ドロップしてワークフローを定義しました。
ここでは、テンプレートを使用してワークフローを作成できます。このテンプレートをLake Formation Blueprintと呼びます。
Blueprintは事前に準備されたものを使ったり、新たに作成したりすることもできます。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画7】Using AWS Glue ETL Job with Streaming Data
これまでのハンズオンで、Glue ETLジョブを実行しましたが、ストリーミングデータを処理することもできます。
ストリーミングデータは、IoTデバイスなどのソースから取得することも、何らかの種類のストリーミングを行うこともできます。ソーシャルメディアのような種類のストリーミングメディアはその一例です。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画8】Handling Transactions in AWS Lake Formation (Governed Tables)
Lake Formationは、GlueジョブのACIDトランザクションをサポートします。複数の操作を1つのトランザクションに含めることができます。その操作方法を学習できます。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
【動画9】AWS Glue DataBrew
コードを1行も書かずにデータの変換を実行するために使用できるサービス「Glue DataBrew」を学習できます。
いわゆるローコード、ノーコードです。
250以上の組み込みの変換を使用できます。
引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w
おわりに
これほどの内容をYoutubeで学習させていただけるとは思ってもいませんでした。
しかも、今後もトピックを追加されるつもりとのことです。
AWS Tutorialsさん、ありがとうございます。
引き続き、上記アドバンスド編も学習していこうと思います。