AWS GlueとLake Formationを試してみた(Vol.8)

Glue and Lake Formation

前回のハンズオンの続きです。

これまで7回にわたって、AWS TutorialsさんのAWS Tutorials Crash Course – AWS Glue and Lake Formationで基本トピックを学ばせていただいてきました。

今回第8回は本シリーズの最終章、、、ではないような最終章です(;^ω^)。

以下のYoutubeを参考にさせていただき学習します。

以下の流れで構成されており、今回は「GlueとLake Formationの高度なトピック」です。

  • Glue Data Catalog
  • Data Access Control
  • Glue Crawler
  • Glue Data Catalog Revisited
  • Glue Job and Glue Studio
  • Glue Workflow
  • Advanced Topics
目次

概要

これまでのハンズオンで学習したのは、あくまでGlueやLake Formationの基本的なトピックでした。

今回Vol.8の動画では、いくつか応用編のトピック動画が紹介されていますので順次ご紹介します。

動画のリンクは上記Youtubeの概要欄に記載されています。

【動画1】Working with Data Sources in AWS Glue Job

Glueジョブを作成する際は、様々なデータソースを用います。リレーショナルDBやRedshift、S3、DynamoDBなど。

こうしたデータソースを扱う際には特定のベストプラクティスが存在します。

Glueジョブによるベストプラクティスを学ぶことが出来ます。

Working with Data Sources in AWS Glue Job

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画2】Building Event Based AWS Glue ETL Pipeline

様々な方法でGlueのETLパイプラインを構築することができますが、主に3種類の方法があります。

  • イベントベースのパイプライン
  • Glueワークフローを使用したパイプライン
  • Step Functionを使ったパイプライン

Glueワークフローを使用したパイプラインは、前回Vol.7で説明がありました。

イベントベースのパイプラインについて説明しています。

Building Event Based AWS Glue ETL Pipeline

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画3】Building ETL Pipeline using AWS Glue and Step Functions

Step Functionsを使ってGlue ETLパイプラインを構築する方法が説明されています。

Building ETL Pipeline using AWS Glue and Step Functions

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画4】AWS Lake Formation – Tag Based Access Control

Lake Formationにおけるタグベースのアクセス制御です。

AWS Lake Formation - Tag Based Access Control

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画5】AWS Glue Custom Classifier

これまでのハンズオンで、Glueクローラーは分類子を使用してデータのスキーマを識別し、カタログ化しました。

この動画では複雑なタイプのデータをカタログ化するためのクローラーを用います。

AWS Glue Custom Classifier

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画6】AWS Lake Formation Blueprint

これまでのハンズオンで、Glueワークフローデザイナーを用いてジョブとクローラーをドラッグ&ドロップしてワークフローを定義しました。

ここでは、テンプレートを使用してワークフローを作成できます。このテンプレートをLake Formation Blueprintと呼びます。

Blueprintは事前に準備されたものを使ったり、新たに作成したりすることもできます。

AWS Lake Formation Blueprint

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画7】Using AWS Glue ETL Job with Streaming Data

これまでのハンズオンで、Glue ETLジョブを実行しましたが、ストリーミングデータを処理することもできます。

ストリーミングデータは、IoTデバイスなどのソースから取得することも、何らかの種類のストリーミングを行うこともできます。ソーシャルメディアのような種類のストリーミングメディアはその一例です。

Using AWS Glue ETL Job with Streaming Data

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画8】Handling Transactions in AWS Lake Formation (Governed Tables)

Lake Formationは、GlueジョブのACIDトランザクションをサポートします。複数の操作を1つのトランザクションに含めることができます。その操作方法を学習できます。

Handling Transactions in AWS Lake Formation (Governed Tables)

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

【動画9】AWS Glue DataBrew

コードを1行も書かずにデータの変換を実行するために使用できるサービス「Glue DataBrew」を学習できます。

いわゆるローコード、ノーコードです。

250以上の組み込みの変換を使用できます。

AWS Glue DataBrew

引用元:https://www.youtube-nocookie.com/embed/YhTyxIwkd7w

おわりに

これほどの内容をYoutubeで学習させていただけるとは思ってもいませんでした。

しかも、今後もトピックを追加されるつもりとのことです。

AWS Tutorialsさん、ありがとうございます。

引き続き、上記アドバンスド編も学習していこうと思います。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

個人ブログ「Tech Up Labo」を運営する、おーすけ と申します。

IT業界に携わるエンジニアとして、クラウドサービスを用いたデータ分析関連、Webサービス関連の開発において、私自身が学んだことや実際に経験したこと、あるいはその他の情報に基づき情報発信しております。

これらの情報が私自身の備忘録となる一方で、時には他の方が抱える問題に対する解決の一助になることを願っております。

■保有資格
AWS Certified Solutions Architect Associate
JDLA Deep Learning For GENERAL 2020#2
JDLA Deep Learning For ENGINEER 2022#2
PMP、Python3 エンジニア認定基礎、他

目次