最近注目が高まってきているデータガバナンス。
どんなサービスを使い、どのようなことが出来るのか。
以下のYoutubeを参考にさせていただき、学習してみることにしました。
以下の流れで構成されており、今回は「イントロダクション+準備(VPCエンドポイント作成)」が中心です。
- Glue Data Catalog
- Data Access Control
- Glue Crawler
- Glue Data Catalog Revisited
- Glue Job and Glue Studio
- Glue workflow
- Advanced Topics
AWS GlueとAWS Lake Formation
AWS公式サイトでは、それぞれ以下のように説明されています。
AWS Glue は、データの準備をより簡単、迅速、低コストにするサーバーレスデータ統合サービスです。70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。
引用元:https://aws.amazon.com/jp/glue/
AWS Lake Formation は、安全なデータレイクを簡単に作成し、幅広い分析にデータを利用できるようにします。
引用元:https://aws.amazon.com/jp/lake-formation/
VPCエンドポイント作成
まずはS3エンドポイント、Glueエンドポイントを作成します。
目標はこちら。
S3エンドポイント(ゲートウェイ型)
S3エンドポイント(ゲートウェイ型)が出来ました。
Glueエンドポイント(インターフェース型)
Glueエンドポイント(インターフェース型)も出来ました。
VPCエンドポイントの料金
ゲートウェイ型は無料ですが、インターフェース型は作成するだけで1個当たり課金が始まります。
すぐに作れるので、今回のような動作確認程度ならば、使わない間は削除しておくのが良さそうです。
https://aws.amazon.com/jp/privatelink/pricing/
2023年4月時点で、インターフェース型は1個あたり0.014USD/時間だよ
以上、今回はイントロダクションとVPCエンドポイント作成でした。