Amazon Web Services ブログ

[AWS Black Belt Online Seminar] AWS Glue 資料及び QA 公開

先日 (2019/8/6) 開催しました AWS Black Belt Online Seminar「AWS Glue」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。

 

 

20190806 AWS Black Belt Online Seminar AWS Glue

AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます)

Q. データソースをクロールする際にデータソース側で開放するポートはなんですか?
A. データソースがVPC内に存在するRDSやRedshiftの場合、クローラーからアクセスするためには「すべての TCP ポート」に対して自己参照のインバウンドルールを持つセキュリティグループを指定します。自己参照ルールを作成することで、ソースを VPC 内の同じセキュリティグループに制限することができる為、ネットワーク全体には公開されません。なお、VPCのデフォルトのセキュリティグループには、すでに ALL Traffic (すべてのトラフィック) の自己参照インバウンドルールがある場合があります。
また、オンプレミスのデータベースを使用する場合、接続するデータベースのポートおよびネットワークへのアクセスができるように、ファイアウォールを設定していただく必要があります。下記、参考URLをご確認ください。

・JDBC データストアに接続するための VPC の設定はこちら

・How to access and analyze on-premises data stores using AWS Glue(英語)はこちら

Q. AWS BatchとGlue (python shell)との使い分けはどうすれば良いでしょうか?
A. ランタイム・言語、ライブラリ、実行するジョブのコンピューティングリソースの3つの観点で、選択いただければと思います。

・ランタイム・言語
GlueのPython Shellでは、Pythonのみ利用可能で、バージョンは2.7、もしくは3.6のみ選択可能です。一方、AWS BatchではDockerコンテナを利用する為、ご自身で自由なランタイム・言語を選択することができます。

・ライブラリ
GlueのPython Shellでは、boto3やNumpyなどいくつかのライブラリが既に利用可能な状態の環境をご提供しています。お客様側では実行するコードのみを管理いただきます。(バージョン互換があれば、独自のライブラリも指定可能です)。
一方、AWS Batchはコンテナでジョブが実行されるため、お客様が実施したいジョブに必要なライブラリが入ったコンテナイメージをご自身で用意していただく必要があります。お客様で実施したい処理内容に基づいて、どのようにカスタマイズしたいかによって、使い分けていただければと思います。

・実行するコンピューティングリソース
Glueでは、DPUという単位で処理を実行します。DPUのコンピューティングリソースは4vCPU、16GBメモリです。Python ShellではDPUを1個、もしくは1/16個選択することができます。
一方、AWS Batchでは、EC2のインスタンスタイプを選択し、コンピューティングリソースを決定します。1DPUよりも多くのスペックが必要なETL処理、GPUなどを用いた処理を実行したい場合は、AWS Batchが選択肢となります。

今後の AWS Webinar | イベントスケジュール

直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。

【初心者向け】AWSome Day Online Conference
AWS を利用して、利用して、セキュアでスケーラブルなウェブサービスの構築手順を体験できるハンズオンをオンラインで開催いたします。 AWS を使ってより安全にサービスを運用する方法、ウェブサービスの規模に合わせて、柔軟にシステムを拡張する方法を体験できる内容です。
2019 年 8 月 29 日 (木) | 15:00 – 17:30 申込先 ≫
2019 年 9 月 18 日 (水) | 15:00 – 17:30 申込先 ≫

【経験者向け】Amazon SageMaker Ground Truth 体験ハンズオン
Amazon SageMaker Ground Truth は、機械学習を利用してデータを分類するために必要不可欠な、データラベリングの作業を効率化するサービスです。
本セミナーでは、Amazon SageMaker Ground Truth の概要を紹介し、ラベリングジョブを作成して、ジョブを実行するまでの流れをハンズオン形式で体験していただきます。
2019 年 8 月 20 日 (火) | 15:00 – 16:30 申込先 ≫

【AWS認定】試験準備 オンラインセミナー
「AWS認定ソリューションアーキテクト – アソシエイト」は AWS のテクノロジーを使用して安全で堅牢なアプリケーションを構築し、デプロイするための知識を持っていることを証明する認定資格です。
本ワークショップでは、試験問題を解く際のポイントや理解を深めるためのドキュメントを出題分野ごとにを解説します。

2019 年 8 月 23 日 (金) | 15:00 – 18:30 申込先 ≫

【サービス別に詳細を知りたい方向け】AWS Black Belt Online Seminar
AWS Black Belt Online Seminar 8月分申込先 ≫

Serverless モニタリング | 2019 年 8 月 20 日 (火) | 12:00 – 13:00
AWS AppSync | 2019 年 8 月 21 日 (水) | 18:00 – 19:00
Amazon Aurora with PostgreSQL Compatibility | 2019 年 8 月 28 日 (水) | 18:00 – 19:00