Amazon Web Services ブログ

Category: AWS Glue

[AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開

先日 (2021/03/30) 開催しました AWS Black Belt Online Seminar「AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. S3 経由で PostgreSQL Database に Java プログラムで加工? データ保管をするプログラムを運用しています。DB に保管せず、Athena 上で複雑な SQL を書いて置き換えができないか検討していましたが、Amazon Glue(やStudio)を使って、S3 のデータを加工できるということでしょうか? 目的の加工データが S3 上にできれば、あとは色々なモジュールで表示するだけなのかなと考えています。 A. はい、Glue や Glue Studio をご利用いただくことで、S3 上のデータを加工し、S3 や RD に保存するジョブを作成することが可能です。また Athena には […]

Read More

【資料&動画公開】AWSで実践!ビジネスを変革するデータ活用ソリューション

2021年3月25日に「AWSで実践!ビジネスを変革するデータ活用ソリューション 」というイベントを実施しました。蓄積されたデータをこれから活用されようとお考えの方向けのセミナーで、特に「簡単に始めていただける」という点にフォーカスして、AWSのソリューションアーキテクトよりご説明しましたた。 今回このセミナーの資料や動画が公開になりましたので、以下で紹介します。

Read More
ハッカソンで使用したアーキテクチャ

【寄稿】株式会社D2CにおけるAWSを活用した機械学習ハッカソンの取り組み

この投稿は株式会社D2Cのデータサイエンティスト 阿部 将大 氏に、自社で開催された機械学習ハッカソンの取り組みについて寄稿頂いたものです。 ※ 一部、ハッカソン開催を支援したAWSも執筆しています 1. はじめに 株式会社D2C ドコモ広告事業本部 データソリューション部の阿部と申します。D2Cは広告事業を展開しており、我々の部署はユーザーや広告主、メディアの分析を行い、広告配信システムのロジックやユーザーセグメントなどの開発をしています。

Read More
Media Seminar Q1 Analytics

2021Q1メディア企業向けAnalytics & AI/MLセミナー : 大阪リージョン/分析基盤

2021年3月18日にメディア業界のお客様向けにAnalytics & AI/MLをテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業はいかにデータを活用し、新たなビジネスを展開していくかに焦点をあて、DMP (データマネジメントプラットフォーム) / CDP (カスタマーデータプラットフォーム)のメリットと活用事例についてご紹介させていただきました。

Read More

【開催報告】2020年 AWS re:Invent Recap ヘルスケア・ライフサイエンス

アマゾン ウェブ サービス ジャパン株式会社 インダストリー事業開発部 片岡です。 ヘルスケア・ライフサイエンス領域でクラウド活用を検討頂いているお客様を幅広く対象として、2021年1月28日に「2020年 AWS re:Invent Recapインダストリー編 ヘルスケア・ライフサイエンス」をウェビナーで開催しました。 本記事では、セッションの中でお伝えしました、最新事例や最新サービスを含む当日の資料・動画を皆様にご紹介します。

Read More

[AWS Black Belt Online Seminar] AWS Glue DataBrew 資料及び QA 公開

先日 (2021/02/17) 開催しました AWS Black Belt Online Seminar「AWS Glue DataBrew」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210217 AWS Black Belt Online Seminar AWS Glue DataBrew AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. DataBrew でジョブを実行する際に、読み込む S3 上のファイルの文字コードを指定し?統一して出力することは可能でしょうか。(複数の源泉からファイルを集めた際に、SJIS のファイルを読み込むと文字化けしてしまったため) A. 現状、AWS Glue DataBrew 内での文字コード変換は対応しておりません。 Q. ジョブを日中何度も実行する場合で、処理済ファイルは取得の対象外としたいが、そのような機能はあるでしょうか。? または、そのような状態を再現するためのベストプラクティスがあればご教授いただきたいです。 A. 現状、AWS Glue DataBrew 内ではそのような仕組みがありませんので、外部で処理済ファイルのハンドリングの仕組みをいれていただく必要があります。または AWS Glue DataBrew ではなく、AWS Glue のジョブブックマーク機能を利用することでそのような処理を実現することが可能です。AWS Glue のジョブブックマークの詳細は、ドキュメンテーションをご参照ください。 Q. DataBrew のジョブを一定周期で起動する場合、前回ジョブが終わっていない場合は? 処理をスキップする、というような仕組みは行えるでしょうか。?(源泉1つに対し、一度に動くのは 1 […]

Read More

【開催報告】AWS re:Invent Recap Analytics 〜新サービスアップデート&クイックデモ〜

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。 2021年1月29日に、2020年 AWS re:Invent Recapシリーズのひとつとして、分析サービスのRecapセミナーを開催いたしました。2020年 AWS re:Invent では、AWSの分析サービスに関して、新しいサービスおよび多くのアップデートが発表されました。本セッションでは、新しく発表されたサービスやアップデートを中心に共有させていただくとともに、お客さまの課題や問題をどのように解決できるのか、クイックデモを交えてご紹介させていただきました。

Read More

AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始

AWS Glue は、抽出、変換、およびロード (ETL) のためのフルマネージド型のサービスで、これを利用することで分析のためのデータの準備と読み込みが容易になります。Glue は「サーバーレス」です。リソースをプロビジョニングしたり管理したりする必要はなく、Glue がアクティブに実行されている場合にのみリソースについて支払いを行います。 10 倍速く起動する Spark ETL ジョブを特徴とする AWS Glue バージョン 2.0 の一般提供が開始されました。起動レイテンシーの低減により、全体的なジョブ実行時間が短縮され、マイクロバッチ処理と時間が重要な要素となるワークロードでお客様をサポートし、インタラクティブなスクリプト開発とデータ探索を可能にすることでビジネスの生産性を向上させます。 Spark ETL ジョブの起動時間が 10 倍高速化された AWS Glue バージョン 2.0 の一般提供が開始されました。Glue バージョン 2.0 では、ジョブの起動遅延がより予測可能になり、オーバーヘッドが少なくなります。さらに、AWS Glue バージョン 2.0 の Spark ジョブでは、最小の請求期間が 10 分の 1 (すなわち 10 分の最小請求期間から 1 分の最小請求期間) になり、1 秒単位で請求されます。その結果、お客様は、マイクロバッチ、期限厳守のインタラクティブなワークロードをより高いコスト効率で実行できるようになりました。お客様は、マイクロバッチジョブを実行して、データレイク、データウェアハウス、およびデータベースをすばやくロードし、リアルタイム分析を実現できます。ジョブの起動時間が短くなると、SLA 駆動のデータパイプラインの実行の信頼性がより高まります。ジョブの起動時間を短縮することで、インタラクティブなデータ探索と実験も可能になります。Glue バージョン 2.0 は、wheel ファイルまたはリポジトリから Python モジュールをインストールする新しい機能も提供します。 仕組み AWS […]

Read More

AWS Glue でメモリ管理を最適化する

AWS Glue は、Apache Spark のパワーを使用して分析用のデータセットを準備および処理するサーバーレス環境を提供します。シリーズの第 3 回目の記事では、AWS Glue が一般的なデータ変換を実行するコードを自動的に生成する方法について説明しました。また、AWS Glue ワークフローを使用して、分析のためにデータを簡単に取り込んで変換し、ロードできるデータパイプラインを構築する方法も見てきました。 Apache Spark には、さまざまなワークロードに対してメモリがどのように管理されるかを制御するためのノブがいくつもあります。ただし、これは厳密な科学ではなく、非効率的な変換ロジック、最適化されていないデータ分割、または基盤となる Spark エンジンの他の特異な動作のために、アプリケーションにさまざまなメモリ不足 (OOM) の例外が発生する可能性があります。本シリーズのこの記事では、Glue Spark ETL ジョブの内部処理について詳しく説明し、AWS Glue 機能を Spark のベストプラクティスとどう組み合わせて、ジョブをスケーリングしてデータの多様性とボリュームを効率的に処理するかについて説明します。 Apache Spark ドライバーのスケーリング Apache Spark ドライバーは、ジョブを分析および調整し、作業をタスクに分散させて、可能な限り最も効率的な方法でジョブを完了できるようにします。ETL ジョブの大部分で、ドライバーは通常、Amazon S3 でテーブルパーティションとデータファイルを一覧表示してから、ファイル分割を計算して個々のタスクを処理しています。ドライバーは次に、各ファイル分割を処理する変換タスクを調整します。さらに、ドライバーは各タスクの進行状況を追跡し、最後に結果を収集する必要があります。ジョブが多数のファイルとパーティションを処理する必要がある場合、Spark ドライバーがボトルネックになる可能性があります。AWS Glue は、多数のファイルを処理する際、Spark ドライバーのメモリを効率的に管理するための 5 つの異なるメカニズムを提供しています。 プッシュダウン述語: Glue ジョブでは、プッシュダウン述語を使用して、基になるデータを読み取る前に、テーブルから不要なパーティションをプルーニングできます。これは、テーブルに多数のパーティションがあり、Glue ETL ジョブでそのサブセットのみを処理する場合に便利です。カタログパーティションをプルーニングすると、ドライバーのメモリフットプリントが削減され、さらにプルーニングパーティション内のファイルを一覧表示するために必要な時間が短縮されます。不要なパーティションを無視するために先ずプッシュダウン述語を適用してから、ジョブのブックマークやその他の除外によって、各パーティションから読み取られるファイルのリストをさらにフィルタリングできます。以下は、週末に限って記録されたイベントのデータのみを処理するためにプッシュダウン述語を使用する方法の例です。 partitionPredicate =”date_format(to_date(concat(year, ‘-‘, month, ‘-‘, day)), ‘E’) in (‘Sat’, ‘Sun’)” […]

Read More

Amazon EMR、AWS Glue、Amazon QuickSight を使用して自動データプロファイリングおよびレポートソリューションを構築する

 典型的な分析パイプラインでは、データレイクにデータをインポートした後に通常実行する最初のタスクの 1 つは、データプロファイリングと高レベルのデータ品質分析です。これにより、データセットのコンテンツをチェックします。このようにして、テーブル名、列名とそのタイプなどの情報を含む基本的なメタデータを充実させることができます。 データプロファイリングの結果は、データセットに予期した情報が含まれているかどうか、およびそれらを分析パイプラインのダウンストリームでどのように使用するかを決定するのに役立ちます。さらに、これらの結果は、オプションのデータセマンティクス分析ステージへの入力情報の 1 つとして使用できます。 最新のデータレイクには膨大な量のさまざまなタイプのデータがあり、構造化されていない手動のデータプロファイリングとデータセマンティクスの分析は非現実的で時間がかかります。この記事では、AWS Glue データカタログメタデータの拡張として、データプロファイリングリポジトリの自動作成プロセスを実装する方法と、レポートシステムについて説明します。レポートシステムは、分析パイプラインの設計プロセスを支援するもので、信頼性の高いツールを提供することでさらに分析を行えるようにします。 この記事では、AWS Glue データカタログのアプリケーションデータプロファイラーについて詳しく説明し、実装例をステップバイステップで示します。 概要とアーキテクチャ 次の図は、このソリューションのアーキテクチャを示しています。 AWS Glue データカタログのデータプロファイラーは、Apache Spark Scala アプリケーションです。これにより、Amazon Deequ ライブラリのプロファイリング機能を使用して、データカタログ内のデータベースで定義されたすべてのテーブルをプロファイリングし、その結果をデータカタログと Amazon S3 バケットにパーティション化された Parquet 形式で保存します。Amazon Athena や Amazon QuickSight などの他の分析サービスを使用して、データをクエリして視覚化できます。 Amazon Deequ データライブラリの詳細については、「Deequ を使用した大規模なテストデータ品質」、または GitHub リポジトリのソースコードをご覧ください。 メタデータは、「データに関するデータ」と定義できます。テーブルのメタデータには、テーブル名とその他の属性、列の名前とタイプ、データを含むファイルの物理的な場所などの情報が含まれています。データカタログは AWS のメタデータリポジトリであり、Athena、Amazon EMR、Amazon Redshift などの他の AWS のサービスで使用できます。 データベース内のテーブルのメタデータを作成または更新した後 (テーブルへの新しいデータの追加など)、AWS Glue クローラを使用して、または手動でアプリケーションを実行して各テーブルをプロファイルできます。結果は、テーブルのメタデータの新しいバージョンとしてデータカタログに保存されます。保存された結果は、AWS Lake Formation コンソールからインタラクティブに表示したり、AWS Glue […]

Read More