Amazon Web Services ブログ

Category: AWS Glue

AWS Glue パーティションインデックスを使用したクエリパフォーマンスの向上

本記事はAmazon Web Services, Senior Big Data Architect である 関山 宜孝、Senior Software Development Engineerである Sachet Saurabh、Software Development Manager である Vikas Malik によって投稿されたものです。   クラウド上にデータレイクを作成する場合、データカタログは、メタデータを一元化し、ユーザーがデータを表示、検索、クエリ実行できるようにするために不可欠です。昨今の急激なデータ量増加に伴い、データレイクの価値を維持するためには、データレイアウトを最適化し、クラウドストレージ上のメタデータを維持することがより一層重要になっています。 パーティショニングは、さまざまな分析エンジンでデータを効率的にクエリ実行できるように、データ・レイアウトを最適化するための重要な手法として登場しました。データは、1 つ以上の列の個別の値に基づいて、階層ディレクトリ構造に編成されます。時間の経過とともに、数十万のパーティションがテーブルに追加され、その結果クエリが遅くなります。AWS Glue Data Catalog でカタログ化され、非常に多くのパーティションで構成されたテーブルのクエリ処理を高速化するために、 AWS Glue パーティションインデックスを利用できます。 パーティションインデックスは、 Amazon EMR、Amazon Redshift Spectrum、および AWS Glue の抽出、変換、ロード (ETL) ジョブ (Spark DataFrame) のクエリで使用できます。パーティションを多用した AWS Glue Data Catalog テーブルでパーティションインデックスが有効になっている場合、これらすべてのクエリエンジンが高速化されます。パーティションインデックスを新しいテーブルと既存のテーブルの両方に追加できます。この記事では、パーティションインデックスの使用方法について実演し、非常に多くのパーティションで構成されたデータを操作するときに、パーティションインデックスで得られる利点について説明します。

Read More

データメッシュで作る消費財企業向けモダンデータレイクのアーキテクチャ

COVID-19 パンデミック以来、世界中でオンラインショッピングと消費者向け直販(Direct To Consumer; DTC)への劇的なシフトが見られます。消費財(Consumer Packaged Goods; CPG)業界がどの業界よりもこの変化を感じていることは間違いないでしょう。Statista 社によると「小売ウェブサイトへの訪問者数は全世界で、2020年1月の160億7000万回から、2020年6月には約 220 億回に増加」しました。ウェブサイトへのトラフィックが半年間で27% 増加したことで、データ企業、特に消費財企業にとって管理すべきデータ量が急激に増えました。 これまで消費財企業の多くは消費者と直接的な接点を持ってきませんでした。そのためデータは、小売業者との間の発注や出荷といった内部情報など最小限しかなかったのです。今や優れた消費財企業はエンドユーザーである消費者の行動と、検索分析やソーシャルメディアにおけるセンチメントといった外部データをトラッキングしています。このブログ投稿では、データを大規模に管理するというテーマを深く掘り下げ、なぜ消費財企業がデータメッシュによるデータ管理という新しいアプローチを検討する必要があるのか、その理由について解説します。

Read More

AWS Lake Formation による効果的なデータレイクの構築 パート 3: governed table の ACID トランザクションを使用する

本記事は Amazon Web Services, Senior Big Data Architect である 関山 宜孝 によって投稿されたものです。 Amazon Simple Storage Service(Amazon S3)のデータレイクは、あらゆるエンタープライズデータを扱うデフォルトのリポジトリになり、さまざまな分析ツールや ML ツールからクエリを実行する多くのユーザーにとって一般的な選択肢になっています。多くの場合、複数のソースからデータをデータレイクに継続的に取り込み、同時に多くの分析ツールからデータレイクに対してクエリを実行します。以前は、一貫性のある結果を得るためには、データの整合性を維持するためにカスタムパイプラインを構築し、その結果としてツールにデータが使用可能になるまでに遅延が発生していました。 AWS Re: Invent 2020 で AWS Lake Formationのトランザクション、行レベルのセキュリティ、および高速化のプレビューを発表 しました。以前の記事では、Lake Formation の governed table を設定 (part1) し、データレイクへの取り込みをストリーミングすることに焦点を当てました (part2)。この記事では、原子性、一貫性、分離性、耐久性(ACID)トランザクションに焦点を当てています。S3 上の Lake Formation governed table で ACID トランザクションがどのように機能するかを説明します。

Read More

AWS Lake Formation による効果的なデータレイクの構築 パート 2: ストリーミングデータソース用の governed table を作成する

本記事は Amazon Web Services, Senior Big Data Architect である 関山 宜孝 によって投稿されたものです。 AWS re:Invent 2020 で、AWS Lake Formation のトランザクション、行レベルのセキュリティ、および高速化のプレビューを発表しました。 このシリーズのパート 1 では、governed table を作成して、オブジェクトを追加する方法を説明しました。この記事では、この例を拡張し、Lake Formation トランザクションを使用して governed table にストリーミングデータを取り込む方法を示します。

Read More

OrthoFi社は、Amazon RedshiftとAWS Glueを使って、どのようにお客様に知見を提供したのか

本記事は、OrthoFi社のChrista Pierson氏とJon Fearer氏によって投稿されたものです。 OrthoFi社は、収益管理サイクル(RCM)における歯科矯正業界のリーダーであるとともに、全国で550件を越える歯科矯正診療所と連携し、歯科矯正医が多くの患者を受け入れられ、より効果的に事業が運営できるようなエンドツーエンドのプラットフォームを提供しています。これまで、OrthoFi社は、クライアントが50万人以上の患者に高品質かつ手頃な矯正歯科治療を支援しており、米国で最も急成長している民間企業としてInc.5000リストに3回選ばれました。 この記事では、OrthoFi社が、お客様により良い知見を提供するため、Amazon RedshiftとAWS Glueへどのようにマイグレーションしたのかを、お話していきたいと思います。

Read More

[AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開

先日 (2021/03/30) 開催しました AWS Black Belt Online Seminar「AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. S3 経由で PostgreSQL Database に Java プログラムで加工? データ保管をするプログラムを運用しています。DB に保管せず、Athena 上で複雑な SQL を書いて置き換えができないか検討していましたが、Amazon Glue(やStudio)を使って、S3 のデータを加工できるということでしょうか? 目的の加工データが S3 上にできれば、あとは色々なモジュールで表示するだけなのかなと考えています。 A. はい、Glue や Glue Studio をご利用いただくことで、S3 上のデータを加工し、S3 や RD に保存するジョブを作成することが可能です。また Athena には […]

Read More

【資料&動画公開】AWSで実践!ビジネスを変革するデータ活用ソリューション

2021年3月25日に「AWSで実践!ビジネスを変革するデータ活用ソリューション 」というイベントを実施しました。蓄積されたデータをこれから活用されようとお考えの方向けのセミナーで、特に「簡単に始めていただける」という点にフォーカスして、AWSのソリューションアーキテクトよりご説明しましたた。 今回このセミナーの資料や動画が公開になりましたので、以下で紹介します。

Read More
ハッカソンで使用したアーキテクチャ

【寄稿】株式会社D2CにおけるAWSを活用した機械学習ハッカソンの取り組み

この投稿は株式会社D2Cのデータサイエンティスト 阿部 将大 氏に、自社で開催された機械学習ハッカソンの取り組みについて寄稿頂いたものです。 ※ 一部、ハッカソン開催を支援したAWSも執筆しています 1. はじめに 株式会社D2C ドコモ広告事業本部 データソリューション部の阿部と申します。D2Cは広告事業を展開しており、我々の部署はユーザーや広告主、メディアの分析を行い、広告配信システムのロジックやユーザーセグメントなどの開発をしています。

Read More
Media Seminar Q1 Analytics

2021Q1メディア企業向けAnalytics & AI/MLセミナー : 大阪リージョン/分析基盤

2021年3月18日にメディア業界のお客様向けにAnalytics & AI/MLをテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業はいかにデータを活用し、新たなビジネスを展開していくかに焦点をあて、DMP (データマネジメントプラットフォーム) / CDP (カスタマーデータプラットフォーム)のメリットと活用事例についてご紹介させていただきました。

Read More

【開催報告】2020年 AWS re:Invent Recap ヘルスケア・ライフサイエンス

アマゾン ウェブ サービス ジャパン株式会社 インダストリー事業開発部 片岡です。 ヘルスケア・ライフサイエンス領域でクラウド活用を検討頂いているお客様を幅広く対象として、2021年1月28日に「2020年 AWS re:Invent Recapインダストリー編 ヘルスケア・ライフサイエンス」をウェビナーで開催しました。 本記事では、セッションの中でお伝えしました、最新事例や最新サービスを含む当日の資料・動画を皆様にご紹介します。

Read More