Amazon Web Services ブログ

Category: AWS Glue

小売業におけるアダプティブ分析: 顧客の行動とエンゲージメントに影響を与える

小売業界において、日常業務におけるデータの重要性に異論のある方はいないでしょう。バッチレポートから意思決定支援、ビジネスインテリジェンスシステムまで、小売の意思決定における運用データの進化は非常に多岐にわたります。今日、アダプティブ分析プラットフォームは、小売業者が次のことができるよう、業界のイノベーションを推進しています。 ビジネスにおける重要なシグナルを検出します。 これらのシグナルの現在の意味と将来の予測を導き出します。 データドリブンな顧客、製品、マーケティング戦略で対応します。 しかし、アダプティブ分析プラットフォームを構築するためには、小売業の経営者が直面する多くの戦略的課題があります。例えば、急速に変化する買い物客の影響や行動のトリガー、人口動態の変化、COVID-19 などの世代別市場レベルの影響、主要な経済圏の景気低迷といった課題や、お客様対応とオペレーション業務を効果的に行うために、予測に基づいた洞察が求められる小売業の職種が一層増えていることなどが挙げられます。

Read More
Seven-SmartStore-Strategies-Streamline-RetailOps

小売業のオペレーションを効率化する 7 つのスマートストア戦略

小売業界では、消費者行動の劇的な変化、商品構成の大幅な変更、オンライン注文の大幅な増加に取り組んでいますが、革新的な企業は、このような市場の変化に対応するために、テクノロジーを駆使したカスタマーエクスペリエンスの取り組みを進めています。私たちは、こうした取り組みを心から称賛します。 しかしながらそれでは十分ではありません。 小売企業は、店舗のバックオフィス業務にも注力し、自動化、効率化、コスト削減を図らなければなりません。なぜなら、これらの要素は、顧客対応と財務の健全性に不可欠だからです。従業員や内部プロセスを無視して、顧客体験のテクノロジーへの投資を行っても、意図したとおりの効果は得られないでしょう。

Read More
use-amazon-athena-and-aws-cloudtrail-to-estimate-billing-for-aws-config-rule-evaluations

Amazon Athena と AWS CloudTrail を使用したAWS Config Rules 利用料の見積もり

AWS Config  は、AWSリソースがあるべき設定状態に準拠しているかを監査するサービスです。記録された設定項目の数と 1 か月あたりのリソースごとに行われる AWS Config Rules の評価件数に基づいて課金されます。 この記事では、Amazon Athena を使用して AWS CloudTrail ログをクエリし、AWS Config Rules 評価の詳細な請求内訳を確認する方法をご紹介します。請求の内訳を把握することで月額コストに最も寄与しているルールを特定することができれば、特定のルールの実行頻度を減らしてコストを抑えるといったコスト最適化施策を講じることができます。なお、この記事ではAWS Configの設定項目の確認については触れていません。詳細については、ブログ記事「Identifying resources with the most configuration changes using AWS Config」を参照してください。

Read More

AWS Glue カスタムブループリントを使ってデータ統合パイプライン開発を簡単にする

本記事はAmazon Web Services, big data architect である Noritaka Sekiyama 、 software development engineer である Keerthi Chadalavada および Global Business Development Manager である Shiv Narayanan によって投稿されたものです。   多くの組織は、データウェアハウス、データレイクおよびレイクハウスのデータ統合パイプライン開発や維持に膨大な時間を費やしています。データエンジニアリングチームは、データ量の増加にしたがって、ビジネスチームからの新たな要求への対応に苦労するようになります。それらの要求の多くは、様々なチームから来るものですが、互いに類似しています。例えば、ソースシステムからデータレイクへの生データの取り込み、特定のキーによるデータのパーティショニング、データレイクからリレーショナルデータベースへのデータの書き込み、欠損値に対してのデフォルト値の割当などです。これらの要求に対応するため、データエンジニアは、開発環境でパイプラインを変更し、テストし、本番環境へデプロイすることになります。この冗長なプロセスは、エラーを生み出しやすく、時間がかかる原因になっています。 データエンジニアは、パイプライン開発の複雑さを抽象化することによって、ビジネスアナリスト、データアナリスト、データサイエンティストのような非データエンジニアにもセルフサービス方式によって運用できるようにする手法を必要としています。この記事では、再利用可能な AWS Glue ワークフローを構築・共有するためのフレームワークである、 AWS Glue カスタムブループリントをご紹介します。

Read More

[AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開

「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。   202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 後編 AWS Black Belt Online Seminar オンデマンド動画 コンテンツ 一覧 AWS サービス別資料 (すべての過去資料が閲覧できます)   猫でもわかる、AWS Glue ETLパフォーマンス・チューニング IT 知識レベル:★★★★☆ | AWS […]

Read More

テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行

本記事は Amazon Web Services, Senior Analytics Specialist Solutions Architect である Fabrizio Napolitano によって投稿されたものです。 データレイクは、クラウドに構築すると有利になることがあります。セキュリティ、デプロイ時間の短縮、可用性、頻繁な機能の更新、弾力性、地理的に広範囲なサービス展開、および使った分だけ発生するコストが理由です。ところが、最近の Gartner や Harvard Business Review の調査によると、マルチクラウドやインタークラウド・アーキテクチャは、データマネージメント、(データ)ガバナンス、(データ)インテグレーションを複雑にすると言われています。データサイエンティストが、適切なデータにアクセスし、分析プロセスを実施するためには、シンプルで素早くコスト効率の高いやり方で、様々な(データ)ソースから、テラバイト級のデータを持って来れるようにするのが必要不可欠なのです。

Read More

AWS Glue パーティションインデックスを使用したクエリパフォーマンスの向上

本記事はAmazon Web Services, Senior Big Data Architect である 関山 宜孝、Senior Software Development Engineerである Sachet Saurabh、Software Development Manager である Vikas Malik によって投稿されたものです。   クラウド上にデータレイクを作成する場合、データカタログは、メタデータを一元化し、ユーザーがデータを表示、検索、クエリ実行できるようにするために不可欠です。昨今の急激なデータ量増加に伴い、データレイクの価値を維持するためには、データレイアウトを最適化し、クラウドストレージ上のメタデータを維持することがより一層重要になっています。 パーティショニングは、さまざまな分析エンジンでデータを効率的にクエリ実行できるように、データ・レイアウトを最適化するための重要な手法として登場しました。データは、1 つ以上の列の個別の値に基づいて、階層ディレクトリ構造に編成されます。時間の経過とともに、数十万のパーティションがテーブルに追加され、その結果クエリが遅くなります。AWS Glue Data Catalog でカタログ化され、非常に多くのパーティションで構成されたテーブルのクエリ処理を高速化するために、 AWS Glue パーティションインデックスを利用できます。 パーティションインデックスは、 Amazon EMR、Amazon Redshift Spectrum、および AWS Glue の抽出、変換、ロード (ETL) ジョブ (Spark DataFrame) のクエリで使用できます。パーティションを多用した AWS Glue Data Catalog テーブルでパーティションインデックスが有効になっている場合、これらすべてのクエリエンジンが高速化されます。パーティションインデックスを新しいテーブルと既存のテーブルの両方に追加できます。この記事では、パーティションインデックスの使用方法について実演し、非常に多くのパーティションで構成されたデータを操作するときに、パーティションインデックスで得られる利点について説明します。

Read More

データメッシュで作る消費財企業向けモダンデータレイクのアーキテクチャ

COVID-19 パンデミック以来、世界中でオンラインショッピングと消費者向け直販(Direct To Consumer; DTC)への劇的なシフトが見られます。消費財(Consumer Packaged Goods; CPG)業界がどの業界よりもこの変化を感じていることは間違いないでしょう。Statista 社によると「小売ウェブサイトへの訪問者数は全世界で、2020年1月の160億7000万回から、2020年6月には約 220 億回に増加」しました。ウェブサイトへのトラフィックが半年間で27% 増加したことで、データ企業、特に消費財企業にとって管理すべきデータ量が急激に増えました。 これまで消費財企業の多くは消費者と直接的な接点を持ってきませんでした。そのためデータは、小売業者との間の発注や出荷といった内部情報など最小限しかなかったのです。今や優れた消費財企業はエンドユーザーである消費者の行動と、検索分析やソーシャルメディアにおけるセンチメントといった外部データをトラッキングしています。このブログ投稿では、データを大規模に管理するというテーマを深く掘り下げ、なぜ消費財企業がデータメッシュによるデータ管理という新しいアプローチを検討する必要があるのか、その理由について解説します。

Read More

AWS Lake Formation による効果的なデータレイクの構築 パート 3: governed table の ACID トランザクションを使用する

本記事は Amazon Web Services, Senior Big Data Architect である 関山 宜孝 によって投稿されたものです。 Amazon Simple Storage Service(Amazon S3)のデータレイクは、あらゆるエンタープライズデータを扱うデフォルトのリポジトリになり、さまざまな分析ツールや ML ツールからクエリを実行する多くのユーザーにとって一般的な選択肢になっています。多くの場合、複数のソースからデータをデータレイクに継続的に取り込み、同時に多くの分析ツールからデータレイクに対してクエリを実行します。以前は、一貫性のある結果を得るためには、データの整合性を維持するためにカスタムパイプラインを構築し、その結果としてツールにデータが使用可能になるまでに遅延が発生していました。 AWS Re: Invent 2020 で AWS Lake Formationのトランザクション、行レベルのセキュリティ、および高速化のプレビューを発表 しました。以前の記事では、Lake Formation の governed table を設定 (part1) し、データレイクへの取り込みをストリーミングすることに焦点を当てました (part2)。この記事では、原子性、一貫性、分離性、耐久性(ACID)トランザクションに焦点を当てています。S3 上の Lake Formation governed table で ACID トランザクションがどのように機能するかを説明します。

Read More

AWS Lake Formation による効果的なデータレイクの構築 パート 2: ストリーミングデータソース用の governed table を作成する

本記事は Amazon Web Services, Senior Big Data Architect である 関山 宜孝 によって投稿されたものです。 AWS re:Invent 2020 で、AWS Lake Formation のトランザクション、行レベルのセキュリティ、および高速化のプレビューを発表しました。 このシリーズのパート 1 では、governed table を作成して、オブジェクトを追加する方法を説明しました。この記事では、この例を拡張し、Lake Formation トランザクションを使用して governed table にストリーミングデータを取り込む方法を示します。

Read More