Amazon Web Services ブログ

Category: Analytics

ETL solutions on AWS

【資料&動画公開】AWS で実践!Analytics Modernization ~ETL 編~

2021年7月14日に、「AWS で実践!Analytics Modernization ~ETL 編~」というオンラインセミナーを開催しました。昨今、データレイクをクラウド上に作ることが一般的になりつつありますが、データレイクに溜まったデータを活用する際に重要になるのが前処理(ETL)であり、その前処理をどのようにAWS上で実現し、モダン化するかという点を解説しました。 今回このセミナーの動画と資料を公開しましたのでご紹介します。全部で3つのセッションがありますが、各セッションの中も内容単位で区切った動画にしていますので、必要なところだけ見ていただけるようになっています。

Read More

Amazon Elasticsearch Service が Amazon OpenSearch Service となり、OpenSearch 1.0 をサポート

当社では、2015 年に Amazon Elasticsearch Service (Amazon ES) をリリースしました。Amazon ES は、インタラクティブなログ分析、リアルタイムのアプリケーションモニタリング、ウェブサイト検索などの実行を容易にするフルマネージドサービスです。 Amazon ES は、大量のログデータを取り込むことができるため、ログ分析のために長らく愛用され続けています。さらに、UltraWarm 階層とコールドストレージ階層を使用すると、Amazon ES 上の従来のホットストレージと比較して 10 分の 1 のコストに削減できます。Amazon ES は、Logstash、Amazon Kinesis Data Firehose、Amazon CloudWatch Logs、および AWS IoT と統合するため、ユースケースの要件を満たす安全なデータ取り込みツールを選択できます。

Read More
use-amazon-athena-and-aws-cloudtrail-to-estimate-billing-for-aws-config-rule-evaluations

Amazon Athena と AWS CloudTrail を使用したAWS Config Rules 利用料の見積もり

AWS Config  は、AWSリソースがあるべき設定状態に準拠しているかを監査するサービスです。記録された設定項目の数と 1 か月あたりのリソースごとに行われる AWS Config Rules の評価件数に基づいて課金されます。 この記事では、Amazon Athena を使用して AWS CloudTrail ログをクエリし、AWS Config Rules 評価の詳細な請求内訳を確認する方法をご紹介します。請求の内訳を把握することで月額コストに最も寄与しているルールを特定することができれば、特定のルールの実行頻度を減らしてコストを抑えるといったコスト最適化施策を講じることができます。なお、この記事ではAWS Configの設定項目の確認については触れていません。詳細については、ブログ記事「Identifying resources with the most configuration changes using AWS Config」を参照してください。

Read More

機械学習によるメディアの社会的影響を読み解く

メディアが人々に利益をもたらすために最適化されていたとしたら? 考えを深めさせるこの疑問は、Harmony Labs のミッションの中核に存在しています。ニューヨーク市に本部を置く非営利団体である Harmony Labs は、メディアが社会に与える影響をより良く理解し、メディアシステムの改革と変革のためのコミュニティとツールを構築するよう尽力しています。 Harmony Labs のエグゼクティブディレクターである Brian Wanieswki 氏は次のように述べています。

Read More

AWS Glue カスタムブループリントを使ってデータ統合パイプライン開発を簡単にする

本記事はAmazon Web Services, big data architect である Noritaka Sekiyama 、 software development engineer である Keerthi Chadalavada および Global Business Development Manager である Shiv Narayanan によって投稿されたものです。   多くの組織は、データウェアハウス、データレイクおよびレイクハウスのデータ統合パイプライン開発や維持に膨大な時間を費やしています。データエンジニアリングチームは、データ量の増加にしたがって、ビジネスチームからの新たな要求への対応に苦労するようになります。それらの要求の多くは、様々なチームから来るものですが、互いに類似しています。例えば、ソースシステムからデータレイクへの生データの取り込み、特定のキーによるデータのパーティショニング、データレイクからリレーショナルデータベースへのデータの書き込み、欠損値に対してのデフォルト値の割当などです。これらの要求に対応するため、データエンジニアは、開発環境でパイプラインを変更し、テストし、本番環境へデプロイすることになります。この冗長なプロセスは、エラーを生み出しやすく、時間がかかる原因になっています。 データエンジニアは、パイプライン開発の複雑さを抽象化することによって、ビジネスアナリスト、データアナリスト、データサイエンティストのような非データエンジニアにもセルフサービス方式によって運用できるようにする手法を必要としています。この記事では、再利用可能な AWS Glue ワークフローを構築・共有するためのフレームワークである、 AWS Glue カスタムブループリントをご紹介します。

Read More

AWS Lake Formation による効果的なデータレイクの構築 パート 5: 行レベルのアクセス制御でデータレイクを保護する

本記事は Amazon Web Services, Senior Big Data Architect である 関山 宜孝 と AWS Lake Formation の Principal Product Manager である Sanjay Srivastava によって投稿されたものです。 お客様は、組織全体のデータアクセスを民主化する戦略の中核をなすデータレイクをますます検討するようになってきています。データレイクを使用すると、さまざまな形式で多数のソースから送信されるペタバイトおよびエクサバイトのデータを扱うことができ、ユーザーは様々な分析ツールや機械学習ツールからアクセスできるようになります。データを保護し、データを必要とする人にのみアクセス権を付与するには、きめ細かなアクセス制御が必要です。 AWS Lake Formation は、データレイクを構築、保護、管理し、データレイク内のデータに対するアクセス制御を提供するフルマネージド型のサービスです。Lake Formation の行レベルの権限を使用すると、データコンプライアンスとガバナンスポリシーに基づいて、特定の行へのアクセスを制限できます。また、Lake Formation は、どのプリンシパルがどのデータにアクセスしたのか、いつ、どのサービスを通じてアクセスしたかを特定することで、一元的な監査とコンプライアンスレポートを提供します。

Read More

[AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開

「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。   202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 後編 AWS Black Belt Online Seminar オンデマンド動画 コンテンツ 一覧 AWS サービス別資料 (すべての過去資料が閲覧できます)   猫でもわかる、AWS Glue ETLパフォーマンス・チューニング IT 知識レベル:★★★★☆ | AWS […]

Read More

Splunkを使用したAmazon FSxのユーザーアクセスイベントの監視とレポート

このブログは2021年8月11日にPromise Owolabi (Storage Solution Architect)によって執筆された内容を日本語化した物です。原文はこちらを参照して下さい。 エンドユーザの行動やデータへのアクセスを監視することは、最新のデータセキュリティ戦略の中核をなすものです。お客様がワークロードをクラウドに移行する際、顧客データへのエンドユーザーのアクセスをログに記録することは、内部セキュリティポリシーの重要な要素であり、コンプライアンス目標を満たすために必要です。Amazon FSx for Windows File Server (Amazon FSx)のファイルアクセス監査により、AWSは、誰がファイル、フォルダ、またはファイル共有にアクセスしたか、修正したか、またはアクセス権限を変更したかをログに記録する簡単な方法を提供します。これにより、違反や異常な動作を検出することができ、監査のために結果を提示することもできます。 ファイルアクセス監査では、アクセス監査ログをAmazon CloudWatch Logsに送信したり、Amazon Kinesis Data Firehoseにストリーミングしたりすることで、ログのアーカイブ、ログ分析、イベントベースのアクションが可能になります。これにより、お客様は、AWS LambdaなどのAWSサービスやSplunkなどのAWSパートナーソリューションを利用して、ユーザーアクティビティの監視や対応をほぼリアルタイムで自動化することができます。コンプライアンス目標を達成するために、組織は、誰がファイル、フォルダ、ファイル共有にアクセスし、どのようなアクションを実行しているかを知り、実証する必要があります。ファイルアクセス監査は、保護されたデータへのアクセスのために定義されたアクセス制御ルールを検証するために使用できます。

Read More

テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行

本記事は Amazon Web Services, Senior Analytics Specialist Solutions Architect である Fabrizio Napolitano によって投稿されたものです。 データレイクは、クラウドに構築すると有利になることがあります。セキュリティ、デプロイ時間の短縮、可用性、頻繁な機能の更新、弾力性、地理的に広範囲なサービス展開、および使った分だけ発生するコストが理由です。ところが、最近の Gartner や Harvard Business Review の調査によると、マルチクラウドやインタークラウド・アーキテクチャは、データマネージメント、(データ)ガバナンス、(データ)インテグレーションを複雑にすると言われています。データサイエンティストが、適切なデータにアクセスし、分析プロセスを実施するためには、シンプルで素早くコスト効率の高いやり方で、様々な(データ)ソースから、テラバイト級のデータを持って来れるようにするのが必要不可欠なのです。

Read More

Amazon Redshift のクロスアカウントデータ共有

変化の速い今日の世界で成功するためには、企業はデータを迅速に分析し、有意義なアクションを実行する必要があります。この概念は、データ駆動型組織を目指す多くの企業で採用されています。 データ駆動型組織はデータをアセットとして扱い、データを使用してインサイトの改善、そして優れた意思決定を行います。このような組織では、安全なシステムを使用してデータを収集、保存、処理し、組織内の人々と共有することで、データのパワーを最大限に活用しています。データや分析をサービスとして、顧客、パートナー、外部関係者に提供して、新しい収益源を創出している企業もあります。 すべてのステークホルダーは、正確な同一のデータを単一の情報源として共有および使用したいと考えています。また、パフォーマンスを低下させることなく、データのライブビューを同時にクエリし、必要なときに適切な情報にアクセスできるようにしたいと考えています。

Read More