Amazon Web Services ブログ
Category: AWS Glue
データと AI でサプライチェーンの価値を引き出す
先月、2024 年のサプライチェーンについての予測ブログを共有しました。 このブログでは、複数のシステムに分散 […]
AWS Weekly Roundup – AWS Glue の Amazon Q、Amazon PartyRock Hackathon、CDK Migrate など – 2024 年 2 月 5 日
AWS re:invent 2023 では、生成 AI に関する多数の発表があったため、私はこのテクノロジーを […]
自然言語を使用した AWS Glue の新しいチャットエクスペリエンス – AWS Glue の Amazon Q データ統合 (プレビュー)
1月30日は、データ統合ジョブのオーサリングとトラブルシューティングに自然言語を使用することができる AWS […]
データ転送を簡素化: Amazon AppFlow を利用した Google BigQuery から Amazon S3 への転送
昨今のデータドリブンな世界では、様々なプラットフォーム間でデータを簡単に移動して分析できることが不可欠です。フルマネージド型のデータ統合サービスである Amazon AppFlow は AWS サービスと SaaS アプリケーション間のデータ転送を効率化する最前線に立ってきており、現在は Google BigQuery にも対応しています。このブログ記事では、Amazon AppFlowの Google BigQuery コネクタがGoogle のデータウェアハウスから Amazon Simple Storage Service (Amazon S3) にデータを転送するプロセスを簡略化する手法と、マルチクラウドデータアクセスの民主化を含めたデータ専門家や組織にとっての大きなメリットについて解説します。
AWS Glue for Apache Spark のコストのモニタリングと最適化
AWS Glue for Spark についてお客様から最もよくいただくご質問のひとつに、ワークロードのコストを効果的にモニタリングし、最適化する方法があります。AWS Glue ワークロードのコストを最適化するには、ジョブ実行をモニタリングして、実際にかかったコストと使用状況を分析し、節約できるポイントを見つけ、コードや構成の改善に向けたアクションを取ります。この投稿では、AWS Glue ワークロードの上にモニタリングと最適化技術を用いることで、コストを管理および削減するためのアプローチを紹介します。
AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード
大企業や中小企業を問わず、多くの組織がアマゾン ウェブ サービス(AWS)上で分析ワークロードの移行と近代化に取り組んでいます。AWS への移行にはさまざまな理由がありますが、主な理由の 1 つは、インフラストラクチャのメンテナンス、パッチ適用、モニタリング、バックアップなどに時間を費やす代わりに、フルマネージドサービスを利用できることです。リーダーシップと開発チームは、現在のインフラストラクチャのメンテナンスではなく、現在のソリューションの最適化や新しいユースケースの実験などにより多くの時間を費やすことができます。
AWS Step Functions の Distributed Map と再実行機能を使用した効率的な ETL パイプラインの構築
AWS Step Functions は、完全マネージドのビジュアルワークフローサービスで、AWS Glue、Amazon EMR、Amazon Redshift などのさまざまな抽出・変換・読み込み (Extract, Transform, Load; ETL) テクノロジーを含む複雑なデータ処理パイプラインを構築できます。Step Functions では、失敗、中止、タイムアウトしたステートからワークフローを再実行できるようになりました。この投稿では、Step Functions のDistributed Map ステートを使用して、Amazon Relational Database Service (Amazon RDS) のテーブルからデータをエクスポートする ETL パイプラインジョブをご紹介します。その後、障害をシミュレートし、新しい失敗したステートから再実行する機能を使用して、障害が発生したタスクを障害発生地点から再起動する方法をデモンストレーションします。
AWS Glue サーバーレス Spark UI導入によるモニタリングとトラブルシューティングの改善
AWS では、何十万ものお客様がサーバーレスデータ統合サービスである AWS Glue を使用して、アナリティ […]
持続可能性の為のモダンデータアーキテクチャ最適化 : 第二部 – 統合データガバナンス、データ移動、目的別分析
このブログは Sam Mokhtari, Dr. Ali Khoshkbar, Sandipan Bhaumi […]
AWS DMS、Amazon Kinesis、AWS Glue ストリーミング ETL ジョブを用いて Apache Hudi ベースのニアリアルタイムトランザクションデータレイクを構築し、Amazon QuickSight で可視化
最近、AWS Glueバージョン4.0でストリーミングの抽出、変換、およびロード(ETL)ジョブのサポートが発表されました。これは、AWSにおけるデータ統合ワークロードを加速する新しい AWS Glue のバージョンです。AWS Glue のストリーミングETLジョブは、ストリーミングソースから連続的にデータを取り込み、データを逐次的にクリーンアップおよび変換し、数秒で分析可能なデータにします。AWSはさまざまなサービスを提供しており、AWS Database Migration Service(AWS DMS)などのデータベースレプリケーションサービスを使用して、ソースシステムからデータを Amazon Simple Storage Service(Amazon S3)に複製することができます。これは通常、データレイクのストレージレイヤーとして使用されます。この投稿では、Amazon Relational Database Service(Amazon RDS)や他のリレーショナルデータベースからの CDC(Change Data Capture)変更を S3 データレイクに適用する方法を示し、データの非正規化、変換、およびリッチ化をほぼリアルタイムで柔軟に行う構築手順を説明しています。