Amazon Web Services ブログ

Tag: Observability

Best Practices for Deploying AWS DevOps Agent in Production

AWS DevOps Agent を本番環境にデプロイするためのベストプラクティス

インシデント発生時の根本原因分析は、クラウド運用において最も時間がかかる作業の一つです。AWS DevOps Agent は、自律的な調査能力により平均復旧時間 (MTTR) を数時間から数分に短縮します。本記事では、調査能力と運用効率のバランスを取る Agent Space のセットアップに関するベストプラクティスを紹介します。最適な調査精度を実現するための Agent Space の構成方法、適切なリソースアクセス範囲の決定方法、そして Infrastructure as Code を活用したデプロイの効率化について解説します。

SAP on AWSのエンドツーエンド・オブザーバビリティ: Part-3 Amazon CloudWatch Internet Monitor for SAP

Amazon CloudWatch Internet Monitor for SAP Applications は、インターネット接続に関するリアルタイムのインサイトを提供し、企業が問題をトラブルシューティングし、ネットワークパフォーマンスを最適化するのを支援します。

Amazon CloudWatch Logs の一元化を使用したログ管理の簡素化

複数の AWS アカウントとリージョンにまたがるログの管理は、組織にとって常に複雑な課題でした。本番環境、開発環境、ステージング環境用の個別のアカウントやリージョンを含む AWS インフラストラクチャーが成長するにつれ、ログ管理の複雑さは指数関数的に増加します。特に時間外の重大なインシデント発生時には、チームは複数のアカウントを検索し、異なるリージョン間でイベントを関連付け、複雑なログ集約システムを管理し、クロスアカウントのアクセス権限を維持するために貴重な時間を費やしています。このような従来のログ管理アプローチは、多大なリソースを消費するだけでなく、インシデント解決を遅らせ、顧客体験に影響を与える可能性があります。このブログでは、大規模環境向けのログ管理を簡素化する方法をご紹介します。

Amazon ECR の利用状況とセキュリティレポートを実装する

コンテナワークロードを管理する際、コンテナレジストリの一元的なオブザーバビリティを維持することはセキュリティと効率的なリソース利用のために不可欠です。Amazon Elastic Container Registry (ECR) は、イメージレベルとリポジトリレベルの両方でメトリクスを提供し、統合されたオブザーバビリティを構築する上で重要な役割を果たします。本記事では、これらのメトリクスをコスト内訳、利用状況メトリクス、セキュリティスキャン結果、および全リポジトリにわたるコンプライアンスステータスを含む、基本的で包括的なレポートに一元化する手順をご案内します。統合されたオブザーバビリティにより、利用パターンをより深く理解し、セキュリティリスクを特定し、セキュリティ要件と最適化のベストプラクティスに準拠させる必要があるリソースに優先順位を付けることが出来ます。

AWS Summit Japan 2025 に Chaos Kitty が更にパワーアップして 3 回目の登場!

 みなさんこんにちは! どちらかというと猫より犬が好きな Solutions Architect の高野です。 […]

Istio と ARC ゾーンシフトによる Amazon EKS におけるモニタリングとAZ障害からのリカバリ自動化

マイクロサービスアーキテクチャをクラウドで実行することは、すぐに複雑な運用になる可能性があります。個々のワークロードにおける複数のインスタンスのような増え続ける変動要素を、インフラストラクチャの依存関係と合わせて考慮する必要があります。Amazon EKS 環境では、1 つのワーカーノード、一部のワーカーノード、または AZ 全体に問題が発生することがあります。AZ の障害が発生した場合は、回復力と復旧戦略の一環として Amazon Application Recovery Controller (ARC) のゾーンシフトを使用できます。ARC ゾーンシフトを使用すると、クラスター内のネットワークトラフィックを、影響を受けた AZ から一時的にリダイレクトできます。この投稿では、ゾーンシフトを管理するためのシグナルとして Istio のメトリクスを利用し、AZ における異常または劣化が発生した際に、アプリケーションの迅速な復旧を監視および自動化する方法に焦点を当てています。