Amazon Web Services ブログ

Category: AWS Quest

AWS での Apache Kafka の実行のためのベストプラクティス

この記事は Intuit とのパートナーシップに基づいて書かれ、AWS で Apache Kafka クラスタを実行するための学習、ベストプラクティス、推奨事項を共有するものです。Intuit の Vaishak Suresh と同氏の同僚の方々の貢献とサポートに感謝いたします。 Intuit の概要: Intuitは、AWS のエンタープライズ顧客のリーダーであり、ビジネスと財務管理ソリューションのクリエーターです。Intuit の AWS とのパートナーシップに関する詳細については、以前のブログ記事 Real-time Stream Processing Using Apache Spark Streaming and Apache Kafka on AWSを参照してください。Apache Kafka はリアルタイムのストリーミングアプリケーションを構築することを可能にする、オープンソースの分散型ストリーミング プラットフォームです。 この記事に記載されているベストプラクティスは、2年以上にわたり、AWS で大規模な Kafka クラスタを実行し運営する当社の経験に基づいています。この記事では、AWS で Kafka を現在実行している AWS 顧客を支援し、また AWS にオンプレミスの Kafka 展開を移行することを考えている顧客も支援することを目的としています。

Read More

AWS Glue データカタログを使用して、Amazon EMR で実行中の Presto に対して表のメタデータを容易に管理する

Amazon EMR は多くのカスタマーに、Apache Spark、Apache HBase、Presto、およびApache Flink などの一般的な分散型フレームワークを使用して、ビッグデータ処理あぷロケーションを素早く、コスト効率良く構築するようにエンパワメントします。Amazon EMR の分析アプリケーションを作成している組織の場合、自動化された形式でデータ資産を整理する必要がますます大きくなります。データベースは指数関数的に成長する傾向があるため、カタログ作成ツールを使用することは、データ探索を自動化し、データ資産を整理するために重要です。 AWS Glue データカタログは、この重要な機能を備えており、中央レポジトリのデータストアに関してメタデータを自動的に探索してカタログ作成できます。Amazon EMR 5.8.0 以降、カスタマーは Amazon EMR で実行中の Apache Hive と Spark SQL アプリケーションにメタデータストアとして AWS Glue データカタログを使用してきました。Amazon EMR 5.10.0 から、AWS Glue を使用してデータセットをカタログ化し、Hue (Hadoop User Experience) と Apache Zeppelin UI から Amazon EMR で Presto を使用してクエリを実行できます。 Amazon EMR 上で Prestoを実行するにはどのようなシナリオが必要か、Amazon Athena(Presto を hood の下でクエリとして使用する)を選択するのはいつかを迷うことがあるかもしれません。大量のデータをクエリし、さまざまなニーズとユースケースにたいおうするために、両方とも素晴らしいツールであることを理解することが重要です。 Amazon Athena […]

Read More

Amazon EC2 での Apache Cassandra の実行のためのベストプラクティス

Apache Cassandra は一般的に使用されているハイパフォーマンスの NoSQL データベースです。現在 Cassandra オンプレミスを保守している AWS のカスタマーは、Amazon EC2 で Cassandra を実行することによるスケーラビリティ、信頼性、セキュリティ、経済的な恩恵を利用したいと考えているかもしれません。 Amazon EC2 と Amazon Elastic Block Store (Amazon EBS) は、AWS Cloud でセキュアでサイズ変更可能な計算能力およびストレージを提供します。組み合わせられると、Cassandra を要件に従って容量をスケールすることができます。可能性のあるデプロイトポロジーの数を考えると、ユースケースに対して最も適切な戦略を選択することは、必ずしも常に自明であるわけではありません。 この記事では、3 つのCassandra デプロイメントオプションを概説するだけではなく、以下の分野のユースケースに対するベストプラクティスを判別するための指針を与えます。 Cassandra リソースの概要 デプロイの考察 ストレージオプション ネットワーキング 高可用性と弾力性 メンテナンス セキュリティ

Read More