Amazon Web Services ブログ

Amazon DynamoDB オンデマンドキャパシティーモードを使用して、急増するワークロードを実行し、コストを 90% 以上最適化する

これは、TVer Technologies Inc. のソフトウェアエンジニアであるウツミケイスケ氏によるゲスト投稿です。同社の言葉を借りると、「 TVer Technologies Inc. は、テレビ放送と同期されたウェブサイトを利用して、ユーザーにインタラクティブなエンターテイメントサービスを提供しています 」との事です。 TVer Technologies Inc. は、日本のテレビ視聴者向けにウェブサイトとアプリベースのインタラクティブコンテンツを提供しています。当社のアプリケーションの多くは、Amazon DynamoDB をデータベースとして使用して、登録ユーザー情報を保存し、テレビ放送中のライブ投票イベントでユーザーの投票活動の履歴を記録します。当社のアプリケーションは、毎朝の番組や季節ごとのポップミュージック番組でよく用いられています。このブログ記事では、DynamoDB のオンデマンド読み取り/書き込みキャパシティーモードを使用して、TV ライブ投票イベントで使用されるシステムのコストとパフォーマンスを最適化する方法を確認します。 視聴者の投票期間はテレビ番組の放映時間に制限されているため、ほとんどのライブ投票プロジェクトでは、ユーザーアクセスは数時間しか見られません。この数時間で、アクセスリクエストが急増するのはほんの数分間です。ピーク時以外のワークロードは、ピーク時と比較してほとんどありません。両者を比べると、1:100 または 1:10,000 の割合です。 次のグラフは、視聴者をウェブサイトに投票させるテレビ番組中のウェブサービスへのアクセスリクエストの記録を示しています。投票がなかったときは、視聴者からの投票活動へのアクセスがないため、リクエストはありませんでした。具体的には、19:30 から 20:15 の間、ユーザーからの投票アクティビティがなかったため、リクエストはありませんでした。それから 20:15 に、視聴者が投票を開始し、システムがユーザーのデータを記録し始めたため、数分間スパイクが見られました。プログラムが 22:30 に終了するまで、投票時間中に短いスパイクが繰り返されるこのパターンが不規則に広がっています。Amazon CloudWatch Logs がレコードを収集したため、数値は 1 分あたりの平均値です。ピーク時に記録された実際の数は、非ピーク時の 2~3 倍でした。 Amazon DynamoDB オンデマンドを使用する理由 このケースでは、Amazon DynamoDB オンデマンドが最も有用であることがわかりました。DynamoDB の Auto Scaling を使用することもできましたが、TV プログラムでの計画外のプロモーションが原因でリクエストが突然または予期せず急増した場合、DynamoDB の Auto Scaling では十分に早く追いつけないでしょう。DynamoDB オンデマンドを使用すると、お金を節約し、手動による介入を減らすことができ、遅滞がありません。 一部のライブプログラムには、プログラム中、イベントの厳密なスケジュールがありません。したがって、トラフィックが急増する時間帯を事前に予測することは困難です。ピーク時のトラフィックに備えて DynamoDB のキャパシティーを事前にプロビジョニングした場合、実際にピークがいつ発生したかに関係なく、そのリソースに対して料金を支払う必要があります。DynamoDB […]

Read More

クライアントが API Gateway を使用した Apache Kafka との対話方法を管理する

そのうち、あなたは次のような疑問を抱くかも知れません。 Apache Kafka (MSK) の Amazon Managed Streaming に IAM 認証または承認を実装するには、どうすればよいですか? クラスターにクォータを設定せずに、特定のシナリオに基づいて急増するトラフィックから Apache Kafka クラスターを保護する方法を教えてください。 JSON スキーマに準拠したリクエストを検証する方法を教えてください。 URI、クエリ文字列、ヘッダーにパラメータが含まれていることを確認する方法を教えてください。 Amazon MSK で、エージェントまたはネイティブの Apache Kafka プロトコルを使用せずに、軽量クライアントにメッセージを取り込む方法を教えてください。 これらのタスクは、カスタムプロキシサーバーまたはゲートウェイを使用して実現できますが、これらのオプションを実装して管理するのは困難です。一方、API Gateway はこれらの機能を備えている完全マネージド型の AWS サービスです。 このブログ記事では、Amazon MSK クラスターとクライアント間のコンポーネントとして、Amazon API Gateway がこれらの質問にどう答えるかを示しています。 Amazon MSK は Apache Kafka 向けの完全マネージド型サービスで、サーバーをプロビジョニングしたり、ストレージを管理したり、Apache Zookeeper を手動で設定したりする必要なく、数回クリックするだけで Kafka クラスターを簡単にプロビジョニングできます。Apache Kafka は、リアルタイムストリーミングデータのパイプラインとアプリケーションを構築するためのオープンソースプラットフォームです。 一部のユースケースには、ネイティブの Kafka プロトコルをサポートしていない軽量 IoT デバイスからのメッセージの取り込みや、サードパーティー製 API を含む他のバックエンドサービスとストリーミングサービスの調整が含まれます。 このパターンには、次のトレードオフもあります。 […]

Read More

Bristol-Myers Squibb が AWS Storage Gateway と Amazon S3 を使用して科学データを管理する方法

Bristol-Myers Squibb (BMS) は、革新的な医薬品を発見し、開発することで、深刻な病気の治療、管理、治療に貢献しています。AWS のサービスを多数使用して、科学データ、ラボでのワークフロー、大規模な計算を管理し、分子データ、細胞データセット、臨床データセットを分析しています。BMS のラボで生成したゲノミクスや臨床データは、飛躍的な速さで膨張しています。それだけにとどまらず、BMS では学術医療センター、医療プロバイダー、その他の共同研究者などの外部ソースからも、さまざまな臨床データを収集しています。いろいろなデータのソースがあるため、データ形式の種類は幅広くなります。 結果として、ペタバイト規模のデータセットを統合して分析するには、BMS にとってクラウドは最も便利なツールになります。オンプレミスのデータセンターからサイロ化されたデータにアクセスするのとは異なり、クラウドでは膨張しつつあるデータセットに社内の関係者によるオンデマンドでのアクセスが可能となるため、BMS での科学的革新の加速に貢献しています。現在 AWS が提供している数多くのクラウドストレージサービスの中でも、Amazon Simple Storage Service (Amazon S3) と AWS Storage Gateway は BMS で中心的な役割を果たしています。これらのサービスは、科学データを臨床データレイクに移動させ、さまざまな手法や方法を利用して数え切れないほどのライフサイエンスデータ分析プロセスを行うサポートとなっています。 Amazon S3 は、業界をリードするスケーラビリティ、データの可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。Storage Gateway はハイブリッドのクラウドストレージサービスで、オンプレミスで実質的に無制限のクラウドストレージにアクセスすることが可能となります。 このブログ投稿では、私がシニアクラウドアーキテクトとして勤務する BMS が、ライフサイエンスアプリケーションで Amazon S3 と Storage Gateway をどのように使用しているかに焦点を当てています。この投稿はある程度まで、AWS re:Invent 2019 で行われたプレゼンテーションの「STG305 Build hybrid storage architectures with AWS Storage Gateway」に沿っています。これは、数ヶ月前に上司である Mohamad Shaikh 氏と共に発表したものです。 このセッションにおいてカバーしきれなかった BMS での Amazon […]

Read More

Apache Flink と Amazon Kinesis Data Analytics を使用した ETL のストリーミング

ほとんどの企業は、リアルタイムで増え続ける量のデータを継続的に生成します。データは、ユーザーがモバイルゲームをプレイし、ロードバランサーがリクエストをログに記録し、顧客がウェブサイトで買い物をし、IoT センサーの温度が変化する場合に生成されます。このデータを迅速に分析することで、時間に敏感なイベントを活用し、顧客体験を向上させ、効率を高め、イノベーションを促進できます。多くの場合、これらの洞察を得る速度は、データレイク、データストア、およびその他の分析ツールにデータをロードできる速度に依存します。データの量と速度が増加するにつれて、着信データをロードするだけでなく、ほぼリアルタイムで変換および分析することも重要になります。 この記事では、洗練されたストリーミング抽出・変換・ロード (ETL) パイプラインの基礎として Apache Flink を使用する方法について説明します。Apache Flink は、データストリームを処理するためのフレームワークおよび分散処理エンジンです。AWS は、Amazon Kinesis Data Analytics を介して Apache Flink に完全マネージド型サービスを提供します。これにより、洗練されたストリーミングアプリケーションを迅速かつ簡単に、運用オーバーヘッドを抑えて、構築および実行できます。 この記事では、Apache Flink と Kinesis Data Analytics を使用して強力で柔軟なストリーミング ETL パイプラインを実装するために必要な概念について説明します。また、さまざまなソースとシンクのコード例を調べます。詳細については、GitHub リポジトリを参照してください。リポジトリには AWS CloudFormation テンプレートも含まれているため、数分で開始し、サンプルのストリーミング ETL パイプラインを調べることができます。 Apache Flink で ETL をストリーミングするためのアーキテクチャ Apache Flink は、無限と有限のデータストリーム上のステートフルな計算のためのフレームワークおよび分散処理エンジンです。Apache Kafka、Amazon Kinesis Data Streams、Elasticsearch、Amazon Simple Storage Service (Amazon S3) のコネクタを含む、高度にカスタマイズ可能な幅広いコネクタをサポートしています。さらに、Apache Flink は、イベントを変換、集約、強化するための強力な API を提供し、1 […]

Read More

AWS DMS を使用して Oracle から Amazon Aurora に移行する継続的なデータベースレプリケーション

これは IPG のゲスト投稿です。同社の説明によれば、「IPG は日本に拠点を置いており、テレビ関連のデータを専門に取り扱っています。日本全国の放送局から送られてきたデータを使用し、使いやすく理解しやすいようにフォーマットし、メタタグで構造化し、スマートフォンなどのプラットフォームで簡単に利用できるようにしています」 この記事では、AWS DMS を使用して、Oracle から Amazon Aurora への移行中にテストしたさまざまな最適化および MySQL 互換性について説明し、各ソリューションの欠点と利点を示し、取り扱うユースケースに最適なソリューションについて説明します。 次の図は、衛星、放送局、コンテンツプロバイダーから送られてきたデータを IPG がどのように移転させているかを示しています。 最初に Oracle データベースを使用して、テレビ番組のデータとそのさまざまな関連情報を保存および管理しました。入力データの詳細は次のとおりです。 EPG データ – 約 250,000 の番組 (地上波、BS、CS100°、新しい 4K8K の衛星放送を含む 8 日先までのテレビ番組情報) 放送局 – 約 200 の放送局と約 1000 のチャンネル コンテンツプロバイダー – 約 10 社 このデータは 30 の企業に送信され、それらの企業のサービスで使用されます。 システム操作には、40 個のバッチプログラム、10 個の操作 UI、40 個の API サービスを含むソフトウェアプログラムの複雑なネットワークを使用しました。 Oracle に関する懸念事項 このシステムは耐久性があり安定していますが、次の点に懸念がありました。 […]

Read More

Amazon API Gateway を Amazon EKS における Ingress として利用する

チームが Amazon EKS にマイクロサービスをデプロイすると、通常、フロントエンドおよびサードパーティーアプリケーションで使用する REST API を公開します。ベストプラクティスは、これらの API を API Gateway で管理することです。 これにより、API の一意のエントリポイントが提供され、各マイクロサービスのセキュリティ、キャッシュ、スロットル、監視などの API 固有のコードを実装する必要もなくなります。このパターンは、ALB Ingress Controller と Amazon API Gateway を使用して実装できます。Amazon API Gateway は、あらゆる規模でセキュアな API を管理するための完全マネージドサービスです。このアプローチは機能しますが、いくつかの構成ファイルを作成する必要があります。このタスクをどのように自動化できますか? この記事では、オープンソースソリューション API Gateway Ingress Controller の使用方法を示します。これは、Amazon API Gateway の HTTP プロキシモードを活用して Amazon EKS で実行する API をすばやく設定することで、手動手順を削減します。API Gateway Ingress Controller は、リバースプロキシポッドの前に Network Load Balancer を構成します。これは、パスベースのルーティングを処理し、HTTP リクエストをポッドにルーティングします。次の図は、この記事で説明した高レベルのアーキテクチャを示しています。 Kubernetes Ingress […]

Read More

AWS がスタートアップ企業向けに Activate Founders パッケージをスタート🚀

今この記事をお読みのあなたは、スタートアップ企業の方ですか? AWS は本日、スタートアップ企業向けに Activate Founders パッケージを発表いたします。🚀🚀🚀本パッケージでは新たな特典セットをご用意しています。皆さんのスタートアップ企業がベンチャーキャピタル、アクセラレーター、インキュベーターからの出資を受けていない場合は、1,000 USD の AWS Activate クレジット (有効期間 2 年) および AWS テクニカルサポートで利用できる 350 USD の AWS 開発者サポートクレジット (有効期間 1 年) の受け取りを申請できます。 👉🏽Activate Founders パッケージの詳細については、 aws.amazon.com/activate をご覧いただき、ぜひこの機会にお申し込みください。 Activate Founders パッケージはどんなスタートアップ企業にメリットがあるのでしょうか? Activate Founders パッケージは、機関投資家からの資金提供を受けていない、または受ける計画もない多数のスタートアップ企業にメリットがあります。 Activate Founders パッケージはお客様にどんな特典がありますか? Activate Founders クレジットを使ってみましょう。💰AWS でスタートアップ向けのアーキテクチャを実験、ビルド、テスト、デプロイする際のコストを削減するチャンスとなります。 AWS 開発者サポートクレジットを使用すると、スタートアップ企業では AWS テクニカルサポートに E メール📧すれば、サポートケースに無制限にアクセスできます。 7 Core AWS Trusted Advisor […]

Read More

Amazon FSx for Lustre の最新情報: 長期間、高パフォーマンスワークロード用の永続ストレージ

昨年、Amazon FSx for Lustre についての記事を投稿した際、当社のお客様がサブミリ秒の遅延で、膨大な量の IOPS (1 秒あたりの入出力オペレーション数) を実現する大量の並列クライアントに対応するペビバイト規模の高度に配列化された POSIX 準拠のファイルシステムを作成するために、FSx for Lustre をどう使用できるかについてお話ししました。 マネージドサービスとして Amazon FSx for Lustre を使用することで、世界でも最も人気のある高パフォーマンスファイルシステムを簡単に起動および実行できます。お客様は機械学習、ハイパフォーマンスコンピューティング (HPC)、金融モデリングなど、速度が重要なワークロードにこのサービスを使用しています。 今後は、耐久性と可用性に優れたハイパフォーマンスファイルシステムを作成する機能と、3 つのパフォーマンスティア、そして、急激なワークロードの増加に、より良いサポートを提供するようデザインされた新しい次世代スクラッチファイルシステムをリリースすることで、Amazon FSx for Lustre を強化していきます。 最新の更新 今日のニュースの本題に入る前に、サービスに盛り込まれた最新の更新をいくつかご紹介します。 データリポジトリ API – この更新により、一連の API が導入され、FSx から S3 へ簡単にファイルをエクスポートできるようになりました。また、その中には S3 への変更済みファイルの送信を開始、監視、およびキャンセルする機能も含まれています。詳しくは、Amazon FSx for Lustre と Amazon S3 の間でデータを移動するための新しい機能強化を参照してください。 SageMaker の統合 – この更新により、Amazon FSx for Lustre ファイルシステムに保存したデータを […]

Read More

アカウント間の Amazon RDS DB インスタンスを単一の共有ドメインに参加させる

セットアップとメンテナンスを簡素化し、AWS Managed Microsoft AD ディレクトリのコストを削減しながら、Amazon Relational Database Service (RDS) for SQL Server DB インスタンスのセキュリティを強化するにはどうすればよいですか? AWS は、複数の AWS アカウントと Amazon VPC にデプロイされた Amazon RDS for SQL Server DB インスタンスが、AWS リージョン内の Microsoft Active Directory (AWS Managed Microsoft AD) の単一の AWS Directory Service に参加できるようになったことを発表しました。これにより、ディレクトリをセットアップしてそのセキュリティ設定を一度行えば、すべての DB インスタンスの認証に使用できるため、ディレクトリ対応データベースのワークロードを管理しやすくなります。この記事では、アカウント間および VPC 間ドメインに参加するために Amazon RDS DB インスタンスを準備する方法について学びます。 注: この記事は Amazon RDS for SQL […]

Read More

Amazon SageMaker で DeepChem を使用して、仮想スクリーニングを行う

 仮想スクリーニングは、膨大な量の分子ライブラリを検索して、ターゲット特性を示す可能性が最も高い構造を特定することにより、薬物または物質の発見に用いられる計算手法です。 利用できる計算時間の急激な増加とシミュレーションの絶え間ない改善により、仮想スクリーニングは分子発見のための画期的なツールになりつつあります。 ディープラーニングテクノロジーは、この計算仮想コンパウンドスクリーニングで広く使用されており、そのようなテクノロジーは飛躍的に進化しています。DeepChem は最も人気のあるオープンソースツールの 1 つで、創薬、物質科学、量子化学、生物学においてディープラーニングを広く利用できるようにしています。詳細については、GitHub の「創薬、量子化学、物質科学および生物学のためのディープラーニングの民主化」をご参照ください。 この記事では、DeepChem を Amazon SageMaker で使用する方法について説明します。Amazon SageMaker は、機械学習 (ML) モデルをすばやく簡単に構築、トレーニング、デプロイできるようにする完全マネージド型のサービスです。ML は、モデルを構築し、トレーニングし、本番環境にデプロイするプロセスが複雑で時間がかかるため、本来よりも難しいと感じることが多々あります。Amazon SageMaker はその複雑さを軽減します。 Amazon SageMaker で DeepChem をインストールする DeepChem をインストールするには、AWS アカウントをセットアップし、最初の Amazon SageMaker ノートブックインスタンスを作成します。次の手順を実行します。 AWS アカウントがまだない場合は、AWS アカウントを作成します。 AWS にサインアップすると、AWS アカウントは Amazon SageMaker を含むすべての AWS のサービスに自動的にサインアップされます。請求は、利用したサービスに対してのみ行われます。Amazon SageMaker を初めて使用する場合は、「Amazon SageMaker の仕組み」をご参照ください。 Amazon SageMaker コンソールで、[Notebook instances] を選択します。 [Create notebook instance] を選択します。 […]

Read More