Amazon Web Services ブログ

Amazon EMR 5.24 での Apache Spark のパフォーマンスが改善 – Amazon EMR 5.16 と比較して最大 13 倍のパフォーマンス向上

Amazon EMR のリリース 5.24.0 には Spark の最適化がいくつか含まれており、クエリのパフォーマンスが向上しました。パフォーマンスの向上を評価するため、Amazon S3 のデータを使用して、6 ノードの c4.8xlarge EMR クラスターで 3 TB 規模の TPC-DS ベンチマーククエリを実行しました。同様の設定で操作した EMR 5.16 と比較して、EMR 5.24 のクエリパフォーマンスが最大で 13 倍向上したことを確認しました。 大規模な変換からストリーミング、データサイエンス、そして機械学習に至るまでの幅広い分析ユースケースで、Sparkを使用できます。Spark を EMR で実行すると、EMR は安定した最新のオープンソースコミュニティといった革新をもたらし、さらに Amazon S3 での高性能ストレージ、スポットインスタンスと Auto Scaling の独自のコスト削減機能も提供します。 毎月配信される EMR のリリースには、最新のオープンソースパッケージとともに、複数のマスターノードやクラスターの再構成などの新機能も含まれています。各リリースで、パフォーマンスの改善も行っています。

Read More

Amazon ElastiCache for Redis でリアルタイムゲームリーダーボードを構築する

ゲームリーダーボードを使用すると、プレイヤーは互いのパフォーマンスを比較できます。この重要なソーシャル機能により、プレイヤーの関わり合いが高められ、競争が促進されます。リーダーボードのデータは、同様のスキルレベルの競争相手とプレイヤーをマッチングさせるゲーム内のアルゴリズムに活かすこともできます。 この記事では、伝統的なリレーショナルデータベースを使用してゲームリーダーボードを構築および拡張することに関する課題を探ります。また、Redis などの最新のインメモリデータストアを活用して、非常に効率的でスケーラブルなソリューションを提供する方法についても検討します。 この提案されたソリューションは、リーダーボードストレージとクエリをリレーショナルデータベースからより汎用性の高い Amazon ElastiCache for Redis に向かうことを後押しします。ここで概説したアプローチは、ゲームリーダーボードだけでなく、一般にアプリケーション内でランキングを生成するあらゆる状況に適用されます。 背景 従来のリレーショナルデータベースを使用して基本的なリーダーボードを構築する手順はシンプルです。通常、以下の手順が含まれます。 テーブルを作成します。 スコアが変更されたときにスコアを挿入または更新します。 テーブルをクエリして、スコアの降順でランキングを取得します。 以下が基本的なリレーショナルデータベースのリーダーボードの実装です。 +———+———+——+—–+———+——-+ | Field | Type | Null | Key | Default | Extra | +———+———+——+—–+———+——-+ | user_id | int(11) | NO | MUL | NULL | | | score | int(11) | NO | MUL | NULL | | +———+———+——+—–+———+——-+ […]

Read More

AWS DMS バージョン 3.1.3 を使用したデータ変換

AWS は最新の AWS Database Migration Service (AWS DMS) バージョン 3.1.3 の新しいデータ変換機能をサポートするようになりました。スキーマ、テーブル、および列の名前を変更し、Oracle ターゲットの個々の表領域名を指定し、そして任意のターゲット上のテーブルの主キーと一意キーを更新することができます。DMS バージョン 3.1.3 は、以下の新しいデータ変換機能をサポートしています。 明示的なテーブルマッピング Oracle のソースおよびターゲットの表領域の変換規則 Oracle のソースおよびターゲットの索引表領域の変換規則 主キーまたは一意キーのインデックスの定義 対象列のデータ型の変更 明示的なテーブルマッピング 以前の DMS バージョンでは、AWS マネジメントコンソールを使用してテーブルマッピングを実行したり、テーブル選択を指定したり、スキーマやテーブルのルールアクションを変換したりしていました。 バージョン 3.1.3 では、AWS DMS により明示的なテーブルの選択を行えます。明示的なテーブルマッピングルールを使用すると、サポートされている DMS ターゲットへの移行用に特定のソーステーブルを選択できます。また、より良い粒度のためにソースからテーブルのサブセットを除外します。明示的な選択規則を使用するときは、テーブルマッピングのスキーマ名とテーブル名にワイルドカード (%) を使用することはできません。 次の例では、ソースに 7 つのテーブルがあります。明示的な変換規則を使用すると、残りのテーブルを移行から除外する一方、DEPT テーブルのみを移行することを選択できます。 SQL> SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_CATALOG LIKE %DEPT%’ TABLE_NAME —————————— HRDEPT DEVDEPT SUPPORTDEPT PMDEPT […]

Read More

Oracle パフォーマンスメトリクスに基づいた Amazon RDS インスタンスを大規模で適正なサイズにする

オンプレミスのミッションクリティカルなアプリケーションを商用データベースで稼働中のエンタープライズ企業で、コスト効率の高い、マネージド型データベースサービスをお探しのお客様がいらっしゃいます。リレーショナルデータベースのワークロードを移行するプラットフォームの 1 つ、Amazon RDS をおすすめします。RDS はサイズ変更が可能な容量を提供し、時間のかかる重い非個別型管理タスクに対応します。大規模なデータベースの移行では、適切なサイズのターゲット RDS DB インスタンスを多くのデータベースに作成できる、スケーラブルかつ効果的なソリューションが必要です。 この記事では、オンプレミスの Oracle パフォーマンスメトリクスに基づいた DB インスタンス を大規模で適切なサイズにするプロセスについて説明します。Python と SQL スクリプトを使用してオンプレミスデータベースから Oracle パフォーマンスメトリクスを収集する方法、および AWS Glue と Amazon Athena を使った DB インスタンスサイズのデータ分析と推奨事項を得る方法を解説します。このソリューションは、1 つのデータベースから多数のデータベースまでの DB インスタンスのサイズ調整に有効です。 概要 オンプレミスの Oracle ワークロードの検出を目的として、1 時間ごとの I/O、CPU、メモリ使用量の統計について Oracle 自動ワークロードリポジトリ (AWR) をクエリする SQL スクリプトが開発されました。Python スクリプトを検出するデータベースのリストを含む入力ファイルから読み込んで、各データベースをループ処理して SQL スクリプトを実行します。データベースごとに .csv 出力ファイルが生成されます。 目標は、少なくとも 1 か月のパフォーマンスメトリクスを収集し、DB インスタンスのサイズをより正確に推定することです。AWR の保存期間が 1 か月未満に設定されている場合、複数回スクリプトを実行できます。スクリプトはすべて […]

Read More

Amazon SageMaker Ground Truth: データラベリングを高速化するための事前トレーニング済みモデルの使用

Amazon SageMaker Ground Truth を使用すると、機械学習用の高精度なトレーニングデータセットをすばやく構築することができます。SageMaker Ground Truth を使用すると、パブリックおよびプライベートでラベル付けを行う人間の作業者への簡単なアクセスと、一般的なラベル付けタスクのための組み込みのワークフローとインターフェースが提供されます。さらに、SageMaker Ground Truth は自動データラベル付けを使用してラベル付けのコストを最大 70% 削減します。自動データラベル付けは、人間がラベルを付けたデータから Ground Truth をトレーニングし、サービスが独自にデータにラベルを付けることを学習することによって機能します。以前のブログ記事では、自動化されたデータのラベル付けのしくみと、その結果の評価方法について説明しました。 SageMaker Ground Truth はラベリングジョブの間にお客様のためにモデルをトレーニングし、そしてラベリングジョブが終わった後にこれらのモデルを使用できるようになることはご存知でしたでしょうか? このブログ記事では、前のラベリングジョブからトレーニングされたモデルを使用して次のラベリングジョブを「スタートダッシュ」する方法について説明します。これは高度な機能で、SageMaker の Ground Truth API を通じてのみ利用できます。 このブログ記事について 読む時間 30 分 完了するまでの時間 8 時間 完了するためのコスト 600 USD 未満 学習レベル 中級 (200) AWS のサービス Amazon SageMaker、Amazon SageMaker GroundTruth この記事は、以下の以前の記事を基にしているので、最初にその記事を確認することをお勧めします。 Amazon SageMaker Ground Truth と自動化されたデータのラベル付けによる低コストでのデータのアノテーション このブログの一部として、以下で説明するように、3 つの異なるラベリングジョブを作成します。 「自動ラベリング」機能を有効にした初期ラベリングジョブ。このラベリングジョブの最後に、サンプルデータセットに対して高い精度の予測を行うことができるトレーニング済みの機械学習モデルを準備します。 […]

Read More

最新 – VPC トラフィックミラーリング – ネットワークトラフィックを捉えて検査する

複雑なネットワークを運用することは簡単な作業ではありません。ネットワークを円滑に稼動させることに加えて、異常なトラフィックパターンや甚大なネットワーク侵入を引き起こすコンテンツ、感染したインスタンス、その他の異常な事象にこれまで以上に警戒する必要があります。 VPC トラフィックミラーリング 今日、AWS では VPC トラフィックミラーリングの利用を開始します。これは既存の Virtual Private Clouds (VPC) を使用する新機能で、ネットワークトラフィックを捕捉し、検査します。また、この機能はスケール可能です。次のことを実行できます。 ネットワークおよびセキュリティ上の異常を検出 – VPC 上の任意のワークロードから関心のあるトラフィックを抽出し、指定した検出ツールにルーティングできます。従来のログベースのツールと比較して、より迅速に攻撃を検出し、対応できます。 運用上のインサイトを取得 – VPC トラフィックミラーリングを使用することで、ネットワークを可視化し、コントロールを得ることができます。それは後に、より詳細な情報を得たうえでセキュリティの意思決定を下すのに役立ちます。 コンプライアンスとセキュリティコントロールを実装 – モニタリング、ログ作成、その他を必要とする法令およびコンプライアンスの要件に準拠できるようになります。 問題のトラブルシューティング – テストやトラブルシューティングの目的で、アプリケーションのトラフィックを社内的にミラーリングできます。トラフィックパターンを分析し、事前にアプリケーションのパフォーマンスを損なう「渋滞」ポイントを見つけることができます。 VPC トラフィックミラーリングは「仮想ファイバータップ」と捉えることができます。このタップにより VPC を通じて、ネットワークパケットへ直接アクセスできるようになるのです。すぐにご覧いただけるように、すべてのトラフィックを捕捉することも、特に関心のあるパケットを捕捉するためにフィルターを使用することもでき、さらには、パケットあたりの捕捉するバイト数を制限するオプションも用意されています。多数の AWS アカウントをまたいだ VPC からトラフィックを捕捉して、検査のために集中型 VPC にルーティングするといった、AWS のマルチアカウント環境で VPC トラフィックミラーリングを使用する使い方も可能です。 AWS Nitro システム (本記事の執筆時点では A1、C5、C5d、M5、M5a、M5d、R5、R5a、R5d、T3、および z1d) でサポートされている任意の EC2 インスタンスからのトラフィックをミラーリングできます。 VPC トラフィックミラーリングを使い始める VPC トラフィックミラーリングの主要な要素を見直して、セットアップを始めましょう。 Mirror Source – […]

Read More

新機能 – Network Load Balancer のための UDP ロードバランシング

Network Load Balancer は、ユーザーが労力を費さなくても、極めて低いレイテンシーで高いスループットを維持しながら 1 秒あたり何千万件ものリクエストを処理するように設計されています (詳細については、私の記事、New Network Load Balancer – Effortless Scaling to Millions of Requests per Second をお読みください)。 2017 年後半のローンチ以来、AWS では お客様のご要望にお応えして新しい機能をいくつか追加してきました。これには、クロスゾーンロードバランシング、リソースベースおよびタグベースのアクセス許可のサポート、AWS マネージド VPN トンネルでの使用のサポート、AWS Elastic Beanstalk コンソールを使用して Network Load Balancer を作成する機能、リージョン間での VPC ピアリングのサポート、そして TLS 終端が含まれます。 UDP ロードバランシング AWS は本日、お客様からのご要望が多いもうひとつの機能、UDP トラフィックのロードバランシングに対するサポートを追加します。これにより、オンラインゲーミング、IoT、ストリーミング、メディア転送、およびネイティブな UDP アプリケーション向けのコネクションレスサービスのデプロイメントのために Network Load Balancer を使用できるようになりました。独自のデータセンターで DNS、SIP、SNMP、Syslog、RADIUS、およびその他の UDP サービスをホストしている場合は、AWS にサービスを移動させることが可能です。AAA として知られている場合が多い Authentication […]

Read More

Amazon EMR 移行ガイド

世界中の企業が、Apache Hadoop や Apache Spark などの新しいビッグデータ処理および分析のフレームワークの力を発見していますが、同時にオンプレミスのデータレイク環境でこうしたテクノロジを運用する際のいくつかの課題にも気付いています。また、現在の配信ベンダーの将来についても懸念があるかもしれません。 こうした課題に対処するために、Amazon EMR 移行ガイド (2019 年 6 月に最初に公開) を発表しました。 これは、オンプレミスのビッグデータのデプロイから EMR への移行方法を計画する際に役立つ、適切な技術的アドバイスを提供する包括的なガイドです。 IT 組織はリソースのプロビジョニング、不均一なワークロードの大規模な処理、そして急速に変化するコミュニティ主導のオープンソースソフトウェアのイノベーションのスピードに追いつくための努力に取り組んでいるため、オンプレミスのビッグデータ環境における一般的な問題としては、俊敏性の欠如、過剰なコスト、管理に関する課題などがあります。多くのビッグデータに関する取り組みでは、基盤となるハードウェアおよびソフトウェアインフラストラクチャの評価、選択、購入、納入、デプロイ、統合、プロビジョニング、パッチ適用、保守、アップグレード、サポートの遅れや負担が課題となっています。 同様に重要ではあるものの、微妙な問題は、企業のデータセンターでの Apache Hadoop と Apache Spark のデプロイが同じサーバー内のコンピューティングリソースとストレージリソースを直接結びつける方法であり、足並みを揃えて拡張しなければならない柔軟性に欠けるモデルとなることです。つまり、ほとんどのオンプレミス環境では、各ワークロードのコンポーネントに対する要件が異なるため、未使用のディスク容量、処理能力、システムメモリが多くなってしまいます。 一般的なワークロードは、さまざまな種類のクラスターで、さまざまな頻度と時間帯で実行されます。こうしたビッグデータのワークロードは、共有している同じ基盤となるストレージまたはデータレイクにアクセスしながら、いつでも最も効率的に実行できるように解放する必要があります。説明については、下の図 1 を参照してください。 スマートな企業は、どのようにしてビッグデータへの取り組みで成功を収めることができるでしょうか? ビッグデータ (および機械学習) をクラウドに移行することには多くの利点があります。AWS などのクラウドインフラストラクチャサービスプロバイダーは、オンデマンドで伸縮自在なコンピューティングリソース、回復力があり安価な永続的ストレージ、およびビッグデータアプリケーションを開発および運用するための最新の使い慣れた環境を提供するマネージド型サービスの幅広い選択肢を提供します。データエンジニア、開発者、データサイエンティスト、IT 担当者は、データの準備と貴重な洞察の抽出に集中することができます。 Amazon EMR、AWS Glue、Amazon S3 などのサービスを使用すると、コンピューティングとストレージを個別に分離および拡張しながら、統合され、高度に管理された、回復力の高い環境を提供し、オンプレミスアプローチの問題を即座に軽減できます。このアプローチは、より速く、より俊敏で、使いやすく、よりコスト効率の良いビッグデータとデータレイクのイニシアチブにつながります。 ただし、従来のオンプレミスの Apache Hadoop および Apache Spark に関する既存の知恵は、クラウドベースのデプロイでは必ずしも最善の戦略とはなりません。クラウド内でクラスターノードを実行するための単純なリフトアンドシフトアプローチは、概念的には簡単ですが、実際には次善の策です。ビッグデータをクラウドアーキテクチャに移行する際に、さまざまな設計上の決定が利益を最大化するために大きく役立ちます。 このガイドでは、以下のベストプラクティスを紹介します。 データ、アプリケーション、およびカタログの移行 永続的リソースと一時的リソースの使用 セキュリティポリシー、アクセスコントロール、および監査ログの設定 価値を最大化しながら、コストを見積もりそして最小化する AWS クラウドを活用して高可用性 (HA) と災害復旧 […]

Read More

新しい C5 インスタンスのサイズとベアメタル インスタンスがいますぐ使用可能

Amazon EC2 C5 インスタンスは、バッチ処理、分散型アナリティクス、ハイパフォーマンスのコンピューティング、機械 / 深層学習推論、ad サーブ、高度にスケーラブルなマルチプレイヤーゲーミング、ビデオエンコーディングなどのような計算負荷の高いワークロードに対して非常に一般的です。 今日、次の特徴をもつ Amazon EC2 C5 ファミリを拡張できることをうれしく思います。 新しいより大きな仮想インスタンスサイズ; 12xlarge と 24xlarge、 ベアメタルオプション。 新しい C5 インスタンスサイズは、持続的な全コアターボ周波数 3.6 GHz、最大シングルコアターボ周波数 3.9 GHzの Intel の第二世代 Xeron スケーラブルプロセッサ (コード名 Cascade Lake) で実行されます。 新しいプロセッサはまた、 AVX-512 インストラクションセットに基づいた Intel Deep Learning Boost と呼ばれる新機能も備えています。新しいベクトルニューラルネットワークのインストラクション (AVX-512 VNNI) のおかげで、深層学習フレームワークは、畳み込みなどの代表的な機械学習操作をスピードアップし、自動的に広域ワークロードでの推論性能を改善します。 これらのインスタンスはまた、AWS Nitro System を基礎としており、EBS 処理 (暗号化操作を含む) の専用ハードウェアアクセラレーター、各 Virtual Private Cloud (VPC) 内にあるソフトウェア定義ネットワーク、ENA […]

Read More

3M Health Information Systems がヘルスケア分析プラットフォームを構築するために Amazon Redshift を選択した理由

3M Health Care の事業である 3M Health Information Systems (HIS) は、医療従事者、患者、および政府機関と協力して変化するヘルスケアの展望を予測してナビゲートしています。3M は、顧客が量から価値ベースの医療に移行するのを支援する医療業績測定および管理ソリューション、分析、および戦略的サービスを提供することで、数百万ドルを節約し、プロバイダーの業績を向上させ、質の高い医療を提供できるようにしています。3M の革新的なソフトウェアは、コンピュータ支援コーディング、臨床文書の改善、パフォーマンスの監視、品質結果報告、および用語集管理の基準を引き上げるように設計されています。 3M HIS では、オンプレミスまたは他のクラウドホスティングプロバイダーにインストールされているアプリケーションをアマゾン ウェブ サービス (AWS) に移行するための継続的なイニシアチブがありました。3M HIS は、コンピューティング、ストレージ、およびネットワークの弾力性を活かすために AWS への移行を開始しました。当社は今後数年間に予想される事業の成長をサポートするために拡張する一方で、顧客価値の提供に注力するのに役立つ確固たる基盤を構築したいと考えていました。3M HIS はすでに本質的に複雑な多くの顧客の医療データを処理していたため、分析や機械学習に役立つ形式にデータを変換する多大な作業が必要でした。 多くのソリューションを検討した結果、3M HIS は適切なデータウェアハウスソリューションとして Amazon Redshift を選択しました。当社は、カラムストレージを使用して I/O を最小限に抑え、高いデータ圧縮率を提供し、高速パフォーマンスを提供する、高速で完全マネージド型のペタバイト規模のデータウェアハウスソリューションである Amazon Redshift が当社のニーズに合致すると結論付けました。開発環境ですぐにクラスターを作り、ディメンションモデルを作成し、データをロードして、ユーザーデータのベンチマークとテストを実行できるようにしました。さまざまなソースから Amazon Redshift にデータを処理してロードするために、抽出、変換、ロード (ETL) ツールを使用しました。 多くのソリューションを検討した結果、3M HIS は適切なデータウェアハウスソリューションとして Amazon Redshift を選択しました。当社は、カラムストレージを使用して I/O を最小限に抑え、高いデータ圧縮率を提供し、高速パフォーマンスを提供する、高速で完全マネージド型のペタバイト規模のデータウェアハウスソリューションである Amazon Redshift が当社のニーズに合致すると結論付けました。開発環境ですぐにクラスターを作り、ディメンションモデルを作成し、データをロードして、ユーザーデータのベンチマークとテストを実行できるようにしました。さまざまなソースから Amazon Redshift にデータを処理してロードするために、抽出、変換、ロード […]

Read More