Amazon Web Services ブログ

Amazon EMR 移行ガイド

世界中の企業が、Apache Hadoop や Apache Spark などの新しいビッグデータ処理および分析のフレームワークの力を発見していますが、同時にオンプレミスのデータレイク環境でこうしたテクノロジを運用する際のいくつかの課題にも気付いています。また、現在の配信ベンダーの将来についても懸念があるかもしれません。 こうした課題に対処するために、Amazon EMR 移行ガイド (2019 年 6 月に最初に公開) を発表しました。 これは、オンプレミスのビッグデータのデプロイから EMR への移行方法を計画する際に役立つ、適切な技術的アドバイスを提供する包括的なガイドです。 IT 組織はリソースのプロビジョニング、不均一なワークロードの大規模な処理、そして急速に変化するコミュニティ主導のオープンソースソフトウェアのイノベーションのスピードに追いつくための努力に取り組んでいるため、オンプレミスのビッグデータ環境における一般的な問題としては、俊敏性の欠如、過剰なコスト、管理に関する課題などがあります。多くのビッグデータに関する取り組みでは、基盤となるハードウェアおよびソフトウェアインフラストラクチャの評価、選択、購入、納入、デプロイ、統合、プロビジョニング、パッチ適用、保守、アップグレード、サポートの遅れや負担が課題となっています。 同様に重要ではあるものの、微妙な問題は、企業のデータセンターでの Apache Hadoop と Apache Spark のデプロイが同じサーバー内のコンピューティングリソースとストレージリソースを直接結びつける方法であり、足並みを揃えて拡張しなければならない柔軟性に欠けるモデルとなることです。つまり、ほとんどのオンプレミス環境では、各ワークロードのコンポーネントに対する要件が異なるため、未使用のディスク容量、処理能力、システムメモリが多くなってしまいます。 一般的なワークロードは、さまざまな種類のクラスターで、さまざまな頻度と時間帯で実行されます。こうしたビッグデータのワークロードは、共有している同じ基盤となるストレージまたはデータレイクにアクセスしながら、いつでも最も効率的に実行できるように解放する必要があります。説明については、下の図 1 を参照してください。 スマートな企業は、どのようにしてビッグデータへの取り組みで成功を収めることができるでしょうか? ビッグデータ (および機械学習) をクラウドに移行することには多くの利点があります。AWS などのクラウドインフラストラクチャサービスプロバイダーは、オンデマンドで伸縮自在なコンピューティングリソース、回復力があり安価な永続的ストレージ、およびビッグデータアプリケーションを開発および運用するための最新の使い慣れた環境を提供するマネージド型サービスの幅広い選択肢を提供します。データエンジニア、開発者、データサイエンティスト、IT 担当者は、データの準備と貴重な洞察の抽出に集中することができます。 Amazon EMR、AWS Glue、Amazon S3 などのサービスを使用すると、コンピューティングとストレージを個別に分離および拡張しながら、統合され、高度に管理された、回復力の高い環境を提供し、オンプレミスアプローチの問題を即座に軽減できます。このアプローチは、より速く、より俊敏で、使いやすく、よりコスト効率の良いビッグデータとデータレイクのイニシアチブにつながります。 ただし、従来のオンプレミスの Apache Hadoop および Apache Spark に関する既存の知恵は、クラウドベースのデプロイでは必ずしも最善の戦略とはなりません。クラウド内でクラスターノードを実行するための単純なリフトアンドシフトアプローチは、概念的には簡単ですが、実際には次善の策です。ビッグデータをクラウドアーキテクチャに移行する際に、さまざまな設計上の決定が利益を最大化するために大きく役立ちます。 このガイドでは、以下のベストプラクティスを紹介します。 データ、アプリケーション、およびカタログの移行 永続的リソースと一時的リソースの使用 セキュリティポリシー、アクセスコントロール、および監査ログの設定 価値を最大化しながら、コストを見積もりそして最小化する AWS クラウドを活用して高可用性 (HA) と災害復旧 […]

Read More

新しい C5 インスタンスのサイズとベアメタル インスタンスがいますぐ使用可能

Amazon EC2 C5 インスタンスは、バッチ処理、分散型アナリティクス、ハイパフォーマンスのコンピューティング、機械 / 深層学習推論、ad サーブ、高度にスケーラブルなマルチプレイヤーゲーミング、ビデオエンコーディングなどのような計算負荷の高いワークロードに対して非常に一般的です。 今日、次の特徴をもつ Amazon EC2 C5 ファミリを拡張できることをうれしく思います。 新しいより大きな仮想インスタンスサイズ; 12xlarge と 24xlarge、 ベアメタルオプション。 新しい C5 インスタンスサイズは、持続的な全コアターボ周波数 3.6 GHz、最大シングルコアターボ周波数 3.9 GHzの Intel の第二世代 Xeron スケーラブルプロセッサ (コード名 Cascade Lake) で実行されます。 新しいプロセッサはまた、 AVX-512 インストラクションセットに基づいた Intel Deep Learning Boost と呼ばれる新機能も備えています。新しいベクトルニューラルネットワークのインストラクション (AVX-512 VNNI) のおかげで、深層学習フレームワークは、畳み込みなどの代表的な機械学習操作をスピードアップし、自動的に広域ワークロードでの推論性能を改善します。 これらのインスタンスはまた、AWS Nitro System を基礎としており、EBS 処理 (暗号化操作を含む) の専用ハードウェアアクセラレーター、各 Virtual Private Cloud (VPC) 内にあるソフトウェア定義ネットワーク、ENA […]

Read More

3M Health Information Systems がヘルスケア分析プラットフォームを構築するために Amazon Redshift を選択した理由

3M Health Care の事業である 3M Health Information Systems (HIS) は、医療従事者、患者、および政府機関と協力して変化するヘルスケアの展望を予測してナビゲートしています。3M は、顧客が量から価値ベースの医療に移行するのを支援する医療業績測定および管理ソリューション、分析、および戦略的サービスを提供することで、数百万ドルを節約し、プロバイダーの業績を向上させ、質の高い医療を提供できるようにしています。3M の革新的なソフトウェアは、コンピュータ支援コーディング、臨床文書の改善、パフォーマンスの監視、品質結果報告、および用語集管理の基準を引き上げるように設計されています。 3M HIS では、オンプレミスまたは他のクラウドホスティングプロバイダーにインストールされているアプリケーションをアマゾン ウェブ サービス (AWS) に移行するための継続的なイニシアチブがありました。3M HIS は、コンピューティング、ストレージ、およびネットワークの弾力性を活かすために AWS への移行を開始しました。当社は今後数年間に予想される事業の成長をサポートするために拡張する一方で、顧客価値の提供に注力するのに役立つ確固たる基盤を構築したいと考えていました。3M HIS はすでに本質的に複雑な多くの顧客の医療データを処理していたため、分析や機械学習に役立つ形式にデータを変換する多大な作業が必要でした。 多くのソリューションを検討した結果、3M HIS は適切なデータウェアハウスソリューションとして Amazon Redshift を選択しました。当社は、カラムストレージを使用して I/O を最小限に抑え、高いデータ圧縮率を提供し、高速パフォーマンスを提供する、高速で完全マネージド型のペタバイト規模のデータウェアハウスソリューションである Amazon Redshift が当社のニーズに合致すると結論付けました。開発環境ですぐにクラスターを作り、ディメンションモデルを作成し、データをロードして、ユーザーデータのベンチマークとテストを実行できるようにしました。さまざまなソースから Amazon Redshift にデータを処理してロードするために、抽出、変換、ロード (ETL) ツールを使用しました。 多くのソリューションを検討した結果、3M HIS は適切なデータウェアハウスソリューションとして Amazon Redshift を選択しました。当社は、カラムストレージを使用して I/O を最小限に抑え、高いデータ圧縮率を提供し、高速パフォーマンスを提供する、高速で完全マネージド型のペタバイト規模のデータウェアハウスソリューションである Amazon Redshift が当社のニーズに合致すると結論付けました。開発環境ですぐにクラスターを作り、ディメンションモデルを作成し、データをロードして、ユーザーデータのベンチマークとテストを実行できるようにしました。さまざまなソースから Amazon Redshift にデータを処理してロードするために、抽出、変換、ロード […]

Read More

Amazon DynamoDB からのクエリで実証的にテストと測定を行う

 この投稿では、Amazon DynamoDB のクエリを実証分析するために、弊社チームがどのようにしてシンプルな出力を安価に提供できたのかについて説明します。私たちの目標は、DynamoDB のレガシーデータベースを使用し、データを新しい方法で変換してから、新しい DynamoDB データベースに格納することでした。このプロジェクトに 8 か月間作業を重ねてきた結果、システムについての理論的な推論をやめ、代わりに実証的にテストと測定を行うことにしました。 レガシーユースケースが正しいことを数え切れないほど証明しましたが、システムのパフォーマンスが高くつく割に遅かったため、最終的にレガシーユースケースは受け入れられませんでした。やるべきタスクに、多くのレガシーサービスが残ってしまいました。私たちはコードの解読や多数のレガシーサービスを介したデータの追跡などで忙しく、疲れ果てていたので、別の方法でプロジェクトにアプローチしようとしたのです。 実証的に考える コードを書き、実行し、望ましい結果が出るまでそれを繰り返すという開発サイクルに慣れています。間違った場合は、コードに戻り、記憶の中にデータを取り込み。実行を追跡します。特に行き詰まってしまった場合には、println ステートメントを追加してシステムの状態を追跡します。 こうした理論的アプローチは、プロジェクトが小規模であれば管理可能です。しかし大規模になると、複数のシステムにわたるデータを推論することはほぼ不可能です。そのため、大規模なケースでは実証的な理論は放棄した方がよいのです。 私たちのチームは RequestMetricCollector を使用して安価でシンプルなコードを書き、標準化した DynamoDB クエリをログ記録しました。クエリを標準化するとは、クエリの形式を一意にするためのデータを含まない文字列として作成することを意味します。つまりフィールド、テーブル名、インデックス名だけが残るまですべてのデータを削除するのです。 RequestMetricCollector アクションを使用して、AWS SDK で AWS への呼び出しを傍受できます。このアプローチは他の AWS のサービスにも同様に機能するはずです。汎用リクエストと応答オブジェクトを持つ collectMetrics 関数が公開されています。ドキュメントはメトリクスの可能性を優先しますが、メトリクス以外のデータも同様に利用可能です。他のサービスやシステムと統合する必要がないため、低コストです。 すべての作業はメモリ内で行われます。出力は人間が読むことができる標準化したクエリのリストであるため、自然です。分析用にクエリデータを別のデータストアに配置する必要はありません。 以下の図では、まず最初に複雑なアーキテクチャが示されており、これらは本質的に推論が難しい数多くのサービスで構成されています。コンポーネントの 1 つが DynamoDB を呼び出し、データを永続化します。RequestMetricsCollector でこれらの呼び出しを傍受し、各リクエストに関する情報を記録します。これは、次のセクションにある問題のいくつかを解決するのに役立ちます。 ALT テキスト: サービス 1 がサービス 2、3、4 などとやり取りする方法、およびそれらのサービスが DynamoDB テーブルと接続するサービス N とやり取りする方法を示すワークフロー図。DynamoDB テーブルが AWS SDK (RequestMetricsCollector) とやり取りした後、AWS SDK がホスト/サーバーにログオンします。 複雑なアーキテクチャ: […]

Read More

Amazon ElastiCache を Redis 向けに設定して可用性を高める

現在、Amazon ElastiCache という名前は、リアルタイムアプリケーションと同義に捉えられるようになりました。Redis の性能の高さ、シンプルさ、そして多様なデータ構造へのサポートは、非リレーショナルのキー値ストアとしては、最も人気のあるものの 1 つです。ビジネスに不可欠なリアルタイムのユースケースが Redis 上で増加する中で、可用性の保証は重要な課題となってきています。 高い可用性を実現するため、Redis 用 Amazon ElastiCache では Redis クラスターの設定をサポートし、すぐれたスケーラビリティと可用性を提供します。加えて Amazon ElastiCache では、自動フェイルオーバー機能を持つ複数のアベイラビリティゾーン (Multi-AZ) も提供しており、クラスターがゾーン間で 1 つ以上の複製を作る設定も可能です。主要ノード上で障害イベントが発生しても、Redis 用 Amazon ElastiCache では自動的に複製に対しフェイルオーバーが行われるので、高い可用性が保証されます。 最近、Redis 用 Amazon ElastiCache から、Redis アプリケーションのエンドツーエンドな可用性を向上させるための、いくつかの発表を行いました。 「Amazon ElastiCache for Redis で計画されたメンテナンス中のクラスター可用性が向上」は、自動フェイルオーバーを有効化したクラスターの、パッチ適用、更新、その他メインテナンス関連処理など、ノード置換が関係する作業中における可用性を高めるものです。Redis クラスター設定のセットアップには、Redis Cluster クライアントが使えます。これにより、予定したメインテナンスやノード置換も、書き込み中断をまったく生じずに完了します。非 Redis クラスター (非シャード) 設定では、DNS の更新時に最大で数秒間の短い書き込み中断が生じることがあります。 「Amazon ElastiCache for Redis がセルフサービスアップデートに対応開始」は、メインテナンスのための更新を開始するタイミングを制御することで、その作業の影響を最小化するものです。 「Amazon ElastiCache Redis にリーダーエンドポイントを開始」は、個別レプリカエンドポイントの変更点を管理する必要がなく、読込みトラフィックの接続を可能にするものです。これにより、アプリケーションが個別ノードエンドポイントの変更点を管理する必要性がなくなり、可用性を向上させます。この機能は、Redis クラスター設定に対しては、すでにRedis […]

Read More

TensorFlow と Apache MXNet を使用して、Amazon SageMaker で Keras モデルをトレーニングおよびデプロイする

Keras は適切に文書化された定評のある深層学習用オープンソースライブラリで、一方 Amazon SageMaker は機械学習モデルをトレーニングし最適化するための使いやすいツールです。両者を使用するにはこれまで、カスタムコンテナを構築する必要がありましたが、Keras は TensorFlow と Apache MXNet 用のビルトイン TensorFlow 環境の一部になりました。この結果、開発プロセスが簡素化しただけでなく、スクリプトモードや自動モデル調整などの Amazon SageMaker の標準機能を使用することもできるようになりました。 Keras の優れたドキュメント、多数の事例、さらに活発なコミュニティにより、初心者にも経験豊富な専門家にも最適な選択肢となっています。このライブラリはあらゆる種類の深層学習アーキテクチャを簡単に構築できるようにするハイレベルな API を提供し、さらにトレーニングと予測に異なるバックエンドを使用するオプション (TensorFlow、Apache MXNet、および Theano) もあります。 この記事では TensorFlow と Apache MXNet 用ビルトイン TensorFlow 環境を使用して、Amazon SageMaker で Keras 2.x モデルをトレーニングおよびデプロイする方法を説明します。その過程で、次のことも学びます。 スクリプトモードを使用して、ローカルマシンで実行しているのと同じ Keras コードを Amazon SageMaker で実行する。 自動モデル調整を起動して、ハイパーパラメータを最適化する。 Amazon Elastic Inference を使用してモデルをデプロイする。 Keras の例 この例では、Fashion MNIST データセットで簡単な畳み込みニューラルネットワークをトレーニングする方法を示します。このデータセットは、よく知られている MNIST データセットに置き換えられるものです。同数のクラス […]

Read More

DeepRacer League のもう一つのトリプルでは、さらなる世界記録を更新し、初の女性優勝者が誕生しました!

AWS DeepRacer League は、誰もが参加可能な、自動運転車による世界初の国際的レーシングリーグです。あらゆるスキルレベルの開発者達が、国際的に 22 回開催される AWS イベントで直接、あるいは AWS の DeepRacer コンソールを通じオンラインでの競技参加が可能です。彼らは 2019 年のチャンピオンカップをかけたレースが開催される re:Invent 2019 への旅費無料の招待を賭けて競い合います。 先週、AWS DeepRacer League が世界中の 3 つの都市 (米国ワシントン DC、台湾台北、日本東京) を訪れました。各レースでは何日にもわたり、開発者が優勝ラップタイムを記録できるように多数の機会を提供しました。 初の女性優勝者と世界記録 東京レースは今回も最大規模で行われました。都市のすぐ離れにある幕張メッセで 2 万人を超える AWS のお客様が AWS サミットに参加し、学習、実践ラボ、およびネットワーキングを 3 日間行いました。開発者がサミットを通して競うための 2 つの DeepRacer トラック、仮想レーシングポッド、および DeepRacer モデルを構築する方法を学ぶための複数のワークショップが開かれました。 モデルを構築し、AWS DeepRacer リーグの詳細を学ぶための仮想レーシングポッド。 何百人もの開発者が各自のモデルをトラックでテストしましたが、誰も初の女性優勝者である sola@DNP の世界最高記録 7.44 秒を勝ち抜くことはできませんでした。実際の車のサイズにスケールアップした場合、DeepRacero は約 100 mph に相当します。 sola@DNP […]

Read More
週間AWS

週刊AWS – 2019/6/17週

みなさん、こんにちは。AWSソリューションアーキテクトの下佐粉(しもさこ)です。 週刊AWS 第6回をお送りします。このシリーズでは、毎日のようにリリースされるAWSの新機能や新サービスを一週間単位でコンパクトに紹介しています。毎週火曜か水曜ぐらいを目処に更新をしています(と言いながら月曜に出たりするのですが)。 今週は27日(木)にAWS Summit Osaka 2019がグランフロント大阪で開催されますね。すでに申し込み受付は終了してしまっていますが、基調講演を始め一部の技術セッション等はライブストリーミングされますので、ぜひご覧ください。 では先週のアップデートを見ていきましょう。

Read More

Amazon SageMaker の体験ハンズオン動画とQAを公開しました

先日 (2019/5/17) 開催しました 「Amazon SageMaker 機械学習エンジニア向け体験ハンズオン」の動画および資料を公開しました。当日、参加者の皆様から多数頂いた QA についても掲載しています。 Amazon SageMaker は、データサイエンティストやエンジニアが効率よく機械学習を進めるために、 AWS が提供するマネージドサービスです。この動画はSageMakerの基本的な使い方を体験できる1時間のハンズオン動画となっており、動画を見ながら実際に手を動かすことで、SageMakerの利用法を効率よく理解することができます。これからSageMakerを利用して機械学習に取り組む際にはAWS Black Belt オンラインセミナーと合わせて是非ご覧下さい。 【ハンズオンの概要】 1) ビルトインアルゴリズムの利用 ・Random Cut Forest を利用した異常検知 ・XGBoost を利用した画像認識(紹介のみ) 2) Deep Learning フレームワークの利用 ・Chainer を利用した画像認識          ※ 動画の一例 視聴はこちらから >> ※ リンク先でフォームに登録いただきますと、各コンテンツにアクセス可能となります。   当日、参加者の皆様から頂いた QA を以下に掲載します。 Q. SageMakerと他のMachine Learningサービスの区別は?マネージドサービスの中の機械学習サービスの分別とか、適用範囲を教えて頂けませんか A. 機械学習に関連するAWSサービスは、インフラストラクチャ、MLサービス、AIサービスという3つのカテゴリに大きく分けられます。 1. 機械学習を支えるインフラストラクチャには、GPU/FPGA/大量のCPUを搭載したEC2やAWS IoT Greengrass、Amazon Elastic Inferenceなどが該当します。 […]

Read More

[AWS Black Belt Online Seminar] Dive deep into AWS Chalice 資料及び QA 公開

先日 (2019/6/19) 開催しました AWS Black Belt Online Seminar「Dive deep into AWS Chalice」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 発表内容に関しまして、該当箇所 に以下訂正がございましたので、併せて修正させていただきます。 訂正内容: – 誤: バイト型ではなくて文字列型 – 正: バイト型ではなくて dict 型 20190619 AWS Black Belt Online Seminar Dive Deep into AWS Chalice from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. ChaliceはFlaskに似ているように感じましたが、関係がありますか? A. Flask や Bottle のような他のフレームワークのようにデコレータベースでのルーティング定義を行うという慣例に倣っていますが、ライブラリとしての依存関係はありません。 GitHub での FAQ にもう少し詳しい回答があります。こちらも併せてご確認ください。 Q. cloud9環境を作成し、virtualenvにてpython3環境を作成し、インストール/deployを試しました。エラーが出ているのですが、対処方法をご教授いただけないでしょうか。 A. deploy サブコマンドを実行するためには、お手元の環境で認証情報が正しく設定されている必要があります。 aws configure […]

Read More