Amazon Web Services ブログ

AWS Japan

Author: AWS Japan

Amazon EMR のサイズ変更とオートスケーリングのベストプラクティス

Amazon EMR で利用可能な動的なスケーリング機能を利用することで、費用を節約することができます。 クラスタ内のノード数を即座に増やしたり減らしたりスケールする機能は、Amazon EMR を弾力的にする主要な機能の1つです。 EMR のスケーリング機能を使うことで,負荷がほとんどまたはまったくない時にクラスターのサイズを小さく変更することができます。 また、ジョブが非常に遅くなった場合に処理能力を追加するために、クラスターのサイズを大きくすることもできます。 これによりあなたのジョブを少し余裕を持たせた上でカバーするのに必要十分なコストを使うことが出来ます。 この機能の背後にある複雑なロジックを知ることで、クラスタのコストを節約することができます。この記事では、EMR クラスターのサイズをどのように変更するかを詳しく説明し、この機能を使用してあなたのクラスタのコストを削減し最大限のメリットを得るためのベストプラクティスを紹介します。 EMR スケーリングは、単にノードをクラスタに追加または削除するより複雑です。よくある誤解の1つは、Amazon EMR のスケーリングは Amazon EC2 のスケーリングとまったく同じように動くということです。 EC2 スケーリングを使用すると、ノードをほぼ即時に、かつ心配なく追加/削除できますが、EMR では複雑さが増します(特にクラスタを縮小する場合)。これは重要なデータがノード上にあったり,ジョブがノード上で実行していたりする可能性があるためです。 データロストを防ぐため、Amazon EMR スケーリングでは、実行中の Apache Hadoop タスクや、ノードを削除する前に失われる可能性のある一意のデータがノードに存在しないことが保証されます。 EMR クラスタのサイズ変更する際にはデコミッションの遅延を考慮する必要があります。このプロセスがどのように機能するかを理解することによって、遅いクラスタのサイズ変更や非効率なオートスケーリングのポリシーなど、他の人が悩まされていた問題を回避できます。 EMR クラスタが縮小されると、終了するノードで2つの異なるデコミッションプロセスがトリガされます。最初のプロセスは、Hadoop リソースマネージャである Hadoop YARN のデコミッションです。 Amazon EMR にサブミットされる Hadoop タスクは一般的に YARN を通じて実行されるため、EMR はノードを削除する前に実行中の YARN タスクが完了していることを保証する必要があります。何らかの理由で YARN タスクがスタックした場合、デコミッショニングを緩やかに終了することを確実にする設定可能なタイムアウトがあります。このタイムアウトが発生すると、YARN タスクは終了し、タスクが正常に完了できるように別のノードに再スケジュールされます。 2番目のデコミッションプロセスは、HDFS(Hadoop Distributed File System)のデコミッションプロセスです。 HDFSは、HDFSを実行している任意のノード上の EMR […]

Read More

大阪ローカルリージョン Snowball / Snowball Edge 提供開始

みなさん、こんにちわ。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。   大阪ローカルリージョンで AWS Snowball / Snowball Edgeの提供が開始されました。 Snowball はセキュリティに考慮して設計されたデバイスを使用するペタバイト規模のデータ転送ソリューションで、AWS クラウド内外に大容量データを転送できます。AWSのリージョンへ大量のデータを転送するだけではなく、データの取り出しにもご利用可能です。 Snowballの使い方はシンプルです。例えばImportの場合、マネージメントコンソールでJOBを作成すると、Snowballデバイスが皆さんのところに送付されてきます。Snowballデバイスは業界標準のネットワークインターフェイス (RJ45、銅線 SFP+、光ファイバー SFP+ アダプタを使用した 10Gb イーサネット) とストレージプロトコル (HDFS、S3 API、S3 CLI) をサポートしています。このインターフェースを使用してAWSのリージョンへコピーするデータをSnowballデバイスへ書き込みます。その後指定された住所まで送付すると、指定したS3バケットにデータがアップロードされます。 すべてのデータは256 ビット暗号化を使用して暗号化されます。暗号化キーは、AWS Key Management Service (KMS) を使用して管理されます。キーがデバイスに送信されたり、保存されたりすることはないので、郵送途中のSnowballからデータが漏洩することはないようになっています。 インターネット経由でのデータアップロードとSnowballによるデータアップロードの比較 100 テラバイトのデータを転送するには、1 Gbps の専用接続を使っても 100 日以上かかります。Snowball デバイスは1個80テラバイトのデータを格納可能ですので、 2 個使用すれば同じ容量のデータを 1 週間未満 (別途、運送時間がかかる) で転送することができます。 東京リージョンと大阪ローカルリージョン間のデータコピー Snowballはリージョン間のデータコピーはサポートしていません。東京リージョンのデータを大阪ローカルリージョンへコピーする場合は、S3 のクロスリージョンレプリケーションを使用してください。 料金表 Snowballの料金表はこちらにあります。 Snowball […]

Read More

[AWS Black Belt Online Seminar] AWS Summit Tokyo 2018 の振り返りと最新アップデート 資料及び QA 公開

先日 (2018/6/26) 開催しました AWS Black Belt Online Seminar「AWS Summit Tokyo 2018 の振り返りと最新アップデート」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180626 AWS Black Belt Online Seminar AWS Summit Tokyo 2018 の振り返りと最新アップデート PDF Q. 【EFSについて】OracleRAC on EC2を組みたいと思っているのですが、EFSを利用した事例ないしは、BestPracticeは貴社にございますでしょうか。現状、OracleRAC on EC2を実施する上では、共有ストレージ、マルチキャスト等の課題がある認識です。上記、ご教示いただけますと幸いです。 A. 現時点では技術的な観点とライセンスの観点の双方から、Oracle RACをAWS上で利用することは現実的ではないとお考えください。Amazon RDS for OracleのMulti-AZによる冗長化や、Oracle on EC2であればData Guard/Active Data Guardによる冗長化で可用性目標を達成することができないかご検討頂く事をお勧めします。オンプレミスのOracle RACで構成されているシステムを置き換えたうえで、AWSに移行した事例もありますので是非ご覧ください。 Q. EFSはSSDですか?EBSとのスピード差はざっくりどの程度あるのでしょうか? A. パフォーマンス特性については下記のドキュメントをご確認ください。 https://docs.aws.amazon.com/ja_jp/efs/latest/ug/performance.html ファイルシステムのデータ容量に応じたスループットを確保すると共に、バーストにより一定時間の間スループットを増強する仕組みがあります。EBSはブロックストレージですが、EFSはNFSファイルシステムですので単純比較は難しいところですが、一般にEFSはEBSと比較するとレイテンシが高くなる傾向にあります。このドキュメントに記載されているユースケースが参考になると思いますので、用途に応じて使い分けるようにすることをお勧めします。 Q. EFS について、EC2 の Windows […]

Read More

AWS のセキュリティ動画(日本語)の公開について

セキュリティは、AWS の最優先事項です。AWS は、お客様のデータを保護することを何よりも重視しており、お客様のフィードバックを AWS サービスに継続的に取り入れ、迅速なイノベーションに取り組んでいます。お客様に AWS のこうした取り組みについて、よりご理解いただくために、この度、AWS のセキュリティやコンプライアンスについて紹介する動画の公開を開始しました。   ・AWS の責任共有モデルのご紹介動画 IT インフラストラクチャーを AWS に移行する際は、責任共有モデルを考慮いただく必要があります。AWS の責任範囲はクラウド環境自体のセキュリティ、お客様の責任範囲はクラウド環境上のセキュリティとなります。お客様は、お客様のシステムと全く同じように、コンテンツ、プラットフォーム、アプリケーション、システム、ネットワークを保護するためのセキュリティを設計いただく必要があります。AWS の責任共有モデルについては、下記よりご視聴ください。     ・AWS のデータセンターのご紹介動画 AWS は AWS のデータセンターのデジタルなツアーを既に公開していますが、AWS のデータセンターの一部についてツアーのようにご覧いただける動画をお客様に公開いたしました。AWS は自然災害や人為的なリスク等から AWS のインフラストラクチャーを保護するための AWS のデータセンターシステムについて、継続したイノベーションに取り組んでいます。膨大な数の実際にご利用いただいているお客様を保護するためのセキュリティ上の取り組みについて紹介しておりますので、下記よりご視聴ください。     ・Amazon GuardDuty のご紹介動画 Amazon GuardDuty は、インテリジェントな脅威検出サービスとなり、悪意のある操作や不正な動作に対してAWS アカウントおよびワークロードを継続的に監視します。Amazon GuardDuty について紹介しておりますので、下記よりご視聴ください。     ・Amazon Inspector Amazon Inspector は、AWS に展開されたアプリケーションのセキュリティとコンプライアンスを向上させるための、自動化されたセキュリティ評価サービスです。脆弱性やベストプラクティスから優先順位付けしたセキュリティに関する所見の詳細リストを生成します。Amazon Inspector について紹介しておりますので、下記よりご視聴ください。     – […]

Read More

Cloud Express Roadshow 2018が開幕します

みなさん、こんにちわ。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 # 2019年度版はこちらです。 7月から10月にかけて、Cloud Express Roadshowが予定されており、現在17都市にて27回開催が決定しています。 Cloud Roadshowは、従来AWS Summit終了後、日本の各都市を回るイベントとして行っていました。今年はなるべく多くの回数、なるべく多くの都市を回るべく、APNパートナーとの共催で開催することを目的として Cloud Express Roadshowと命名しました。 従来のロードショーとは異なり、セミナー終了後のクラウド導入に関する相談や導入検討する際の技術的アドバイスなどを継続的にAPNパートナーにご相談いただくことができます。 北海道・東北 6回 開催 【受付中】 7月12日(木) 北海道 札幌市 クラスメソッド株式会社 【受付中】 7月24日(火) 北海道 札幌市 日本電気株式会社 【準備中】 8月31日(金) 北海道 札幌市 株式会社野村総合研究所 【準備中】 9月12日(水) 北海道 札幌市 日本事務器株式会社 【準備中】 9月27日(木) 北海道 札幌市 株式会社スカイ365 【準備中】 9月(調整中) 宮城県 仙台市 日本事務器株式会社 関東・信越 6回 開催 【受付中】 7月11日(水) 新潟県 […]

Read More

Amazon QuickSightのプライベートVPC内のデータアクセスの設定方法について

はじめに 今回の記事では、先日一般公開された「Amazon QuickSightのプライベートVPC内のデータアクセス」の設定方法をご紹介します。この設定を行うことによって、Amazon QuckSight(以下、QuickSight)からプライベートサブネット内のAmazon RDS(以下、RDS)のデータベース、Amazon EC2内のデータベースへのアクセス、また AWS Direct Connect(以下、Direct Connect)を経由したオンプレミスのデータベースにアクセスして分析ダッシュボード、レポートを作成することが可能です。 なお本稿の情報は、2018年6月22日時点の以下のAWS公式ドキュメントをベースにしておりますが、最新の情報は設定前にご確認ください。 Amazon QuickSight: Amazon VPCを操作する 接続構成イメージ 以下で説明する手順を実行すると以下のようなイメージで構成されます。VPC内にあるプライベートサブネットの中にQuickSightアクセス用のセキュリティグループを定義することで、アタッチされるENI(Elastic Network Interface)経由でQuickSightが同一VPC内のデータベース(本例ではRDS)のあるプライベートサブネットに接続することが可能です。 図1. 構成イメージ(プライベートVPC内接続) また上記のように、QuickSightアクセス用のセキュリティグループを構成することで、オンプレミス環境にあるデータベースに対しても、Direct Connect経由でアクセス可能(オンプレミスデータベースへのルーティングが可能である前提)になります。 図2. 構成メージ(オンプレミスへの接続)   設定手順概要 1.QuickSight用のセキュリティグループ作成 AWSのマネージメントコンソールから「VPC → セキュリティグループ」を選択し、「セキュリティグループの作成」ボタンを押し、QuickSight用ENIのセキュリティグループを作成します。 図3. QuickSightアクセス用のセキュリティグループ作成   2.作成したQuickSightアクセス用のセキュリティグループのインバウンドルール設定 ここで前の手順で作成したQuickSightアクセス用のセキュリティグループの「インバウンドルール」を設定します。何故、インバウンドルールを設定するかというと以下のドキュメントの引用のように、QuickSight用のENI(ネットワークインターフェイス)にアタッチされているセキュリティグループの通信はステートフルではないため、本例のRDSからの戻りの通信に対する受信ルールを追加する必要があるのです。 引用:Amazon QuickSight: Amazon VPCを操作する 「ただし、Amazon QuickSight ネットワークインターフェイスにアタッチされているセキュリティグループはステートフルではありません。つまり、送信先ホストからの戻りトラフィックは自動的に許可されません。この場合、ネットワークインターフェイスセキュリティグループに Egress ルールを追加しても機能しません。したがって、明示的に承認するために、受信ルールをセキュリティグループに追加する必要があります。」 図4. QuickSightアクセス用のセキュリティグループ設定上のポイント よって、以下の様にQuickSight用のセキュリティグループのインバウンドルールを以下の様に設定します。 図5. QuickSightアクセス用のセキュリティグループのインバウンドルールの設定例   3.RDSのセキュリティグループの設定 次にRDSのセキュリティグループにQuickSightのセキュリティグループ経由のアクセスを許可する設定を行います。 AWSのマネージメントコンソールから「RDS → インスタンス」を選択し、該当のインスタンス名のリンクをクリックして、インスタンス詳細画面を表示します。 […]

Read More

AWS 機械学習ソリューションについて学べる新しいデジタルトレーニング

こんにちわ。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。   今年の1月に、AWSがご提供している機械学習関連サービスの、無料のトレーニングコースについてご案内しました。このコースはクラウドのスキルを磨いたり Machine Learning (ML)を学びやすくするために提供しており、「ディープラーニングの概要 (Introduction to Deep Learning)」や「Amazon SageMaker の概要 (Introduction to Amazon SageMaker)」といった新しいコースが含まれています。   こちらの日本語版がリリースされましたので、みなさんにご案内いたします。 オンデマンドウェビナー一覧 以下のコースが日本語字幕付きで提供を開始しています。動画視聴がポップアップブロックで開始されない場合は、ブラウザのポップアップブロックを設定してください。 https://www.aws.training にて登録後、各トレーニングをご利用いただけます。 Introduction to AWS Machine Learning Services (Japanese) (日本語字幕版) Introduction to Deep Learning (Japanese) (日本語字幕版) Introduction to AWS Greengrass (Japanese) (日本語字幕版) Introduction to Artificial Intelligence (Japanese) (日本語字幕版) Introduction to […]

Read More

[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開

こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から切り離したほうが良いのか?気にしなくて良いのかを知りたいです。 A. RDS をクロールする際、スキーマ取得のため Connection を使用します。瞬間的な処理にはなりますが、Connection が使用される点に留意いただき、検証の実施と実行タイミングの検討をお願いいたします。 Q. ベストプラクティス 2/5, 3/5 で説明されていた Parquetを使用した場合のメトリクスはRedshift Spectrum ではなく、Athenaを使用している場合に同様の情報を知ることは可能でしょうか。 A. Athena では同様の情報を確認いただくことができません。 以上です。 今後の AWS Black Belt Online Seminar のスケジュール 直近で以下のオンラインセミナーを予定しています。各オンラインセミナーの詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております! 7月分 ≫ https://pages.awscloud.com/event_JAPAN_BlackBeltOnlineSeminar-201807.html Amazon Neptune 2018 […]

Read More

[AWS Black Belt Online Seminar] AWS Cloud9 入門 資料及び QA 公開

先日 (2018/6/13) 開催しました AWS Black Belt Online Seminar「AWS Cloud9 入門」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180613 AWS Black Belt Online Seminar AWS Cloud9 入門 PDF Q. Express Setupした環境を後からTeam Setupに変更することはできますか? A. Express Setupで環境を作成したIAMユーザーを任意のIAMグループに登録することでTeam Setupと同様の管理が可能です。 Q. Cloud9はフェデレーションユーザーで利用できますでしょうか? A. はい、利用可能です。AWS Microsoft AD ディレクトリサービスを作成し、オンプレミスのADと信頼関係を結ぶことで、Microsoft ADの機能を利用してマネジメントコンソールへのアクセスとCloud9の利用権限をADのグループやユーザーに簡単に割り当てることができます。こちらのBlogが参考になります。 Q. Cloud9の環境バックアップは必要でしょうか?必要であればバックアップの方法を教えてください A. AWS Cloud9のFileメニューでDownload Projectを選択してtar.gz形式でプロジェクト全体をローカルPC環境へダウンロードすることができます。またEC2インスタンスのスナップショットを取得することもできます。 Q. Cloud9に対応しているブラウザ、対応していないブラウザやバージョンはありますか? A. こちらをご参照ください。 Q. Direct Connect等で接続したプライベートな環境(インターネットへ一切出ない環境)で、Cloud9を利用することは可能ですか? A. AWS cloud9はインターネットへのパブリック接続が必要です。 Q. […]

Read More

Amazon RDS Performance Insights が一般利用可能に

本日、Performance Insights が一般利用可能になったことを発表します。Performance Insights を使用すると、パフォーマンス問題が発生したときのボトルネックを簡単に特定し、対処方法を見つけることができます。

一般利用可能に合わせて、Performance Insights は次の機能を導入します。

* 7日間のパフォーマンスデータ履歴
* パフォーマンスデータの長期保持オプション
* SDKとAPIの一般公開

Read More