Amazon Web Services ブログ

Amazon CloudWatch を使用して Performance Insights メトリックにアラームを設定する

Amazon RDS Performance Insightsは、重要ななパフォーマンスメトリックを Performance Insights から Amazon CloudWatchに送信できる機能を、先ごろリリースしました。この機能を使うと、これらのメトリックに関するアラートを設定できます。 Performance Insights が有効になっている場合、CloudWatch に次の 3 つのメトリックが自動的に送信されます。 DBLoad DBLoadCPU DBLoadNonCPU これら 3 つのメトリックを、次に解説します。 DBLoad 最初のメトリック、DBLoadは、Performance Insights の中核となるものです。DBLoad は、同時にアクティブとなるデータベース接続数の尺度となります。この記事の中でセッションと呼んでいるアクティブな接続とは、データベースが結果を返さなかったデータベースにクエリを送信する接続のことです。クエリが送信される間、およびクエリ結果が戻される前、クエリはいくつかある状態のいずれかの状態となります。つまり、CPU 上で実行されているか、CPU を待っているか、ロックや I/O などのリソースが終了するのを待っているか、他のデータベースリソースへのアクセスを待っているかのいずれかの状態です。 クエリの処理中、通常、クエリはこれらの状態の間で切り替わります。ただし、クエリは待機するのではなく、クエリを実際に処理している CPU 上で動く時間がすべてクエリに費やされるのが理想です。同時にアクティブとなっている接続数とその接続状態を確認することで、データベースの負荷をすばやく強力に把握できます。DBLoadは、アクティブな同時データベース接続の平均数である、平均アクティブセッション (AAS) で測定します。デフォルトでは、Performance Insights ダッシュボードにある DBLoad グラフの各ポイントが、1 分以上経過した平均時間です。 DBLoadは 2 つの種類に分かれます。 DBLoadCPU は、接続が CPU 上で実行されていた時間、または CPU 上で実行準備が整っている時間を表します。 DBLoadNonCPU は、接続が I/O、ロック、データベースバッファーなどのデータベースリソースを待機していた時間を表します。 以下では、DBLoadCPU を中心にお話しします。 DBLoadCPU アラートを設定する […]

Read More

AWS Quest 2 – re:Invent への道

初めての AWS Quest が、今年の 5 月に始まりました。思い起こせば、私の信頼できるロボットのコンパニオンは、このブログ、AWS Podcast、および AWS サイトの他の部分にいくつかの手がかりを埋め込んだ後、バラバラになりました。世界各地の献身的なパズル回答者の根気強い努力のおかげで、すべてのパズルが見つかり、1 つを除いてすべてが解決され、AWS Twitch チャネルのアクション満載のブロードキャストに Ozz を戻すことができました。 とても楽しい時間を過ごすことができたので、もう一度やろうと決めました! Ozz 2.0 はより軽く、より強く、より速く、より可愛くて、かつてないほどのモバイル性を備えています。前回と同じように、Lone Shark Games の友人たちと協力して、複数のロジックの飛躍、グループの協力、解決への不屈の精神を必要とする一連のパズルをデザインしました。 「オレンジ色のレンガの道」を行く 私は Ozz にラスベガスでの AWS re:Invent で会おうと言いましたが、ルートは指定しませんでした。Ozz は、冒険的であり少しひねくれているので、シアトルから西に向かうオレンジ色のレンガの道を行くことにしました。私が言えることから、Ozz は途中の 15 の都市で止まって、re:Invent へのお土産を探すことを計画しています。 Ozz は、11 月 1 日に Amazon の故郷のお土産を手に入れて、シアトルを出発する予定です。そこから、Ozz はオーストラリアのシドニーに向かいます。それぞれのパズルは、Ozz のタイムゾーンでの正午にaws.amazon.com/awsquest で始まります。 あなたの仕事は、パズルを見つけて解読し、Ozz が何を re:Invent に持参するかを決定するのを助けることです。 — Jeff; PS – Ozz は、途中でフレンドリーなロボットの顔を探しています。11 月 1 […]

Read More

AWS での SQL Server のパフォーマンスベンチマーク

非常に多くのインスタンスタイプから選択できるため、アーキテクトや顧客にとって、SQL Server ワークロードを AWS に移行する際に最適なものを選択することが難しい場合があります。それぞれのインスタンスタイプとストレージのオプションについて詳細な仕様を利用できますが、こうした情報をすべて現実のシナリオにマッピングするのは難しいことがあります。 こうした課題に対処するために、SQL Server のベンチマークに関するホワイトペーパーを紹介しています。インスタンスタイプをベンチマークして、その実行方法をテストする方法に関する情報を提供します。また、コンピューティングとストレージの一般的な組み合わせに関するベンチマークによるパフォーマンスの数値も示しています。 このホワイトペーパーは、TPC ベンチマークの説明から始まり、データベースベンチマークの業界標準である HammerDB を紹介し、次にテストの範囲について説明します。さらに、環境、ワークロード、インスタンスタイプ、ストレージ、およびSQL Server の設定について詳しく説明します。最初のテストでは GP2 ボリュームのみ、2 番目のテストではローカルの NVMe ディスクにトランザクションログがある GP2 ボリュームのテスト、3 番目のテストではインスタンスストア NVMe ディスクのボリュームのテストと、3 種類のテストの結果について検討します。最終的な推奨が提供されます。 SQL Server Performance on AWS (AWS での SQL Server のパフォーマンス) のホワイトペーパーをご覧ください。 著者について Alan Cranfield は、EC2 Windows チームの上級ソフトウェアエンジニアであり、AWS 向けの Windows ワークロードの最適化をテーマにしています。       Bini Berhe は、Microsoft プラットフォームを担当する上級ソリューションアーキテクトであり、この分野の専門家として、オンプレミスのワークロードを AWS へ移行している顧客に指導や技術支援を提供しています。   […]

Read More

CSVデータセットのPipeモードを使って、Amazon SageMaker内蔵アルゴリズムでトレーニングがより早く

Amazon SageMakerに内蔵されたアルゴリズムはPipeモードをサポートし、Machine learning (ML)モデルをトレーニングしている間、Amazon Simple Storage Service (S3)からCSV形式でデータセットを取得しAmazon SageMakerへ取り込みます。 モデルのトレーニングを進めながら、データはPipe入力モードでアルゴリズムコンテナに直接流れます。トレーニングを開始する前にデータをローカルの Amazon Elastic Block Store (EBS)の容量でダウンロードするファイルモードとは異なります。Pipeモードを利用すると、トレーニングはより早く、かなり少ないディスク容量でより速く終了することができます。Machine learningモデルをトレーニングする全体的なコストを削減することができます。3.9GB CSVデータセットのAmazon SageMakerのLinear Learnerアルゴリズムで、回帰モデルのトレーニングに利用した内部基準では、ファイルモードに代わりPipeモードを利用した場合、モデルのトレーニングに費やす時間は全体的に40%も削減される例がありました。Pipeモードと利点の詳細についてはブログの掲示板をご覧ください。 Amazon SageMakerの内蔵アルゴリズムでPipeモードを利用する 本年度初頭に内蔵Amazon SageMakerアルゴリズムで利用するPipe入力モードが初めて発表された時は、protobuf recordIO形式のダータのみをサポートしていました。高処理のトレーニングジョブに特化した特殊な形式です。Pipe入力モードの持つ利点を、CSV形式のトレーニングデータセットでも活用できるようになりました。次のAmazon SageMaker内蔵アルゴリズムでは、Pipe入力モードを使ったCSV形式のデータセットによるトレーニングを全面的にサポートしています: 主成分分析 (PCA) K-Meansクラスタリング K-Nearestネイバー Linear Learner (分類と回帰) ニューラルトピックモデリング ランダムカットフォレスト この新しい機能をトレーニングジョブで利用するためには、通常通りCSVデータベースのAmazon S3の位置を指定し、入力モードで「File」の代わりに「Pipe」を選択します。データ形式やコードの変更をする必要もなく、CSVデータセットはシームレスに流れてきます。 CSVの最適化Pipeモードを使ったより迅速なトレーニング CSV形式でデータセットに新しく実行されるPipeモードは、高度に最適化された高処理を可能にします。Amazon SageMaker Linear Learnerアルゴリズムを合成CSVデータセット上でトレーニングし、Pipe入力モードを使うとパフォーマンスが向上することを実証します。 初のデータセットである3.9GB CSVファイルは、200万個の記録を保有し、それぞれの記録は100個のカンマで切り離された単精度浮動小数点数でした。次はバッチサイズが1000でAmazon SageMaker Linear Learnerアルゴリズムをトレーニングしている間の、PipeモードとFileモードの全体的なトレーニングジョブ実施時間とモデルのトレーニング時間を比較したものです。 ご覧のようにCSVデータセットでPipe入力モードを利用すると、モードをトレーニングする合計時間はAmazon SageMakerにサポートされているインスタンスタイプで40%も削減できることがわかります。 二度目のデータセットである1GB CSVファイルは、400個の記録のみで、それぞれの記録は10万個のカンマで切り離された単精度浮動小数点数でした。バッチサイズが10の早期に実施していたトレーニング基準で再度実施してみました。 Pipeモードを利用したパフォーマンスは著しい向上を見せ、モデルをトレーニングする合計時間はおよそ75%も削減されました。 このような実験の結果は、Pipe入力モードが目覚ましいパフォーマンスの向上をもたらすということを明確に示しています。トレーニングインスタンスへデータセットをダウンロードすることから生じる遅れを避け、トレーニングジョブでより高度は読み込み処理ができるようになります。 Amazon SageMakerを利用する ノートブック見本を活用してAmazon […]

Read More

Amazon RDS for SQL Server でデータベースメールをパワーアップ – アンダーアーマーが Amazon RDS for SQL Server でデータベースメールを運用する方法

データベースメールは Microsoft SQL Server で多用される機能の 1 つです。データベースメールは、SMTP サーバーを使用することにより、SQL Server からユーザーにメッセージを送信できるようにします。ここでご紹介するソリューションは、ご使用の SQL Server ワークロードが Amazon RDS 上にある場合に、データベースメールを使用するのに役立ちます。 データベースメールの使用例: テキストメッセージを送信する テキストまたはファイル添付でクエリの結果またはレポートを送信する エラーや通知のアラートを送信する ジョブが成功または失敗したときに、SQL エージェントジョブのステータスメッセージを送信する AWS のカスタマーであるアンダーアーマー社では、SQL Server のワークロードを Amazon RDS for SQL Server に移行する手立てを模索していましたが、RDS でデータベースメールがサポートされていないことがネックとなっていました。SQL のワークロードを Amazon RDS へ移行しようとしているカスタマーにとって、この問題は致命的です。 私はアンダーアーマー社のデータアーキテクト、Leonard Humphries とともにこの問題に対処することになり、2 人で次のようなソリューションを思いつきました。私たちは集中データベースメールハブに SQL Amazon EC2 インスタンスをプロモートしたのです。こうすることで、アンダーアーマー社のデータベースメール問題を解決できました。この記事では私たちのソリューションについて解説します。 使用した AWS のサービス Amazon RDS for SQL Server 既存の SMTP […]

Read More

パフォーマンスの重要性: Amazon Redshift で実環境のワークロードが 3.5 倍の速さに

Amazon Redshift はそのサービスの開始以来、高度な複雑性を持つ分析ワークロードにも妥協を許さない高速処理で数千におよぶお客様の信頼を得てきました。2017 年にお客様にもたらした 3 倍から 5 倍のパフォーマンスゲインの実現には、ショートクエリの高速化、結果キャッシュ、遅延マテリアライゼーション、そのほか重要な多数の改善点が貢献しています。本記事では、Amazon Redshift の最新の改善活動や、パフォーマンス向上への絶え間ない取組みがお客様を支援している様子をご紹介します。また、今でも継続中の改善活動の評価に利用していた業界標準のベンチマークから得られたパフォーマンステストを考察します。 最新のパフォーマンス改善活動 AWS はそのデータウェアハウスの世界最大規模のデプロイメントによって、さまざまな分析ワークロードにわたる使用パターンを分析し、パフォーマンス向上のための機会を探り出します。そこから得た知見は数千におよぶお客様の利益にシームレスにつながる改善をもたらします。パフォーマンス面における過去 6 か月間の主な改善点は、次のとおりです。 メモリ重視型クエリ用途のリソース管理の改善: Amazon Redshift で結合時と集計時のメモリの消費および予約プロセスが向上しました。これにより、大多数のハッシュテーブルに対するキャッシュの効率性を向上させ、メモリ重視型の結合および集計操作の洩れの低減を最大で 1.6 倍改善しました。 コミットのパフォーマンス改善: コミットは書き込みトランザクションの主なコンポーネントとして、ETL (抽出、変換、ロード) ジョブといったデータアップデートおよびデータインジェスチョンのワークロード処理のパフォーマンスに直接インパクトを与えます。2017 年 11 月以降、コミットのパフォーマンスの最適化活動の一環として、複数コミットを 1 回の操作で行うバッチ処理、コミットロック性能の向上、データ局所性認識型のメタデータのデフラグ用プログラムなどを実現してきました。これらに代表される最適化活動は、HDD ベースのクラスターでかかるコミット時間の低減効果を平均で 4 倍にしています。大量トランザクション (Amazon Redshift のコミット操作の上位 5%) では、最適化効果は 7.5 倍になっています。 繰り返しクエリのパフォーマンス改善: Amazon Redshift の結果キャッシュ、ダッシュボード、可視化、ビジネスインテリジェンス (BI) ツールが繰り返しクエリを実行すると、パフォーマンスを大幅に向上します。さらに、結果キャッシュで解放されるリソースにより、他のすべてのクエリのパフォーマンスが向上します。 クエリ処理の改善: Amazon Redshift は繰り返しサブクエリ、述語を使用した高度分析用関数、重複作業を避けて工程を合理化することによる複雑なクエリプランなどの事例では、そのパフォーマンスは 2 倍から 6 倍高速化しています。 文字列操作の高速化: […]

Read More

地震を追跡中: Amazon Redshift によりETL処理を通じて視覚化のための非構造化データセットを準備する方法

組織が分析慣行を拡大し、データ科学者やその他の専門家を雇用するにつれ、ビッグデータのパイプラインはますます複雑になります。高度なモデルが毎秒収集されるデータを使用して構築されています。 今日のボトルネックは分析技術のノウハウではない場合がよくあります。むしろ、クラウドには適さないことがあるツールを使用した ETL (抽出、変換およびロード) ジョブの構築と維持の難しさがボトルネックになっています。 この記事では、この課題の解決策を示します。私は数年にわたり、地球のあちこちで記録された地震イベントの中途半端に構造化されたデータセットから始めます。私は地球の表面自体、つまり構造プレートストラクチャを形成する岩の性質に関する広範囲な洞察を取得して、Amazon QuickSightのマッピング機能を使用して視覚化ようとしました。

Read More

Amazon SageMaker Jupyterノートブックを使用してAmazon Neptune グラフを分析する

 新しいグラフデータモデルやクエリを作成する、あるいは、既存のグラフデータセットを探索するかどうかに関わらず、結果を視覚化できるインタラクティブなクエリ環境があると便利です。このブログ記事では、Amazon SageMaker ノートブックを Amazon Neptune データベースに接続して、これを実現する方法を紹介します。ノートブックを使用して、データをデータベースにロードし、クエリをして結果を視覚化します。 Amazon Neptune は高速かつ信頼性の高いグラフデータベースです。クエリワークロードで、接続をナビゲートし、エンティティ間の関係の強さ、重さ、または品質を活用する必要がある場合に理想的です。 Amazon SageMaker は、機械学習モデルの構築、トレーニング、および開発のための完全管理プラットフォームです。このブログの記事では、その機能に対応した SageMaker を使用し、ホストされた Jupyter ノートブックを提供します数回クリックするだけで、Jupiter のノートブックを作成し、それを Neptune に接続し、データベースのクエリを開始できます ソリューションの概要 このブログの記事で紹介されているソリューションは、以下のリソースを作成します。 3 つのサブネットと VPC S3 エンドポイントを持つ Neptune VPC 適切なサブネット、パラメータ、およびセキュリティグループを持つ、単一の r4.xlarge インスタンスを含む Neptune クラスター Neptune が S3 からデータをロードすることを許可するIAM ロール SageMaker Jupyter ノートブックインスタンス、IPython Gremlin 拡張モジュール、Gremlin コンソール、および一部のサンプルノートブックコンテンツ Neptune データベースのエンドポイントは、アカウントの新しい VPC にプロビジョニングされます。 SageMaker の Jupyter ノートブックは、Amazon SageMaker VPC […]

Read More

AWS DevDay Tokyo 2018 Database トラック資料公開

Database フリークな皆様、こんにちは!AWS DevDay Tokyo 2018 Database トラックオーナーの江川です。 2018 年 10 月 29 日(月)〜 11 月 2 日(金)にかけて、AWS DevDay Tokyo 2018 が開催されました。本記事では、11/1(木)に実施された Database トラックのセッション資料をご紹介します。 セッション資料紹介に先立ち、お客様セッションとしてご登壇いただいた、Sansan株式会社間瀬様、株式会社ソラコム安川様、Amazon Pay 吉村様にお礼申し上げます。併せて、ご参加いただいた皆様、ストリーミング配信をご覧いただいた皆様ありがとうございました。   ●お客様セッション資料 AWSサービスで実現するEightの行動ログ活用基盤(Sansan株式会社 間瀬哲也様) AWSサービスで実現するEightの行動ログ活用基盤 from Tetsuya Mase DynamoDB Backed なテレコムコアシステムを構築・運用してる話(株式会社ソラコム 安川 健太様) AWS Dev Day Tokyo 2018 | Amazon DynamoDB Backed な テレコムコアシステムを構築・運用してる話 from SORACOM,INC DynamoDBとAmazon Pay で実現するキャッシュレス社会 […]

Read More

Amazon EMR クラスター上でストレージを動的にスケールアップする

Amazon EMR クラスターのような管理された Apache Hadoop 環境では、クラスター上のストレージ容量がいっぱいになると、それに対処する便利なソリューションはありません。この状況は、クラスター起動時に、Amazon Elastic Block Store (Amazon EBS) ボリュームを設定し、マウントポイントを設定するために発生します。そのため、クラスタの実行後にストレージ容量を変更することは困難になります。これに適したソリューションとしては、通常 、クラスターにさらにノードを追加し、データレイクにデータをバックアップしてから、より大きな記憶容量を持つ新しいクラスターを起動する方法があります。または、ストレージを占有するデータを消去してもよい場合は、通常、余分なデータを削除するという方法があります。 Amazon EMR で管理可能な方法により、この問題に対処する際の役に立つ、Amazon EBS のElastic Volumes 機能を使用してストレージを動的にスケールアップする方法を説明します。この機能で、ボリュームの使用中に、ボリュームサイズを増やしたり、パフォーマンスを調整したり、ボリュームタイプを変更することができます。変更が有効になっている間も、EMR クラスターを継続使用して、大きなデータアプリケーションを実行できます。

Read More