Amazon Web Services ブログ

低コストの Windows ファイルシステムで高スループットを実現

 Windows ファイルストレージのワークロードをテストまたは Amazon FSx for Windows ファイルサーバー (Amazon FSx) に移行した後に、お客様からは「素晴らしい!」との声をよくいただきます。この言葉は、低コストのハードディスクドライブ (HDD) ファイルシステムに向けられたものです。今年の初めに、当社は、低コストのストレージオプションが利用可能になることを「新規 – Amazon FSx for Windows ファイルサーバーの低コスト HDD ストレージオプション」で発表しました。これにより、お客様は、Amazon FSxでファイルシステムを作成する際に、HDD またはソリッドステートドライブ (SSD) ストレージのいずれかを選択することができます。HDD ストレージオプションは、ホームディレクトリ、部門の共有、コンテンツ管理システムなど、幅広いワークロード向けに設計されています。この投稿では、HDD ファイルシステムがファイルベースのアプリケーションに高いパフォーマンスを提供する方法を紹介します。合成 (シミュレートされたアクティビティ) ストレージテストに一般的に使用される Microsoft ストレージパフォーマンスツールである DiskSpd を使用して、さまざまな読み取りおよび書き込み操作で Amazon FSx for Windows ファイルサーバーのコンポーネントをテストします。低コストの Amazon FSx for Windows ファイルサーバーから高いスループットを実現できることを示すことができ、「素晴らしい!」の声を聞くことができれば幸いです。 Amazon FSx は、業界標準のサーバーメッセージブロック (SMB) プロトコル経由でアクセスできる、信頼性の高いスケーラブルなフルマネージドファイルストレージを提供しています。Microsoft Windows Server 上に構築され、データの重複排除、エンドユーザーファイルの復元、Microsoft Active Directory (AD) 統合などの幅広い管理機能を提供します。シングル […]

Read More

Kubeflow Pipelines 用 Amazon SageMaker コンポーネントの紹介

本日、Kubeflow Pipelines 用の Amazon SageMaker コンポーネントを発表しました。今回の記事では、Kubeflow Pipelines SDK を使用しながら、Amazon SageMaker コンポーネントにより最初の Kubeflow パイプラインを構築する方法をご説明します。 Kubeflow は、カスタム ML パイプラインを構築しようとする Kubernetes ユーザーに良く使用されている、オープンソースの機械学習 (ML) ツールキットです。  Kubeflow Pipelines は Kubeflow のアドオン機能であり、ポータブルかつスケーラブルなエンドツーエンドの ML ワークフローのために、構築およびデプロイの手段をユーザーに提供します。しかしながら、この Kubeflow Pipelines をデータサイエンティストが使用する際には、データラベリングのワークフローやモデルチューニングなど、生産性向上のためのツールを、ご自身で追加で実装する必要があります。 さらに、Kubeflow Pipelines を使用する ML Ops チームには、CPU や GPU インスタンスを含む Kubernetes クラスターの管理が必要であり、投資から得る収益を最大化するために、それらの利用率を常に高く維持することも求められます。データサイエンスチーム全体でクラスターの利用率を最大化することは簡単ではなく、ML Ops チームに余計な運用経費を負担させることになります。たとえば、GPU インスタンスの利用は深層学習トレーニングや推論といったような要求の厳しいタスクに制限し、CPU インスタンスには、データの前処理や Kubeflow Pipelines のコントロールプレーンなど要求レベルの低いタスクを受け持たせる、といったことが必要です。 その代替手段である Kubeflow Pipelines 向けの Amazon SageMaker コンポーネントにより、ユーザーはパワフルな […]

Read More

高パフォーマンスな SAS Grid Manager クラスターの Amazon FSx for Lustre による AWS 上での実行

 SAS® は、エンタープライズや政府系の組織に利用されている、データサイエンスと分析用ソフトウェアのプロバイダーです。SAS Grid は、高い可用性と処理速度を提供する分析プラットフォームであり、集中的な管理機能により、異なるコンピューティングノード間でワークロードをバランスさせます。このアプリケーションスイートには、データ管理、画像分析、ガバナンスとセキュリティ、予測とテキストマイニング、統計的な分析、および環境管理などの機能が備わっています。最近、SAS と AWS では、Amazon FSx for Lustre の共有ファイルシステムにより SAS Grid Manager を AWS 上で使用した場合に、標準的なワークロードがどの程度良好に機能するか確認するためのテストを実施しました。テスト結果の詳細については、ホワイトペーパーの「Accelerating SAS Using High-Performing File Systems on Amazon Web Services (アマゾン ウェブ サービスの高性能ファイルシステムによる SAS の高速化)」をご参照ください。 この記事では、SAS Grid と FSx for Lustre を併用するために AWS の基盤となるインフラストラクチャをデプロイする際のアプローチ手法をご紹介していきます。これは、I/O に対する要求が厳しい他の同様なアプリケーションにも適用が可能です。 システムデザインの概要 高いパフォーマンスのためにスループットへの要求が厳しく、ネットワークのレイテンシーにも敏感なワークロードを実行することは、一般的なアプリケーションでは行わないアプローチを必要とします。通常 AWS では、このようなアプリケーションは複数のアベイラビリティ―ゾーンに展開し、高可用性を達成するように推奨しています。レイテンシーに対する感度を考えたとき、パフォーマンスを最適化するためには、高スループットのアプリケーションのトラフィックはローカルに置く必要があります。スループットの最大化には、次のような手段があります。 Virtual Private Cloud (VPC) 内で実行し、強化されたネットワーキングが利用可能なインスタンスタイプを使用する 各インスタンスは同じアベイラビリティゾーン内で実行する プレースメントグループ内でインスタンスを実行する AWS で […]

Read More

AWS COVID-19 ナレッジグラフの作成とクエリ

このブログ記事では、AWS CloudFormation および Amazon Neptune を使用して AWS COVID-19 ナレッジグラフ (CKG) を再作成し、お客様の AWS アカウントの Amazon SageMaker でホストされている Jupyter ノートブックを使用してグラフをクエリする方法について詳しく説明します。CKG は、AWS COVID-19 データレイクでホストされる COVID-19 Open Research Dataset (CORD-19) の探索と分析を支援します。グラフの強みは、学術論文、著者、科学的概念、機関の間のつながりにあります。CKG は、CORD-19 検索ページの強化にも役立ちます。 AWS COVID-19 データレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の広がりおよび特性についての、またはそれに関する最新のデータセットが収集され、一元化されたリポジトリで、一般公開されています。詳細については、「COVID-19 データの分析用のパブリックデータレイク」と「AWS COVID-19 パブリックデータレイクの探索」を参照してください。 CKG は、Neptune、CORD-19 データセット、および Amazon Comprehend Medical のアノテーションを使用して構築されています。2020 年 4 月 17 日の時点で、CORD-19 データセットは 52,000 件を超える学術論文で構成され、そのうち 41,000 […]

Read More

Amazon Neptune、Amazon Comprehend Medical、および Tom Sawyer グラフデータベースブラウザを使用して COVID-19 の科学的研究を探索する

COVID-19 は人類に襲いかかった世界的な危機です。症状、治療法、危険因子など、ウイルスのあらゆる側面に関する識見を高めるために、大規模な研究が行われています。救援活動を支援するために、AWS は一般公開の COVID-19 データレイクを作成しました。これには、パンデミックとの戦いに役立つさまざまなデータセットが含まれています。詳細については、「COVID-19 データの分析用のパブリックデータレイク」と「AWS COVID-19 パブリックデータレイクの探索」を参照してください。 コロナウイルスに関するデータは研究用の出版物で大量に見つけることができます。データレイクのデータセットの 1 つは、このような出版物の大規模なコーパスで、アレン人口知能研究所が集約して更新しています。問題は、必要な情報を見つけて抽出する方法にあります。 この記事では、ナレッジグラフを用いてこの問題を解決する方法について説明します。 Amazon Neptune は、高速で信頼性が高い、完全マネージド型グラフデータベースサービスであり、高度に接続されたデータセットと連携するアプリケーションの構築と実行を容易にします。Neptune の中核にあるのは、何十億もの関係を保存し、ミリ秒単位のレイテンシーでグラフをクエリするために最適化された、専用の高性能グラフデータベースエンジンです。Neptune は、一般的なグラフモデルである Property Graph と W3C の RDF、およびそれぞれのクエリ言語である Apache TinkerPop Gremlin と SPARQL をサポートしています。これにより、高度に接続されたデータセットを効率的にナビゲートするクエリを簡単に構築できます。このチュートリアルでは、プロパティグラフを作成し、Apache TinkerPop Gremlin を使用してデータをクエリします。 高度に接続されたネットワークを評価するには、多くの場合それを見る必要があります。Neptune と合わせて使える優れたアプリケーションが、Tom Sawyer Software です。Tom Sawyer グラフデータベースブラウザでは、グラフデータベースに格納されているデータを簡単に表示して操作できます。これは、Amazon Simple Storage Service (Amazon S3) から Neptune にデータを直接インポートできるエンドツーエンドの視覚化アプリケーションであり、コマンドラインツールが不要になります。データベースに接続してすぐにデータの探索、グラフ要素のプロパティの検査、ノードとエッジの外観の変更をニーズに合わせて行えます。 グラフデータベースは、データを接続するのに優れています。これは、単に研究出版物を保存するだけでなく、意味的に重要なデータをリンクして、興味深い関連情報を明らかにするクエリを作成できます。この記事では COVID-19 Open Research Dataset を使用しています。これには、何万もの論文と、著者、発行日、ジャーナル、デジタルオブジェクト識別子などの関連メタデータが含まれています。一般的な著者や引用に基づいて論文をリンクできるため、このメタデータはグラフに適しています。 ただし、このユースケースでは、内容に基づいて論文をリンクする必要があります。意味的に論文をリンクするのは難がありますが、幸い、必要なものを正確に提供するツールがあります。Amazon Comprehend Medical […]

Read More

Amazon ElastiCache Redis のクラスターを適切にサイジングする際に考慮すべき 5 つのワークロード特性

 この投稿では、Amazon ElastiCache ワークロードに適したノードサイズとクラスタートポロジを決定するプロセス、および考慮すべき重要な要素について説明します。この投稿は、Redis とそのコマンドについて十分な知識があり、Amazon ElastiCache for Redis とオンラインでのクラスターサイズ変更、スケーリング、Amazon EC2 から ElastiCache へのオンラインでの移行、汎用およびメモリ最適化ノード、強化された I/O などの機能を理解していることを前提としています。 基準の推奨事項 エントリーレベルの小規模 (2,000 件以下の TPS と 10 GB 以下のデータサイズ) とおよび規模 (TPS が 2,000〜20,000 件、データサイズが 10 GB〜100 GB) のキャッシュワークロード (一時的なスパイクも発生する可能性があるものを含む) 使用中は、次世代の汎用バースト可能 T3 標準キャッシュノードである T3 ファミリーからキャッシュノードを選択します。ワークロードに ElastiCache を使い始めたばかりの場合は、無料利用枠の T3.micro キャッシュノードから始めてください。負荷を増やすと、T3.medium キャッシュノードまで増加できます。 最新ノードタイプは最新世代の CPU とネットワーク機能をサポートしているため、中規模から大規模 (20,000 の TPS と100 GB のデータサイズを超える) ワークロードの場合は、M5 または […]

Read More

Oracle Active Data Guard を使用した Amazon RDS for Oracle によるマネージド障害復旧とマネージドリーダーファーム

 多くの AWS ユーザーは、Amazon Relational Database Service (Amazon RDS) ポートフォリオのマネージドデータベース製品を利用して、日々の活動から均一な重労働を多く取り除いています。Amazon RDS for Oracle を使って、Oracle データベースの管理と保守にかかる管理費用を大幅に削減できます。 Amazon RDS for Oracle は、マルチ AZ 配置オプションを提供し、特定の AWS リージョン内のデータベース (DB) インスタンスの可用性と耐久性を強化しています。これは、多くの場合、ほとんどの顧客ユースケースに効果的な障害復旧 (DR) ソリューションです。ただし、ミッションクリティカルなデータベースを実行している一部のお客様は、異なる AWS リージョンにまたがる DR 構成のビジネス要件を抱えています。同時に、これらのお客様は DR への投資を活用して、本番環境の読み取りワークロードの一部を処理できることを望んでいます。 現在、Amazon RDS for Oracle のセルフマネージド DR ソリューションは、次のいずれかを使用して実装できます。 DB スナップショットを使用して、Amazon RDS for Oracle に低コストのクロスリージョン DR を実装します。詳細については、DB スナップショットと AWS Lambda を使った Amazon RDS […]

Read More

[AWS Black Belt Online Seminar] VMware Cloud on AWS 資料及び QA 公開

先日 (2020/05/27) 開催しました AWS Black Belt Online Seminar「VMware Cloud on AWS」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200527 AWS Black Belt Online Seminar VMware Cloud on AWS from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. ストレッチ構成ではなくても Elastic DRS を使えるのでしょうか? A. Elastic DRS は標準クラスタ構成で利用可能です。ただし、現在以下のタイプの SDDC ではサポートされていません。詳細および最新情報は VMware 社ドキュメントをご参照ください。 ストレッチクラスタが展開されている SDDC シングルホスト SDDC Q. SDDC は複数のAWSアカウントと接続可能でしょうか? A. AWS Transit Gateway を利用することにより、1つの […]

Read More

[AWS Black Belt Online Seminar] AWS X-Ray 資料及び QA 公開

先日 (2020/05/26) 開催しました AWS Black Belt Online Seminar「AWS X-Ray」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200526 AWS Black Belt Online Seminar AWS X-Ray from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. beanstalk の X-Ray について、質問させてください。beanstalk で x-Ray を有効にした場合、x-Ray メドリックはどこで確認できますか?AWS X-Ray サービス画面に入って確認しましたが、表示されてませんでした。 A. トレースの収集からコンソールでの表示までに若干のタイムラグがございます。時間を置いてご確認いただければと思います。また、AWS Elastic Beanstalk の場合は AWS X-Ray の SDK をアプリケーションに組み込む必要があることもご留意ください。 Q. 使い方として、1ヶ月間ほど X-Ray で情報収集をして、性能情報の統計や分析が可能と考えて良いでしょうか? A. そういった使い方も可能です。サンプリング機能によるアプリケーションへの負荷と課金のコントロールが可能なため、本番環境において常時有効化して常にアプリケーションの状態を把握できるようにしておくことも可能です。また、負荷試験艦橋や開発環境においてサンプリングレートを上げて集中的にトラブルシュートや性能分析を行う、といったユースケースも多いです。 Q. X-Ray […]

Read More

[AWS Black Belt Online Seminar] AWS Amplify 資料及び QA 公開

先日 (2020/05/20) 開催しました AWS Black Belt Online Seminar「AWS Amplify」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200520 AWS Black Belt Online Seminar AWS Amplify from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q1. AWS Amplify で使う「カテゴリ」はどのような単位で使うものですか?イメージがわかないので具体例を教えてください。 A. Amplify のカテゴリはユースケース単位でアプリケーションに機能を追加することができます。 Amplify カテゴリの例: REST API や GraphQL の API 基盤を構築する API カテゴリ 画像認識やテキスト翻訳などの機械学習の機能を提供する Predictions カテゴリ グインや各カテゴリに認証機能を提供する Authentication カテゴリ アプリケーションに Amplify の機能を追加するには、Amplify CLI からカテゴリを追加し、バックエンドを構築します。例えば、Amplify […]

Read More