Amazon Web Services ブログ

Category: Events

機械学習用のデータを準備するためのビジュアルインターフェイス、Amazon SageMaker Data Wrangler のご紹介

本日、Amazon SageMaker の新たな機能であるAmazon SageMaker Data Wranglerを発表できることを非常に嬉しく思います。これを利用することで、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用した機械学習 (ML) アプリケーションのデータ準備をより速く行うことができます。 データサイエンティストと機械学習エンジニアのグループに、機械学習における問題の調査に実際、どのくらい時間を費やすのかを尋ねるたびに、私はよく多くのため息と、それに続く「運が良ければ 20% です」というせりふに沿った答えを聞きます。その理由を尋ねると、答えはいつでも同じです、「データ準備に、常に時間の 80% を費やしています。」 実際、トレーニングのためのデータ準備は、機械学習のプロセスにおける重要なステップであり、そこで下手な仕事をしようとは誰も考えないでしょう。一般的なタスクは次のとおりです。 データの特定: 未加工データの格納場所の検索、データへのアクセス データの可視化: データセット内の各列の統計的性質の検証、ヒストグラムの構築、外れ値の調査 データのクリーニング: 重複の削除、欠損値のエントリの入力または削除、外れ値の削除 データの強化および特徴エンジニアリング: 列の処理によるより表現力のある特徴データの構築、トレーニングのための特徴データのサブセットの選択 新しい機械学習プロジェクトの初期段階において、これは直感と経験が大きな役割を果たす高度な手動プロセスです。データサイエンティストは、多くの場合、pandas や PySpark などのオープンソースツールやオープンソースツールの組み合わせを使用して、さまざまなデータ変換の組み合わせを試し、モデルをトレーニングする前にデータセットを処理します。その後、予測結果を分析し、反復処理を行います。同じくらい重要ですが、このプロセスを何度も繰り返しループするのは、時間がかかり面倒であると同時に、エラーが発生しやすくなります。 ある時点で、適切なレベルの精度 (または選択した他のすべてのメトリクス) に達すると、本番環境の完全なデータセットでトレーニングしたいと考えるでしょう。しかし、まずはサンドボックス内で実験した正確なデータ準備のステップを再現および自動化する必要があります。残念ながら、この作業のインタラクティブな性質を考慮すると、慎重に文書化していても、常にエラーの余地があります。 最後に大事なことですが、最終段階に進む前に、データ処理インフラストラクチャを管理および拡張する必要があります。今考えれば、このすべてを行うには、80% の時間では十分ではないかもしれません。 Amazon SageMaker Data Wrangler のご紹介 Amazon SageMaker Data Wrangler は、機械学習用に完全に管理された統合開発環境 (IDE) である Amazon SageMaker Studio に統合されています。数回クリックするだけで、データソースへの接続、データの探索と視覚化、組み込み変換および独自の変換の適用、自動生成されたスクリプトへの結果コードのエクスポート、マネージドインフラストラクチャでの実行が可能です。各ステップをより詳しく見ていきましょう。 もちろん、データ準備は、データを特定してアクセスすることから始まります。SageMaker Data Wrangler を使用すると、導入してすぐに Amazon Simple Storage Service […]

Read More

新機能 – VPC Reachability Analyzer

Amazon Virtual Private Cloud (VPC) を使用すると、お客様は、論理的に分離された専用の仮想ネットワークを、AWS クラウド上で起動できます。クラウド上でお客様のフットプリントが拡大し、デプロイされるネットワークアーキテクチャの複雑さも増していく中、誤った設定が原因で発生するネットワーク接続の問題は、その解決に時間がかかるようになっています。今回、当社では、ネットワーク診断ツールである VPC Reachability Analyzer を発表できる運びとなりました。このツールでは、VPC 内の 2 つのエンドポイント間、または複数の VPC  間で、通信の到達性に関する問題を解決できます。 ネットワークが目的どおりに設定されているかを確認 Reachability Analyzer のユーザーは、仮想ネットワーク環境を全体的に制御できます。独自の IP アドレス範囲の選択、サブネットの作成、またルートテーブルやネットワークゲートウェイの設定が可能です。また、VPC のネットワーク設定のカスタマイズも簡単です。例えば、ウェブサーバー用にパブリックサブネットを作成する際、インターネットへのアクセスに、インターネットゲートウェイを使用するように構成できます。データベースやアプリケーションサーバーなど、厳しいセキュリティが必要なバックエンドシステムは、インターネットにアクセスできないプライベートサブネットに配置できます。セキュリティグループや、ネットワークアクセスコントロールリスト (ACL) など、複数のセキュリティレイヤーを使用することで、各サブネットのエンティティへのアクセスを、プロトコル、IP アドレス、ポート番号によって制御できます。

Read More
週刊AWS

週刊AWS – 2020/12/7週 (re:Invent 特別編集号)

みなさん、こんにちは。ソリューションアーキテクトの下佐粉です。 今週も週刊AWSをお届けします。 先週はAWSの年次イベント AWS re:Invent 2020 の第二週ということで、引き続き多くの新機能が発表されました。今号も特別編集号として、筆者らが独断でピックアップした重要アイテムを紹介する形でお送りします。今号はMachine Learning KeynoteとAnalyticsのリーダーシップセッションで発表されたものを中心にピックアップしてご紹介します。 それでは、先週の主なアップデートについて振り返っていきましょう。

Read More

SAP on AWSに関するre:Inventのセッションとウォッチパーティーの予定をカレンダーに印付けしよう

AWS re:Invent 2020は最高潮に達しており、SAP on AWSチームもお客様成功事例はもちろん、SAP環境のモダナイゼーションにおける最新開発、AWSとSAP on AWSパートナーがどのようにインフラストラクチャを超えたソリューションを作成しているかを共有するために、12月16日にバーチャルステージに上がります。無料のバーチャルイベントに登録し、次のSAP on AWSセッションをカレンダーに追加しましょう。

Read More

Amazon SageMaker JumpStart で事前構築済みモデルと機械学習ソリューションへのアクセスを簡素化する

本日、Amazon SageMaker の新機能である Amazon SageMaker JumpStart の提供を開始したことを発表します。人気の高いモデルのコレクション (別名「モデルズー」) および一般的なユースケースを解決するエンドツーエンドのソリューションに、ワンクリックでアクセスして機械学習ワークフローを高速化することができます。 近年、機械学習はビジネスプロセスの改善と自動化に役立つ技術であることが証明されています。実際、過去データでトレーニングされたモデルは、金融サービス、小売、製造、通信、ライフサイエンスといった幅広い業界において結果を高精度に予測できます。しかし、これらのモデルの使用には、データセットの準備、アルゴリズムの選択、モデルのトレーニング、精度の最適化、本番稼働環境へのデプロイ、パフォーマンスの経時的モニタリングといった、一部の科学者やデベロッパーだけが有しているスキルと経験が必要になります。 モデルの構築プロセスを簡素化するために、機械学習コミュニティは、モデルズーと呼ばれる、人気の高いオープンソースライブラリによるモデルのコレクションを作成しました。モデルズーは多くの場合、リファレンスデータセットで事前トレーニングされています。例えば、TensorFlow Hub や PyTorch Hub では、デベロッパーは多数のモデルをダウンロードして、コンピュータビジョンや自然言語処理などのアプリケーションに統合することができます。 モデルのダウンロードは第一歩にすぎません。デベロッパーはその後、TensorFlow Serving および TorchServe モデルサーバーといったさまざまなツール、または独自のカスタムコードを使用してモデルをデプロイし、評価とテストを行う必要があります。モデルを実行したら、デベロッパーは受信データの適切な形式を把握する必要があります。これは以前からの悩みの種です。毎回ここで頭を抱えているのは私だけではないでしょう。 もちろん、完全な機械学習アプリケーションには通常、多くの不確定要素があります。データを事前処理して、バックエンドから取得した追加データでエンリッチメントを行い、モデルに投入する必要があります。予測は多くの場合、後処理され、さらなる分析や視覚化を行うために保存されます。モデルズーは有用ですが、役に立つのはモデリング段階でのみです。完全な機械学習ソリューションが提供できるようになるまでにデベロッパーが行うべき作業は、まだたくさんあります。 そのため、機械学習エキスパートには、プロジェクトのバックログが殺到します。一方で経験の少ないプラクティショナーは、開始するまでに苦労します。これらの障壁は大変苛立たしいものです。お客様からもこの問題への対処を求められました。 Amazon SageMaker JumpStart のご紹介 Amazon SageMaker JumpStart は、機械学習用の完全な統合開発環境 (IDE) である Amazon SageMaker Studio に統合されているため、モデルやソリューションなどを直感的に見つけることができます。ローンチ時の SageMaker JumpStart には、以下が含まていれます。 不正検出や予知保全といった、一般的な機械学習ユースケースに対応する 15 以上のエンドツーエンドソリューション コンピュータビジョン (画像分類、物体検出) および自然言語処理 (文章分類、質問応答) に対応する、TensorFlow Hub および PyTorch Hub で公開されている 150 以上のモデル […]

Read More

AWS Audit Manager で監査の準備を簡素化

タイムリーにエビデンスを収集して監査をサポートしたいとお考えではないでしょうか。しかしこれは手作業のためエラーが発生しやすく、場合によっては分散プロセスとなり、非常に困難な課題と化すおそれがあります。ビジネスがコンプライアンス要件の対象となる場合、監査の準備によって生産性が大幅に低下し、結果的に中断を余儀なくされる場合もあります。また、オンプレミスのレガシーシステム用に設計された従来の監査プラクティスをクラウドインフラストラクチャに適用する際に、問題が発生することも考えられます。 一般データ保護規則 (GDPR)、医療保険の携行と責任に関する法律 (HIPAA)、ペイメントカード業界データセキュリティスタンダード (PCI DSS) といった、進化する複雑な規制やコンプライアンス標準に対応するには、エビデンスを収集、検証、統合する必要があります。 また、AWS 使用量が、進化するコンプライアンス制御の要件にどのようにマッピングされているかを、常に再評価し続ける必要があります。要件を満たすには、データの暗号化がアクティブになっていたことを示す必要があり、さらに、サーバー設定の変更を示すログファイル、アプリケーションの高可用性を示す図、必要なトレーニングを完了したことを示すトランスクリプト、ソフトウェア使用量がライセンスの規定を超えていないことを示すスプレッドシートなども必要になる場合があります。この作業は、時には数十人のスタッフやコンサルタントを巻き込んで、数週間続きます。 AWS Audit Manager は、監査の準備に役立つフルマネージド型サービスです。一般的な業界標準および規制に適合する事前構築済みフレームワークを提供し、エビデンスの継続的な収集を自動化できます。今すぐに利用可能です。AWS リソースの使用に関するエビデンスの継続的かつ自動的な収集によって、リスク評価や規制および業界標準へのコンプライアンスを簡素化できます。また、監査に備えた体制を継続的に維持できるようになり、より迅速で中断の少ない準備プロセスを実施できます。 カスタマイズ可能な組み込みのフレームワークにより、クラウドリソースの使用状況をさまざまなコンプライアンス標準の制御にマッピングし、監査に適した用語を使用して、エビデンスを監査に備えたイミュータブルな評価レポートに変換できます。また、オンプレミスのインフラストラクチャの詳細や、ビジネス継続性計画、トレーニングのトランスクリプト、ポリシー文書などの追加のエビデンスを検索、フィルタリング、アップロードして、最終的な評価に含めることも可能です。 通常、監査の準備には複数のチームが関与します。そこで、委任ワークフロー機能を使用すれば、対象分野のエキスパートに管理を割り当ててレビューを行わせることが可能になります。例えば、ネットワークセキュリティに関するエビデンスのレビューを、ネットワークセキュリティエンジニアに委任できます。 最終版評価レポートには、要約統計量と、関連するコンプライアンスフレームワークの正確な構造に従って整理されたすべてのエビデンスファイルが入ったフォルダが含まれます。エビデンスが収集されて単一の場所に整理されるとすぐにレビュー可能になるため、監査チームはより簡単にエビデンスを検証し、質問に回答し、修復計画を追加できるようになります。 Audit Manager の開始方法 まず、新規の評価を作成して設定しましょう。Audit Manager コンソールのホームページで [Launch AWS Audit Manager (AWS Audit Manager を起動)] をクリックすると、[Assessments (評価)] リストに移動します (コンソールのホーム左側のナビゲーションツールバーからもアクセス可能)。そこで [Create assessment (評価を作成)] をクリックして、新規の評価の設定ウィザードを開始します。まず、評価に名前を付け、オプションで説明を入力します。次に、評価に関連付けられたレポートを保存する Amazon Simple Storage Service (S3) バケットを指定します。 次に、評価のフレームワークを選択します。さまざまな事前構築済みフレームワークや、自分で作成したカスタムフレームワークから選択することができます。カスタムフレームワークは一から作成することもできますが、既存のフレームワークに基づいて作成することもできます。ここでは、事前構済みの PCI DSS フレームワークを使用します。 [Next (次へ)] をクリックすると、評価の対象とする AWS アカウントを選択できます (Audit […]

Read More

新発表 — Amazon EMR on Amazon Elastic Kubernetes Service (EKS)

数万社のお客様が、Amazon EMR を使用して、Apache Spark、 Hive、HBase、Flink、Hudi、および Presto などのフレームワークでビッグデータ分析アプリケーションを大規模に実行しています。EMR は、これらのフレームワークのプロビジョニングとスケーリングを自動化し、さまざまな EC2 インスタンスタイプでパフォーマンスを最適化して、価格とパフォーマンスの要件を満たします。お客様は現在、Kubernetes を使用して組織全体でコンピューティングプールを統合しています。Amazon Elastic Kubernetes Service (EKS) で Apache Spark を管理しているお客様の一部には、EMR を使用して、フレームワークのインストールと管理、AWS のサービスとの統合などの手間のかかる作業を排除したいと考えているお客様もいらっしゃいます。さらに、EMR が提供するより高速なランタイムや開発およびデバッグのツールも活用したいと考えています。 本日、Amazon EMR on Amazon EKS の一般提供を発表いたします。これは、EMR の新しいデプロイオプションであり、EKS でのオープンソースのビッグデータフレームワークのプロビジョニングと管理を自動化できます。EKS で EMR を使用すると、同じ EKS クラスターで Spark アプリケーションを他のタイプのアプリケーションとともに実行し、リソース使用率を向上させ、インフラストラクチャ管理を簡素化することができます。 他のタイプのアプリケーションと同じ EKS クラスタに EMR アプリケーションをデプロイできるため、リソースを共有し、すべてのアプリケーションを運用および管理する単一のソリューションで標準化できます。最新のフレームワークへのアクセス、パフォーマンスが最適化されたランタイム、アプリケーション開発用の EMR Notebooks、デバッグ用の Spark ユーザーインターフェイスなど、現在 EC2 で使用しているのと同じ EMR 機能をすべて EKS で利用できます。 Amazon EMR は、アプリケーションをビッグデータフレームワークを使用してコンテナに自動的にパッケージ化し、他の […]

Read More

PennyLane on Braket + フォールトトレラントな量子コンピューティングに向けた進歩 + テンソルネットワークシミュレータ

昨年、初めて Amazon Braket について書き、量子コンピューティングの使用を開始するように皆さんをご招待しました! そのリリース以降、当社は前進を続け、Amazon Braket にいくつかの重要で強力な新機能を追加しました。 2020 年 8 月 – D-Wave、IonQ、および Rigetti から量子コンピューティングハードウェアへのアクセスを備えた Amazon Braket の一般提供。 2020 年 9 月 – D-Wave の Advantage 量子処理装置 (QPU) へのアクセス。これには、5,000 を超える量子ビットと 15-way 接続が含まれています。 2020 年 11 月 – リソースのタグ付け、AWS PrivateLink、量子ビットの手動割り当てのサポート。最初の 2 つの機能を使用すると、既存の AWS アプリケーションを Amazon Braket で構築した新しいアプリケーションに簡単に接続できます。また、本稼働クラスのクラウドベースの量子コンピューティングアプリケーションの将来像を思い描くのに役立つはずです。最後の機能は、研究者にとって特に興味深いものです。私が理解しているところによれば、量子コンピューティングハードウェアの特定の部分内にある特定の量子ビットは、量子回路の一部として使用される際にそれらがいくらか優れた性能を発揮する可能性のある個別の物理的特性および接続特性を有する可能性があります。詳細については、QPU デバイスでの量子ビットの割り当てで確認できます (これは、コンパイラが頻繁に使用する変数に CPU レジスタを割り当てる方法とある程度類似しています)。 私の最初のブログ記事では、Caltech に隣接する AWS 量子コンピューティングセンターの設立も発表しました。 これを書いている時点では、私たちは、Noisy […]

Read More

Amazon CodeGuru の新機能 – Python サポート、Security Detector、および Memory Profiling

Amazon CodeGuru は、コードの品質を向上させるデベロッパーツールであり、次の 2 つの主要コンポーネントで構成されています。 CodeGuru Reviewer は、プログラム分析と機械学習を使用して、コード内で見つけにくい潜在的な欠陥を検出し、改善のための提案を提供します。 CodeGuru Profiler は、ライブアプリケーションからランタイムパフォーマンスデータを収集し、アプリケーションのパフォーマンスを微調整するのに役立つ視覚化と推奨事項を提供します。 本日は、3 つの新機能を発表いたします。 CodeGuru Reviewer および CodeGuru Profiler 用の Python のサポート (プレビュー) – CodeGuru を使用して Python で記述されたアプリケーションを改善できるようになりました。このリリース以前には、CodeGuru Reviewer は Java コードを分析でき、CodeGuru Profiler は Java 仮想マシン (JVM) で実行されるアプリケーションをサポートしていました。 CodeGuru Reviewer 用の Security Detector – CodeGuru Reviewer 用の新しい検出機能セットで、セキュリティの脆弱性を特定し、Java コード内のセキュリティのベストプラクティスをチェックします。 CodeGuru Profiler 用の Memory Profiling – 時間の経過に伴うオブジェクトタイプごとのメモリ保持の新しいビジュアライゼーションです。これにより、メモリリークを検出し、アプリケーションによるメモリの使用を最適化することが容易になります。 これらの機能をもっと詳しく見てみましょう。 […]

Read More

Amazon EKS が、マネージド型ノードグループでの EC2 スポットインスタンスのプロビジョニングと管理をサポート

この記事は、Amazon EKS now supports provisioning and managing EC2 Spot Instances in managed node groups を翻訳したものです。 Amazon Elastic Kubernetes Service (Amazon EKS) を使用すると、アップストリームのKubernetes を利用した、セキュアで可用性の高いKubernetes クラスターを AWS で簡単に実行できます。2019 年にマネージド型ノードグループがサポートされ、EKS はクラスターの基盤となる EC2 インスタンス(ワーカーノード)をプロビジョニングし、管理できるようになりました。これにより、新しいAMI がリリースされたときにノードをローリングアップデートしたり、Kubernetes バージョンを更新したりといった、運用のための作業が非常に簡単になりました。EKS のマネージド型ノードグループについて詳しく知るには、アナウンス時のブログ及びドキュメントをご参照ください。 AWS public containers roadmap にお客様より寄せられたご要望を受けて、EKS はマネージド型ノードグループをさらに使いやすくするために機能を強化してきました。例えば、カスタムAMI の指定、起動テンプレートの利用といった機能拡張を実施しました。同様に、お客様の関心が高かった機能の一つが、マネージド型ノードグループでスポットインスタンスを起動、管理できるようにするというものです。 Amazon EC2 スポットインスタンスを利用すると、EC2 が予備として確保しているキャパシティーを利用して、大幅な割引価格で EC2 インスタンスを実行できます。 EC2 がこの予備キャパシティーを必要とする際には、スポットインスタンスは 2 分前に通知を受けて中断されることがあります。スポットインスタンスを Kubernetes のワーカーノードとして使用するというのは様々な種類のワークロードで非常によく使われるパターンです。ステートレスなAPI エンドポイントやバッチ処理、ML のトレーニング、Apache Spark […]

Read More