Amazon Web Services ブログ

Category: Events

新機能 — Amazon SageMaker Pipelines が機械学習プロジェクトに DevOps 機能を提供

本日、 Amazon SageMaker Pipelines を発表することができまして、大変うれしく思います。これは Amazon SageMaker の新機能で、データサイエンティストやエンジニアが、エンドツーエンドの機械学習パイプラインを簡単に構築、自動化、スケールできるようになります。 機械学習 (ML) はもともと試験段階にあり、本質的に予測することはできません。数日から数週間かけてさまざまな方法でデータを分析および処理します。これは、ジオード (晶洞石) を壊して、貴重な宝石を見つけようとする作業のようです。次に、さまざまなアルゴリズムとパラメータを試しながら、最高の精度を求めて多くのモデルをトレーニングおよび最適化します。この作業は通常、アルゴリズムとパラメータの間に依存関係がある多くの異なる手順を伴い、手作業で管理するため、とても複雑になる可能性があります。特に、モデル系列の追跡は簡単ではなく、監査性やガバナンスを妨げます。最後に、上位モデルをデプロイし、参照テストセットに対するモデルの評価を行います。最後に、 と言いましたが、実際には何度も反復して、新しいアイデアを試し、新しいデータでモデルを定期的に再トレーニングします。 ML がどんなにエキサイティングであっても、残念ながら多くの繰り返し作業を伴います。小規模なプロジェクトでも、本番環境に移る前には何百もの手順が必要になります。こうした作業のせいで、時間の経過とともにプロジェクトの楽しさや興奮が失われていくだけでなく、監視する必要性やヒューマンエラーの可能性が大きくなります。 手作業を軽減し、トレーサビリティを向上させるために、多くの ML チームでは DevOps の理念を採用し、継続的インテグレーションと継続的配信 (CI/CD) 用のツールとプロセスを実装しています。確かにこれは正しい手順といえますが、独自のツールを作成することで、当初の予想よりも多くのソフトウェアエンジニアリングとインフラストラクチャ作業が必要な複雑なプロジェクトとなる場合が多いです。貴重な時間とリソースが実際の ML プロジェクトから奪われ、革新のペースがスローダウンします。残念ながら一部のチームでは、手作業でのモデルの管理、承認、デプロイに戻ることにしました。 Amazon SageMaker Pipelines のご紹介 簡単に言うと、Amazon SageMaker Pipelines で、ML プロジェクトの DevOps がトップレベルになります。この新機能により、データサイエンティストや ML デベロッパーは、自動化された、信頼性の高いエンドツーエンドの ML パイプラインを簡単に作成できるようになります。SageMaker は通常どおり、すべてのインフラストラクチャを完全に管理するため、お客様が作業を行う必要はありません。 Care.com は、高品質の介護サービスを見つけて管理するための世界をリードするプラットフォームです。Care.com のデータサイエンスマネージャーの Clemens Tummeltshammer 氏は次のように言います「 需要と供給が均衡な、力のある介護業界は、個々の家庭から国の GDP にいたる経済成長にとって不可欠です。私たちは Amazon SageMaker Feature Store と […]

Read More

プレビュー: ビジネスの健全性を監視するための異常検出サービス、Amazon Lookout for Metrics

Amazon Lookout for Metrics を発表いたします。これは、機械学習 (ML) を使用してメトリックスの異常を検出する新しいサービスです。ML の経験がなくても、ビジネスの健全性を積極的に監視、問題を診断して、迅速に機会を発見できます。 Lookout for Metrics では Amazon と同じ技術を使用しています。ともすれば見つけるのが難しい、データの例外的な変化を検出しつつ、誤検出の回数を減らします。また、類似するものをまとめてグループ化し、厳密にランク付けします。さらに異常の根本原因特定に役立つ情報を提供します。 収益額やウェブページビュー、毎日のアクティブユーザー数、解約率、トランザクション量、モバイルアプリのインストール数など、さまざまなメトリックスで使用できます。本日、Lookout for Metrics のプレビューをご覧いただけます。 Amazon Lookout を異常検知のために使用する理由 どの業界の組織も、テクノロジーと自動化を通じてビジネスの効率を向上させようとしています。さまざまな試みがされていますが、よくあるのは欠陥や機会を早期に特定でき、材料コストの節約、利益率の向上、カスタマーエクスペリエンスの向上につながるものです。これまでは、組織による大量のデータ監査は、手作業に依存していました。これでは規模を拡大することが難しく、また人為的ミスの原因になりがちです。任意に範囲を決めて、ルールベースの方法を使用している組織もあります。多くの場合これらの方法は静的であり、季節性の変化に容易には対応できず、誤検出が多すぎます。 ひとたび異常が検出されると、デベロッパーやアナリスト、ビジネスオーナーは、変化の根本原因をつきとめようと数週間も費やすことになります。これが ML が効果的かつ変革的なツールになり得る状況です。しかし ML のアルゴリズムは、データの種類ごとに慎重に選択し、トレーニングを行い、テストとデプロイをする必要があります。そのため ML に熟練したエキスパートチームが必要です。 Amazonには、データ主導型の企業としての長い歴史があります。ビジネスの健全性や運営、カスタマーエクスペリエンスにおいてトップでありつづけなければならないビジネスを抱えており、その数は増え続けています。この長年に渡る取り組みの重要な部分は、さまざまなトラフィックチャネルからのウェブサイト訪問、ショッピングカートに追加された商品の数、注文数、商品ごとの収益をはじめとした、主要業績評価指標 (KPI) の異常を検出するために ML テクノロジーを構築し、改善させることでした。 Amazon Lookout for Metrics によって、すべてのデベロッパーが Amazon で使われていたものと同じ ML テクノロジーを手にすることができます。データの異常を検出してインテリジェントにグループ化することで、集計結果を視覚化し、自動的に警告を行えます。 フルマネージド型のサービスなために ML プロセス全体を扱うことができ、すぐに開始してコアビジネスに集中できます。そして最も重要なのは、異常と根本原因の分析における正確さと関連性についてのフィードバックを、このサービスがリアルタイムに組み込むことで、モデルのパフォーマンスを継続的に向上させられることです。 Amazon Lookout for Metrics の仕組み AWS マネジメントコンソールから数回クリックするだけで、Lookout for Metrics […]

Read More

機械学習用のデータを準備するためのビジュアルインターフェイス、Amazon SageMaker Data Wrangler のご紹介

本日、Amazon SageMaker の新たな機能であるAmazon SageMaker Data Wranglerを発表できることを非常に嬉しく思います。これを利用することで、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用した機械学習 (ML) アプリケーションのデータ準備をより速く行うことができます。 データサイエンティストと機械学習エンジニアのグループに、機械学習における問題の調査に実際、どのくらい時間を費やすのかを尋ねるたびに、私はよく多くのため息と、それに続く「運が良ければ 20% です」というせりふに沿った答えを聞きます。その理由を尋ねると、答えはいつでも同じです、「データ準備に、常に時間の 80% を費やしています。」 実際、トレーニングのためのデータ準備は、機械学習のプロセスにおける重要なステップであり、そこで下手な仕事をしようとは誰も考えないでしょう。一般的なタスクは次のとおりです。 データの特定: 未加工データの格納場所の検索、データへのアクセス データの可視化: データセット内の各列の統計的性質の検証、ヒストグラムの構築、外れ値の調査 データのクリーニング: 重複の削除、欠損値のエントリの入力または削除、外れ値の削除 データの強化および特徴エンジニアリング: 列の処理によるより表現力のある特徴データの構築、トレーニングのための特徴データのサブセットの選択 新しい機械学習プロジェクトの初期段階において、これは直感と経験が大きな役割を果たす高度な手動プロセスです。データサイエンティストは、多くの場合、pandas や PySpark などのオープンソースツールやオープンソースツールの組み合わせを使用して、さまざまなデータ変換の組み合わせを試し、モデルをトレーニングする前にデータセットを処理します。その後、予測結果を分析し、反復処理を行います。同じくらい重要ですが、このプロセスを何度も繰り返しループするのは、時間がかかり面倒であると同時に、エラーが発生しやすくなります。 ある時点で、適切なレベルの精度 (または選択した他のすべてのメトリクス) に達すると、本番環境の完全なデータセットでトレーニングしたいと考えるでしょう。しかし、まずはサンドボックス内で実験した正確なデータ準備のステップを再現および自動化する必要があります。残念ながら、この作業のインタラクティブな性質を考慮すると、慎重に文書化していても、常にエラーの余地があります。 最後に大事なことですが、最終段階に進む前に、データ処理インフラストラクチャを管理および拡張する必要があります。今考えれば、このすべてを行うには、80% の時間では十分ではないかもしれません。 Amazon SageMaker Data Wrangler のご紹介 Amazon SageMaker Data Wrangler は、機械学習用に完全に管理された統合開発環境 (IDE) である Amazon SageMaker Studio に統合されています。数回クリックするだけで、データソースへの接続、データの探索と視覚化、組み込み変換および独自の変換の適用、自動生成されたスクリプトへの結果コードのエクスポート、マネージドインフラストラクチャでの実行が可能です。各ステップをより詳しく見ていきましょう。 もちろん、データ準備は、データを特定してアクセスすることから始まります。SageMaker Data Wrangler を使用すると、導入してすぐに Amazon Simple Storage Service […]

Read More

新機能 – VPC Reachability Analyzer

Amazon Virtual Private Cloud (VPC) を使用すると、お客様は、論理的に分離された専用の仮想ネットワークを、AWS クラウド上で起動できます。クラウド上でお客様のフットプリントが拡大し、デプロイされるネットワークアーキテクチャの複雑さも増していく中、誤った設定が原因で発生するネットワーク接続の問題は、その解決に時間がかかるようになっています。今回、当社では、ネットワーク診断ツールである VPC Reachability Analyzer を発表できる運びとなりました。このツールでは、VPC 内の 2 つのエンドポイント間、または複数の VPC 間で、通信の到達性に関する問題を解決できます。 ネットワークが目的どおりに設定されているかを確認 Reachability Analyzer のユーザーは、仮想ネットワーク環境を全体的に制御できます。独自の IP アドレス範囲の選択、サブネットの作成、またルートテーブルやネットワークゲートウェイの設定が可能です。また、VPC のネットワーク設定のカスタマイズも簡単です。例えば、ウェブサーバー用にパブリックサブネットを作成する際、インターネットへのアクセスに、インターネットゲートウェイを使用するように構成できます。データベースやアプリケーションサーバーなど、厳しいセキュリティが必要なバックエンドシステムは、インターネットにアクセスできないプライベートサブネットに配置できます。セキュリティグループや、ネットワークアクセスコントロールリスト (ACL) など、複数のセキュリティレイヤーを使用することで、各サブネットのエンティティへのアクセスを、プロトコル、IP アドレス、ポート番号によって制御できます。 また、VPC ピアリング、もしくは AWS Transit Gateway を経由させながら、リージョン全体またはグローバルなネットワーク接続の中で複数の VPC を組み合わせれば、トラフィックを非公開にルーティングさせられます。さらに、サイトを AWS アカウントに接続して、安全な通信を行うために、VPN Gateway を使用することもできます。AWS Lambda や Amazon S3 など、VPC 外に配置された多くの AWS のサービスでは、VPC エンドポイントや AWS PrivateLink を VPC 内のエンティティとしてサポートしており、それらのエンティティとは、プライベートな通信が可能です。 このような豊富なコントロールと機能セットがあると、接続の問題を引き起こし得るような意図しない構成を行ってしまうことも、珍しいことではありません。今回リリースされた VPC Reachability […]

Read More
週刊AWS

週刊AWS – 2020/12/7週 (re:Invent 特別編集号)

みなさん、こんにちは。ソリューションアーキテクトの下佐粉です。 今週も週刊AWSをお届けします。 先週はAWSの年次イベント AWS re:Invent 2020 の第二週ということで、引き続き多くの新機能が発表されました。今号も特別編集号として、筆者らが独断でピックアップした重要アイテムを紹介する形でお送りします。今号はMachine Learning KeynoteとAnalyticsのリーダーシップセッションで発表されたものを中心にピックアップしてご紹介します。 それでは、先週の主なアップデートについて振り返っていきましょう。

Read More

SAP on AWSに関するre:Inventのセッションとウォッチパーティーの予定をカレンダーに印付けしよう

AWS re:Invent 2020は最高潮に達しており、SAP on AWSチームもお客様成功事例はもちろん、SAP環境のモダナイゼーションにおける最新開発、AWSとSAP on AWSパートナーがどのようにインフラストラクチャを超えたソリューションを作成しているかを共有するために、12月16日にバーチャルステージに上がります。無料のバーチャルイベントに登録し、次のSAP on AWSセッションをカレンダーに追加しましょう。

Read More

Amazon SageMaker JumpStart で事前構築済みモデルと機械学習ソリューションへのアクセスを簡素化する

本日、Amazon SageMaker の新機能である Amazon SageMaker JumpStart の提供を開始したことを発表します。人気の高いモデルのコレクション (別名「モデルズー」) および一般的なユースケースを解決するエンドツーエンドのソリューションに、ワンクリックでアクセスして機械学習ワークフローを高速化することができます。 近年、機械学習はビジネスプロセスの改善と自動化に役立つ技術であることが証明されています。実際、過去データでトレーニングされたモデルは、金融サービス、小売、製造、通信、ライフサイエンスといった幅広い業界において結果を高精度に予測できます。しかし、これらのモデルの使用には、データセットの準備、アルゴリズムの選択、モデルのトレーニング、精度の最適化、本番稼働環境へのデプロイ、パフォーマンスの経時的モニタリングといった、一部の科学者やデベロッパーだけが有しているスキルと経験が必要になります。 モデルの構築プロセスを簡素化するために、機械学習コミュニティは、モデルズーと呼ばれる、人気の高いオープンソースライブラリによるモデルのコレクションを作成しました。モデルズーは多くの場合、リファレンスデータセットで事前トレーニングされています。例えば、TensorFlow Hub や PyTorch Hub では、デベロッパーは多数のモデルをダウンロードして、コンピュータビジョンや自然言語処理などのアプリケーションに統合することができます。 モデルのダウンロードは第一歩にすぎません。デベロッパーはその後、TensorFlow Serving および TorchServe モデルサーバーといったさまざまなツール、または独自のカスタムコードを使用してモデルをデプロイし、評価とテストを行う必要があります。モデルを実行したら、デベロッパーは受信データの適切な形式を把握する必要があります。これは以前からの悩みの種です。毎回ここで頭を抱えているのは私だけではないでしょう。 もちろん、完全な機械学習アプリケーションには通常、多くの不確定要素があります。データを事前処理して、バックエンドから取得した追加データでエンリッチメントを行い、モデルに投入する必要があります。予測は多くの場合、後処理され、さらなる分析や視覚化を行うために保存されます。モデルズーは有用ですが、役に立つのはモデリング段階でのみです。完全な機械学習ソリューションが提供できるようになるまでにデベロッパーが行うべき作業は、まだたくさんあります。 そのため、機械学習エキスパートには、プロジェクトのバックログが殺到します。一方で経験の少ないプラクティショナーは、開始するまでに苦労します。これらの障壁は大変苛立たしいものです。お客様からもこの問題への対処を求められました。 Amazon SageMaker JumpStart のご紹介 Amazon SageMaker JumpStart は、機械学習用の完全な統合開発環境 (IDE) である Amazon SageMaker Studio に統合されているため、モデルやソリューションなどを直感的に見つけることができます。ローンチ時の SageMaker JumpStart には、以下が含まていれます。 不正検出や予知保全といった、一般的な機械学習ユースケースに対応する 15 以上のエンドツーエンドソリューション コンピュータビジョン (画像分類、物体検出) および自然言語処理 (文章分類、質問応答) に対応する、TensorFlow Hub および PyTorch Hub で公開されている 150 以上のモデル […]

Read More

AWS Audit Manager で監査の準備を簡素化

タイムリーにエビデンスを収集して監査をサポートしたいとお考えではないでしょうか。しかしこれは手作業のためエラーが発生しやすく、場合によっては分散プロセスとなり、非常に困難な課題と化すおそれがあります。ビジネスがコンプライアンス要件の対象となる場合、監査の準備によって生産性が大幅に低下し、結果的に中断を余儀なくされる場合もあります。また、オンプレミスのレガシーシステム用に設計された従来の監査プラクティスをクラウドインフラストラクチャに適用する際に、問題が発生することも考えられます。 一般データ保護規則 (GDPR)、医療保険の携行と責任に関する法律 (HIPAA)、ペイメントカード業界データセキュリティスタンダード (PCI DSS) といった、進化する複雑な規制やコンプライアンス標準に対応するには、エビデンスを収集、検証、統合する必要があります。 また、AWS 使用量が、進化するコンプライアンス制御の要件にどのようにマッピングされているかを、常に再評価し続ける必要があります。要件を満たすには、データの暗号化がアクティブになっていたことを示す必要があり、さらに、サーバー設定の変更を示すログファイル、アプリケーションの高可用性を示す図、必要なトレーニングを完了したことを示すトランスクリプト、ソフトウェア使用量がライセンスの規定を超えていないことを示すスプレッドシートなども必要になる場合があります。この作業は、時には数十人のスタッフやコンサルタントを巻き込んで、数週間続きます。 AWS Audit Manager は、監査の準備に役立つフルマネージド型サービスです。一般的な業界標準および規制に適合する事前構築済みフレームワークを提供し、エビデンスの継続的な収集を自動化できます。今すぐに利用可能です。AWS リソースの使用に関するエビデンスの継続的かつ自動的な収集によって、リスク評価や規制および業界標準へのコンプライアンスを簡素化できます。また、監査に備えた体制を継続的に維持できるようになり、より迅速で中断の少ない準備プロセスを実施できます。 カスタマイズ可能な組み込みのフレームワークにより、クラウドリソースの使用状況をさまざまなコンプライアンス標準の制御にマッピングし、監査に適した用語を使用して、エビデンスを監査に備えたイミュータブルな評価レポートに変換できます。また、オンプレミスのインフラストラクチャの詳細や、ビジネス継続性計画、トレーニングのトランスクリプト、ポリシー文書などの追加のエビデンスを検索、フィルタリング、アップロードして、最終的な評価に含めることも可能です。 通常、監査の準備には複数のチームが関与します。そこで、委任ワークフロー機能を使用すれば、対象分野のエキスパートに管理を割り当ててレビューを行わせることが可能になります。例えば、ネットワークセキュリティに関するエビデンスのレビューを、ネットワークセキュリティエンジニアに委任できます。 最終版評価レポートには、要約統計量と、関連するコンプライアンスフレームワークの正確な構造に従って整理されたすべてのエビデンスファイルが入ったフォルダが含まれます。エビデンスが収集されて単一の場所に整理されるとすぐにレビュー可能になるため、監査チームはより簡単にエビデンスを検証し、質問に回答し、修復計画を追加できるようになります。 Audit Manager の開始方法 まず、新規の評価を作成して設定しましょう。Audit Manager コンソールのホームページで [Launch AWS Audit Manager (AWS Audit Manager を起動)] をクリックすると、[Assessments (評価)] リストに移動します (コンソールのホーム左側のナビゲーションツールバーからもアクセス可能)。そこで [Create assessment (評価を作成)] をクリックして、新規の評価の設定ウィザードを開始します。まず、評価に名前を付け、オプションで説明を入力します。次に、評価に関連付けられたレポートを保存する Amazon Simple Storage Service (S3) バケットを指定します。 次に、評価のフレームワークを選択します。さまざまな事前構築済みフレームワークや、自分で作成したカスタムフレームワークから選択することができます。カスタムフレームワークは一から作成することもできますが、既存のフレームワークに基づいて作成することもできます。ここでは、事前構済みの PCI DSS フレームワークを使用します。 [Next (次へ)] をクリックすると、評価の対象とする AWS アカウントを選択できます (Audit […]

Read More

新発表 — Amazon EMR on Amazon Elastic Kubernetes Service (EKS)

数万社のお客様が、Amazon EMR を使用して、Apache Spark、 Hive、HBase、Flink、Hudi、および Presto などのフレームワークでビッグデータ分析アプリケーションを大規模に実行しています。EMR は、これらのフレームワークのプロビジョニングとスケーリングを自動化し、さまざまな EC2 インスタンスタイプでパフォーマンスを最適化して、価格とパフォーマンスの要件を満たします。お客様は現在、Kubernetes を使用して組織全体でコンピューティングプールを統合しています。Amazon Elastic Kubernetes Service (EKS) で Apache Spark を管理しているお客様の一部には、EMR を使用して、フレームワークのインストールと管理、AWS のサービスとの統合などの手間のかかる作業を排除したいと考えているお客様もいらっしゃいます。さらに、EMR が提供するより高速なランタイムや開発およびデバッグのツールも活用したいと考えています。 本日、Amazon EMR on Amazon EKS の一般提供を発表いたします。これは、EMR の新しいデプロイオプションであり、EKS でのオープンソースのビッグデータフレームワークのプロビジョニングと管理を自動化できます。EKS で EMR を使用すると、同じ EKS クラスターで Spark アプリケーションを他のタイプのアプリケーションとともに実行し、リソース使用率を向上させ、インフラストラクチャ管理を簡素化することができます。 他のタイプのアプリケーションと同じ EKS クラスタに EMR アプリケーションをデプロイできるため、リソースを共有し、すべてのアプリケーションを運用および管理する単一のソリューションで標準化できます。最新のフレームワークへのアクセス、パフォーマンスが最適化されたランタイム、アプリケーション開発用の EMR Notebooks、デバッグ用の Spark ユーザーインターフェイスなど、現在 EC2 で使用しているのと同じ EMR 機能をすべて EKS で利用できます。 Amazon EMR は、アプリケーションをビッグデータフレームワークを使用してコンテナに自動的にパッケージ化し、他の […]

Read More

PennyLane on Braket + フォールトトレラントな量子コンピューティングに向けた進歩 + テンソルネットワークシミュレータ

昨年、初めて Amazon Braket について書き、量子コンピューティングの使用を開始するように皆さんをご招待しました! そのリリース以降、当社は前進を続け、Amazon Braket にいくつかの重要で強力な新機能を追加しました。 2020 年 8 月 – D-Wave、IonQ、および Rigetti から量子コンピューティングハードウェアへのアクセスを備えた Amazon Braket の一般提供。 2020 年 9 月 – D-Wave の Advantage 量子処理装置 (QPU) へのアクセス。これには、5,000 を超える量子ビットと 15-way 接続が含まれています。 2020 年 11 月 – リソースのタグ付け、AWS PrivateLink、量子ビットの手動割り当てのサポート。最初の 2 つの機能を使用すると、既存の AWS アプリケーションを Amazon Braket で構築した新しいアプリケーションに簡単に接続できます。また、本稼働クラスのクラウドベースの量子コンピューティングアプリケーションの将来像を思い描くのに役立つはずです。最後の機能は、研究者にとって特に興味深いものです。私が理解しているところによれば、量子コンピューティングハードウェアの特定の部分内にある特定の量子ビットは、量子回路の一部として使用される際にそれらがいくらか優れた性能を発揮する可能性のある個別の物理的特性および接続特性を有する可能性があります。詳細については、QPU デバイスでの量子ビットの割り当てで確認できます (これは、コンパイラが頻繁に使用する変数に CPU レジスタを割り当てる方法とある程度類似しています)。 私の最初のブログ記事では、Caltech に隣接する AWS 量子コンピューティングセンターの設立も発表しました。 これを書いている時点では、私たちは、Noisy […]

Read More