Amazon Web Services ブログ

Category: Events

新機能 – Amazon SageMaker の管理されたデータ並列化による大規模なデータセットを使用したトレーニングのシンプル化

今日は、数百から数千ギガバイトにおよぶデータセットでのモデルのトレーニングを容易にする、新しいデータ並列化ライブラリの Amazon SageMaker によるサポートが開始されたことをお知らせしたいと思います。 データセットとモデルがますます大きくなり、高度化するにつれて、大規模な分散型トレーニングジョブを扱う機械学習 (ML) プラクティショナーは、Amazon Elastic Compute Cloud (EC2) p3 および p4 インスタンスなどの強力なインスタンスを使用している場合でさえも、長くなる一方のトレーニング時間に対応しなければなりません。たとえば、8 個の NVIDIA V100 GPU を搭載した ml.p3dn.24xlarge インスタンスを使用しても、一般公開されている COCO データセットでの Mask RCNN および Faster RCNN などの高度なオブジェクト検出モデルのトレーニングには 6 時間以上かかります。これと同じく、最先端の自然言語処理モデルである BERT のトレーニングにも、同一のインスタンスで 100 時間以上かかります。自律走行車企業などのお客様には、大規模な GPU クラスターで何日もかけて実行される、さらに大きなトレーニングジョブを定期的に処理するお客様もおられます。 ご想像どおり、これらの長いトレーニング時間は ML プロジェクトの深刻なボトルネックであり、生産性を損なうと共に、イノベーションを遅らせています。お客様から助けを求められた AWS は、この問題の解決に乗り出しました。 Amazon SageMaker のデータ並列化のご紹介 SageMaker Data Parallelism (SDP) ライブラリのおかげで、Amazon SageMaker を使って ML チームによる分散型トレーニングの時間とコストの削減を実現することが可能になりました。TensorFlow […]

Read More

エッジデバイスでの機械学習モデルの運用をシンプル化する Amazon SageMaker Edge Manager

今日は、エッジデバイスフリートでの機械学習モデルの最適化、セキュア化、監視、および維持を容易にする Amazon SageMaker の新機能、Amazon SageMaker Edge Manager についてお知らせしたいと思います。 エッジコンピューティングが情報テクノロジーにおける最もエキサイティングな展開のひとつであることは明らかです。実際に、コンピューティング、ストレージ、ネットワーキング、およびバッテリテクノロジーの絶え間ない進歩のおかげで、組織は、製造、エネルギー、農業、およびヘルスケアなどのさまざまな産業用途のために、多数の埋め込みデバイスを世界のあらゆる場所で日常的にデプロイしています。シンプルなセンサーから大型の産業用マシンにおよぶデバイスには、望ましくない状態が検出された場合にアラートを送信するなど、データをキャプチャして分析し、措置を講じるという共通の目的があります。 機械学習 (ML) の幅広いビジネス問題を解決する能力はすでに実証されているため、お客様は、ローカルデータからより深い洞察を得るための取り組みの一環として、モデルをクラウドでトレーニングし、それらをエッジにデプロイすることでエッジへの ML の適用を試みておられますが、エッジデバイスの遠隔性と制約された性質により、エッジでのモデルのデプロイメントと管理は困難を極めることがよくあります。 たとえば、複雑なモデルは大きすぎて収まりきらないことがあり、お客様は小規模で精度に欠けるモデルを使用することで妥協せざるを得なくなります。また、同じデバイスでの複数のモデルを使用した予測 (たとえば、異なるタイプの異常の検出など) には、ハードウェアリソースを節約するために、オンデマンドでモデルをロードおよびアンロードする追加のコードが必要になる場合があります。そして、現実世界は常に、どのトレーニングセットの予想よりも複雑で不規則なものであるため、予測品質の監視は大きな懸念となります。 お客様から助けを求められた AWS は、これらの課題の解決に乗り出しました。 Amazon SageMaker Edge Manager のご紹介 Amazon SageMaker Edge Manager は、ML エッジデベロッパーが、クラウドまたはエッジで使い慣れたツールを簡単に使用できるようにします。このため、モデルを本番稼働させるために必要な時間と労力を削減しながら、デバイスフリート全体のモデル品質を継続的に監視し、向上させることが可能になります。 ユーザーが Amazon SageMaker でトレーニング、またはインポートしたモデルを元に、SageMaker Edge Manager はまず Amazon SageMaker Neo を使用してハードウェアプラットフォーム向けにモデルを最適化します。2 年前にローンチされた Neo は、低フットプリントのランタイムによってデバイス上で実行される効率的な共通のフォーマットにモデルを変換します。Neo は現在、Ambarella、ARM、Intel、NVIDIA、NXP、Qualcomm、TI、および Xilinx によって製造されたチップを基盤とするデバイスをサポートしています。 次に、SageMaker Edge Manager はモデルをパッケージ化し、それを Amazon Simple Storage […]

Read More

数十億ものパラメータを持つ深層学習モデルのトレーニングをシンプル化する Amazon SageMaker

今日は、ハードウェアの制限が原因で、これまでトレーニングすることが難しかった超大型深層学習モデルのトレーニングを Amazon SageMaker がシンプル化することをご紹介したいと思います。 過去 10 年の間、深層学習 (DL) と呼ばれる機械学習のサブセットが一世を風靡してきました。ニューラルネットワークを基盤とする DL アルゴリズムは、膨大な量の非構造化データ (画像、動画、スピーチ、またはテキストなど) に隠された情報パターンを抽出する、類いまれな能力を備えています。DL は、さまざまな複雑かつ人間的なタスク、特にコンピュータビジョンと自然言語処理において、瞬く間に目覚ましい成果を達成しました。現に、DL は ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、the General Language Understanding Evaluation (GLUE)、または Stanford Question Answering Dataset (SQUAD) といったリファレンスタスクにおける結果を向上させ続けているため、イノベーションがかつてない速さで進んでいます。 これまで以上に複雑なタスクに挑戦するために、DL 研究者はますます高度なモデルを設計し、さらなるニューロン層と結合を追加してパターン抽出と予測精度を向上させており、モデルサイズに直接的な影響を及ぼしています。たとえば、画像分類では 100 メガバイトの ResNet-50 モデルで極めて良好な結果を得ることができますが、オブジェクト検出やインスタンスセグメンテーションなどのより困難なタスクには、約 250 メガバイトの Mask R-CNN または YOLO v4 などのより大きなモデルを使用しなければならなくなります。 想像がつくと思いますが、モデルの増大もモデルのトレーニングに必要な時間とハードウェアリソースに影響します。Graphical Processing Units (GPU) が以前から大型 DL モデルのトレーニングと微調整に好まれるオプションであるのはこのためです。GPU の超並列的なアーキテクチャと大型のオンボードメモリのおかげで、ミニバッチトレーニングと呼ばれる手法の使用が可能になります。複数のデータサンプルを、ひとつずつではなく、一度に […]

Read More

新機能 – バイアスを検出し、機械学習モデルの透明性を向上させる Amazon SageMaker Clarify

今日は、お客様が機械学習 (ML) モデルのバイアスを検出し、ステークホルダーと顧客にモデルの動作を説明できるようにすることで透明性を高めるために役立つ Amazon SageMaker の新機能、Amazon SageMaker Clarify をご紹介します。 ML モデルは、データセットに存在する統計的パターンを学習するトレーニングアルゴリズムによって構築されるため、いつくかの疑問がすぐさま思い浮かびます。第一に、ML モデルが特定の予測にたどり着いた理由を説明できるようになるのか? 第二に、モデル化しようとしている現実問題をデータセットが忠実に表現しない場合はどうなるのか? そもそも、このような問題を検出することはできるのか? これらの問題は、認識できない形で何らかのバイアスを生じないのか? これから説明するとおり、これらは決して推論的な疑問ではなく、極めて現実的なもので、その影響は広範囲に及ぶ可能性があります。 バイアス問題から始めましょう。不正なクレジットカード決済を検出するモデルに取り組んでいることを想像してください。幸いにも、決済の大部分は正当なものであり、データセットの 99.9% を占めています。これは、不正決済が 0.1% のみであることを意味し、100,000 件のうち 100 件といったところです。二値分類モデル (正当な決済 vs. 不正な決済) のトレーニングでは、モデルが多数派グループに強い影響を受ける、つまりバイアスがかかる可能性が非常に高くなります。実際に、トリビアルモデルでは決済が常に正当であると判断されてしまうかもしれません。このモデルはまったく役に立たないものの、99.9% は正しいことになります! このシンプルな例から、データの統計的特性、そしてモデルの精度を測定するために使用するメトリクスをどれほど慎重に扱わなければならないかがわかります。 この過少出現問題には多数の派生タイプがあります。クラス、特徴、およびユニークな特徴量が増加しても、データセットには特定のグループについて少量のトレーニングインスタンスしか含まれていない可能性があります。実際、これらのグループの一部は、性別、年齢範囲、または国籍など、さまざまな社会的にセンシティブな特徴に該当することがあります。このようなグループの過少出現は、予測結果に不均衡な影響をもたらす恐れがあります。 残念ながら、悪意がまったくなかったとしても、データベースにバイアス問題が存在し、ビジネス、倫理、および規制面での影響を伴うモデルに取り込まれてしまう可能性があります。このため、モデル管理者が本番環境システムにおけるバイアスの潜在的な原因に注意することが重要になるのです。 では、説明可能性の問題についてお話しましょう。線形回帰や決定木ベースのアルゴリズムといったシンプルで十分に解明されているアルゴリズムでは、モデルを検証し、モデルがトレーニング中に学習したパラメータを調べ、モデルが主に使用する特徴を特定することは比較的簡単です。その後、このプロセスがビジネス慣行に沿っているかどうかを判断できます (つまり、「人間のエキスパートでもこうしただろう」と言うようなものです)。 しかし、モデルがますます複雑になるにつれて (深層学習さん、あなたのことです)、このような分析は不可能になります。スタンリー・キューブリックの「2001 年宇宙の旅」に出てくる先史時代の部族と同じように、私たちはしばしば、不可解なモノリスをまじまじと見詰めながら、それが何を意味するのか頭をかしげるしかありません。多くの企業と組織は、ML モデルを本番環境で使用する前に、それらを説明可能なものにする必要があるかもしれません。さらに、一部の規制では、ML モデルが重大な意思決定の一環として使用される場合に説明可能性が義務付けられている場合があり、この説明可能性は、最初にお話したバイアスの検出にも役立ちます。 こうして、データセットとモデルに存在するバイアスを検出し、モデルが予測を行う方法を理解するための援助をお客様から求められた AWS は、作業を開始し、SageMaker Clarify を考案しました。 Amazon SageMaker Clarify のご紹介 SageMaker Clarify は、AWS の完全マネージド型 ML サービスである Amazon […]

Read More

クラウドにヘルスデータを格納し、変換と分析を行う Amazon HealthLake

医療機関が日々必要とする患者情報には、臨床的な所見や家族の病歴から、診断内容と処方箋にいたるまで、膨大な量が含まれます。これらすべてのデータは、患者に関する医療情報の全体像を把握し、より優れた医療サービスを提供できるようにするために使用されます。現在のところ、こういったデータは、さまざまなシステム (電子カルテ、検査システム、医療画像リポジトリなど) の間で、数十種類の互換性のないフォーマットで保存されています。 FHIR (高速医療情報相互運用リソース) などの新しい規格は、このような課題に対処しようとしたものです。この規格では、それらの医療システム間で構造化データを記述および変換に適応した形式が提供されます。しかし、このデータの多くは非構造化情報であり、医療記録 (臨床記録) 、文書 (PDF 形式の検査結果) 、書式用紙 (保険請求) 、画像 (X線、MRI) 、音声 (会話記録) 、時系列データ (心電図) などの形で保存されているため、それらの形式から情報を抽出することは 1 つの課題となります。 医療機関が、これらのデータをすべて収集し、変換 (タグ付けやインデックス作成) 、構造化、分析などのための準備を完了するには、数週間、場合によっては数か月を要することがあります。さらに、そのすべての作業を行うためのコストと運用上の複雑さは、ほとんどの医療機関で許容しきれないものとなります。 この度、当社では、Amazon HealthLake を発表できる運びとなりました。これは、HIPAA 適合の完全マネージド型サービス (現在はプレビュー版) であり、医療関係およびライフサイエンスのお客様は、さまざまな形式でサイロ化された医療情報を、一元化された AWS データレイクに集約するためにご利用いただけます。HealthLake では、機械学習 (ML) モデルにより医療データの正規化が行われます。医療データ内の意味のある情報が自動的に理解され抽出されるので、すべての情報が簡単に検索できるようになります。その後、お客様はデータに対しクエリと分析を行い、関連性の把握や傾向を割り出したりしながら、それらを予測に利用することができます。 仕組み Amazon HealthLake を使用することで、オンプレミスのデータを AWS クラウドにコピーします。クラウドに保存された構造化データ (検査結果など) と非構造化データ (カルテなど) には、HealthLake により、FHIR に対応したタグ付けや構造化が行われます。すべてのデータは、標準的な医療用語を使用して完全にインデックス化されるため、患者の医療情報の照会や検索、分析、および更新が、すばやく簡単に実行できます。 HealthLake を使用する医療機関は、患者の医療情報の収集と変換を数分の内に完了し、その治療履歴を包括的に表示できるようになります。この情報は、業界標準の FHIR 形式で構造化されるので、検索とクエリのための強力な機能を利用できます。 AWS マネジメントコンソールから HealthLake API […]

Read More

新機能 — Amazon SageMaker Feature Store で機械学習の機能を格納、発見、共有する

今回、 Amazon SageMaker Feature Store を発表できることを、非常に喜ばしく思います。この Amazon SageMaker の新機能により、トレーニングや予測ワークフローで使用するために精選されたデータの安全な保存、検出、共有などを、データサイエンティストや機械学習エンジニアが容易に実施できるようになります。 作業経験が豊富な方であれば、機械学習 (ML) モデルをトレーニングし適切なアルゴリズムを選択するためには、高品質のデータを供給することがいかに重要かをご存知だと思います。ML のワークフローとして、最初にデータをクリーニングするのは良い考えです。さらに通常は、欠損値の補完、外れ値の削除、その他の処理が行われることになります。さらに多くの場合では、「特徴エンジニアリング」 と呼ばれる (一般的なものと難解なもの両方の手法がミックスされた) 手法により、データの変換が行われます。 特徴エンジニアリングの目的とは、簡単に言えば、表現性が高まるようにデータを変換して、アルゴリズムの学習を助けるということです。例えば、多くの列型データセットには、住所などの文字列が含まれています。ほとんどの ML アルゴリズムにとって、文字列は無意味なので、これらを数値表現でエンコードしなおす必要が生じます。この住所の文字列の場合であれば、GPS 座標に置き換えることができます。この形式なら、位置の概念を学ぶアリゴリズムにとって、より表現性が高いものになります。言い方を変えると、データが新しい石油だとすれば、モデルが成層圏の精度を得るのに必要とする高オクタン価のジェット燃料に、その石油を変える精製プロセスが、特徴エンジニアリングだと言えます。 実際、ML の実務担当者達は、特徴エンジニアリング用にコードを作成し、そのコードを初期データセットに適用し、処理されたデータセットでモデルをトレーニングた上でその精度の評価を行うことに、多くの時間を費やしています。この作業は実験的な性質を持つため、たとえ最小規模のプロジェクトであっても、複数回の反復が必要になることがあります。同じ特徴エンジニアリングコードが何度も実行されることも多く、同じ操作の繰り返により時間と計算リソースが浪費されます。こういった事情は、大規模な組織では、さらなる生産性の低下を引き起こすこともあり得ます。多くの場合で異なるチームが同じジョブを実行していたり、以前の作業に関する情報がないために特徴エンジニアリング用のコードを重複して記述したりするのが、その理由です。 また、MLチームには、解決しなければならない別の難しい問題もあります。モデルは処理が施されたデータセットでトレーニングされるているため、予測のために送信されるデータにも、同じ変換を適用することが不可欠となるのです。これは多くの場合、異なる言語で書きなおした特徴エンジニアリングコードを予測ワークフローに統合して、予測の処理時に実行する、ということを意味します。また、こういったプロセスの全体により、時間が消費されるだけでなく、一貫性を損なう可能性もあります。なぜなら、データ変換の最も小さな差異でさえ、予測には大きな影響を与え得るからです。 これらの問題を解決するために、しばしば ML チームは、フィーチャストアを構築します。フィーチャストアとは、トレーニングや予測ジョブで使用される処理済みデータを保持および取得できる、中央リポジトリのことです。フィーチャストアは便利ですが、独自のストアを構築および管理することは、技術、インフラストラクチャ、そして運用の面で多大な労力を要し、実際の ML 作業のための貴重な時間を奪ってしまいます。こういった状況に対する、よりよいソリューションをお客様から求められ、当社では、新サービスを作ることになりました。 Amazon SageMaker Feature Store のご紹介 Amazon SageMaker Feature Store は、ML 機能のための完全マネージド型で一元化されたリポジトリです。インフラストラクチャを管理することなく、特徴データを安全に保管および取得できます。Feature Store は、Amazon SageMaker に組み込まれています。SageMaker は、あらゆるアルゴリズムをサポートしている、ML 用の完全マネージド型サービスです。さらに Feature Store は、ウェブベースの ML 用開発環境である Amazon SageMaker Studio とも統合されています。 SageMaker […]

Read More

新機能 — Amazon SageMaker Pipelines が機械学習プロジェクトに DevOps 機能を提供

本日、 Amazon SageMaker Pipelines を発表することができまして、大変うれしく思います。これは Amazon SageMaker の新機能で、データサイエンティストやエンジニアが、エンドツーエンドの機械学習パイプラインを簡単に構築、自動化、スケールできるようになります。 機械学習 (ML) はもともと試験段階にあり、本質的に予測することはできません。数日から数週間かけてさまざまな方法でデータを分析および処理します。これは、ジオード (晶洞石) を壊して、貴重な宝石を見つけようとする作業のようです。次に、さまざまなアルゴリズムとパラメータを試しながら、最高の精度を求めて多くのモデルをトレーニングおよび最適化します。この作業は通常、アルゴリズムとパラメータの間に依存関係がある多くの異なる手順を伴い、手作業で管理するため、とても複雑になる可能性があります。特に、モデル系列の追跡は簡単ではなく、監査性やガバナンスを妨げます。最後に、上位モデルをデプロイし、参照テストセットに対するモデルの評価を行います。最後に、 と言いましたが、実際には何度も反復して、新しいアイデアを試し、新しいデータでモデルを定期的に再トレーニングします。 ML がどんなにエキサイティングであっても、残念ながら多くの繰り返し作業を伴います。小規模なプロジェクトでも、本番環境に移る前には何百もの手順が必要になります。こうした作業のせいで、時間の経過とともにプロジェクトの楽しさや興奮が失われていくだけでなく、監視する必要性やヒューマンエラーの可能性が大きくなります。 手作業を軽減し、トレーサビリティを向上させるために、多くの ML チームでは DevOps の理念を採用し、継続的インテグレーションと継続的配信 (CI/CD) 用のツールとプロセスを実装しています。確かにこれは正しい手順といえますが、独自のツールを作成することで、当初の予想よりも多くのソフトウェアエンジニアリングとインフラストラクチャ作業が必要な複雑なプロジェクトとなる場合が多いです。貴重な時間とリソースが実際の ML プロジェクトから奪われ、革新のペースがスローダウンします。残念ながら一部のチームでは、手作業でのモデルの管理、承認、デプロイに戻ることにしました。 Amazon SageMaker Pipelines のご紹介 簡単に言うと、Amazon SageMaker Pipelines で、ML プロジェクトの DevOps がトップレベルになります。この新機能により、データサイエンティストや ML デベロッパーは、自動化された、信頼性の高いエンドツーエンドの ML パイプラインを簡単に作成できるようになります。SageMaker は通常どおり、すべてのインフラストラクチャを完全に管理するため、お客様が作業を行う必要はありません。 Care.com は、高品質の介護サービスを見つけて管理するための世界をリードするプラットフォームです。Care.com のデータサイエンスマネージャーの Clemens Tummeltshammer 氏は次のように言います「 需要と供給が均衡な、力のある介護業界は、個々の家庭から国の GDP にいたる経済成長にとって不可欠です。私たちは Amazon SageMaker Feature Store と […]

Read More

プレビュー: ビジネスの健全性を監視するための異常検出サービス、Amazon Lookout for Metrics

Amazon Lookout for Metrics を発表いたします。これは、機械学習 (ML) を使用してメトリックスの異常を検出する新しいサービスです。ML の経験がなくても、ビジネスの健全性を積極的に監視、問題を診断して、迅速に機会を発見できます。 Lookout for Metrics では Amazon と同じ技術を使用しています。ともすれば見つけるのが難しい、データの例外的な変化を検出しつつ、誤検出の回数を減らします。また、類似するものをまとめてグループ化し、厳密にランク付けします。さらに異常の根本原因特定に役立つ情報を提供します。 収益額やウェブページビュー、毎日のアクティブユーザー数、解約率、トランザクション量、モバイルアプリのインストール数など、さまざまなメトリックスで使用できます。本日、Lookout for Metrics のプレビューをご覧いただけます。 Amazon Lookout を異常検知のために使用する理由 どの業界の組織も、テクノロジーと自動化を通じてビジネスの効率を向上させようとしています。さまざまな試みがされていますが、よくあるのは欠陥や機会を早期に特定でき、材料コストの節約、利益率の向上、カスタマーエクスペリエンスの向上につながるものです。これまでは、組織による大量のデータ監査は、手作業に依存していました。これでは規模を拡大することが難しく、また人為的ミスの原因になりがちです。任意に範囲を決めて、ルールベースの方法を使用している組織もあります。多くの場合これらの方法は静的であり、季節性の変化に容易には対応できず、誤検出が多すぎます。 ひとたび異常が検出されると、デベロッパーやアナリスト、ビジネスオーナーは、変化の根本原因をつきとめようと数週間も費やすことになります。これが ML が効果的かつ変革的なツールになり得る状況です。しかし ML のアルゴリズムは、データの種類ごとに慎重に選択し、トレーニングを行い、テストとデプロイをする必要があります。そのため ML に熟練したエキスパートチームが必要です。 Amazonには、データ主導型の企業としての長い歴史があります。ビジネスの健全性や運営、カスタマーエクスペリエンスにおいてトップでありつづけなければならないビジネスを抱えており、その数は増え続けています。この長年に渡る取り組みの重要な部分は、さまざまなトラフィックチャネルからのウェブサイト訪問、ショッピングカートに追加された商品の数、注文数、商品ごとの収益をはじめとした、主要業績評価指標 (KPI) の異常を検出するために ML テクノロジーを構築し、改善させることでした。 Amazon Lookout for Metrics によって、すべてのデベロッパーが Amazon で使われていたものと同じ ML テクノロジーを手にすることができます。データの異常を検出してインテリジェントにグループ化することで、集計結果を視覚化し、自動的に警告を行えます。 フルマネージド型のサービスなために ML プロセス全体を扱うことができ、すぐに開始してコアビジネスに集中できます。そして最も重要なのは、異常と根本原因の分析における正確さと関連性についてのフィードバックを、このサービスがリアルタイムに組み込むことで、モデルのパフォーマンスを継続的に向上させられることです。 Amazon Lookout for Metrics の仕組み AWS マネジメントコンソールから数回クリックするだけで、Lookout for Metrics […]

Read More

機械学習用のデータを準備するためのビジュアルインターフェイス、Amazon SageMaker Data Wrangler のご紹介

本日、Amazon SageMaker の新たな機能であるAmazon SageMaker Data Wranglerを発表できることを非常に嬉しく思います。これを利用することで、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用した機械学習 (ML) アプリケーションのデータ準備をより速く行うことができます。 データサイエンティストと機械学習エンジニアのグループに、機械学習における問題の調査に実際、どのくらい時間を費やすのかを尋ねるたびに、私はよく多くのため息と、それに続く「運が良ければ 20% です」というせりふに沿った答えを聞きます。その理由を尋ねると、答えはいつでも同じです、「データ準備に、常に時間の 80% を費やしています。」 実際、トレーニングのためのデータ準備は、機械学習のプロセスにおける重要なステップであり、そこで下手な仕事をしようとは誰も考えないでしょう。一般的なタスクは次のとおりです。 データの特定: 未加工データの格納場所の検索、データへのアクセス データの可視化: データセット内の各列の統計的性質の検証、ヒストグラムの構築、外れ値の調査 データのクリーニング: 重複の削除、欠損値のエントリの入力または削除、外れ値の削除 データの強化および特徴エンジニアリング: 列の処理によるより表現力のある特徴データの構築、トレーニングのための特徴データのサブセットの選択 新しい機械学習プロジェクトの初期段階において、これは直感と経験が大きな役割を果たす高度な手動プロセスです。データサイエンティストは、多くの場合、pandas や PySpark などのオープンソースツールやオープンソースツールの組み合わせを使用して、さまざまなデータ変換の組み合わせを試し、モデルをトレーニングする前にデータセットを処理します。その後、予測結果を分析し、反復処理を行います。同じくらい重要ですが、このプロセスを何度も繰り返しループするのは、時間がかかり面倒であると同時に、エラーが発生しやすくなります。 ある時点で、適切なレベルの精度 (または選択した他のすべてのメトリクス) に達すると、本番環境の完全なデータセットでトレーニングしたいと考えるでしょう。しかし、まずはサンドボックス内で実験した正確なデータ準備のステップを再現および自動化する必要があります。残念ながら、この作業のインタラクティブな性質を考慮すると、慎重に文書化していても、常にエラーの余地があります。 最後に大事なことですが、最終段階に進む前に、データ処理インフラストラクチャを管理および拡張する必要があります。今考えれば、このすべてを行うには、80% の時間では十分ではないかもしれません。 Amazon SageMaker Data Wrangler のご紹介 Amazon SageMaker Data Wrangler は、機械学習用に完全に管理された統合開発環境 (IDE) である Amazon SageMaker Studio に統合されています。数回クリックするだけで、データソースへの接続、データの探索と視覚化、組み込み変換および独自の変換の適用、自動生成されたスクリプトへの結果コードのエクスポート、マネージドインフラストラクチャでの実行が可能です。各ステップをより詳しく見ていきましょう。 もちろん、データ準備は、データを特定してアクセスすることから始まります。SageMaker Data Wrangler を使用すると、導入してすぐに Amazon Simple Storage Service […]

Read More

新機能 – VPC Reachability Analyzer

Amazon Virtual Private Cloud (VPC) を使用すると、お客様は、論理的に分離された専用の仮想ネットワークを、AWS クラウド上で起動できます。クラウド上でお客様のフットプリントが拡大し、デプロイされるネットワークアーキテクチャの複雑さも増していく中、誤った設定が原因で発生するネットワーク接続の問題は、その解決に時間がかかるようになっています。今回、当社では、ネットワーク診断ツールである VPC Reachability Analyzer を発表できる運びとなりました。このツールでは、VPC 内の 2 つのエンドポイント間、または複数の VPC 間で、通信の到達性に関する問題を解決できます。 ネットワークが目的どおりに設定されているかを確認 Reachability Analyzer のユーザーは、仮想ネットワーク環境を全体的に制御できます。独自の IP アドレス範囲の選択、サブネットの作成、またルートテーブルやネットワークゲートウェイの設定が可能です。また、VPC のネットワーク設定のカスタマイズも簡単です。例えば、ウェブサーバー用にパブリックサブネットを作成する際、インターネットへのアクセスに、インターネットゲートウェイを使用するように構成できます。データベースやアプリケーションサーバーなど、厳しいセキュリティが必要なバックエンドシステムは、インターネットにアクセスできないプライベートサブネットに配置できます。セキュリティグループや、ネットワークアクセスコントロールリスト (ACL) など、複数のセキュリティレイヤーを使用することで、各サブネットのエンティティへのアクセスを、プロトコル、IP アドレス、ポート番号によって制御できます。 また、VPC ピアリング、もしくは AWS Transit Gateway を経由させながら、リージョン全体またはグローバルなネットワーク接続の中で複数の VPC を組み合わせれば、トラフィックを非公開にルーティングさせられます。さらに、サイトを AWS アカウントに接続して、安全な通信を行うために、VPN Gateway を使用することもできます。AWS Lambda や Amazon S3 など、VPC 外に配置された多くの AWS のサービスでは、VPC エンドポイントや AWS PrivateLink を VPC 内のエンティティとしてサポートしており、それらのエンティティとは、プライベートな通信が可能です。 このような豊富なコントロールと機能セットがあると、接続の問題を引き起こし得るような意図しない構成を行ってしまうことも、珍しいことではありません。今回リリースされた VPC Reachability […]

Read More