Amazon Web Services ブログ

Udacity の AWS Machine Learning Engineer Nanodegree プログラムの奨学金でキャリアアップ

 機械学習 (ML) は、テクノロジーで最も急速に成長している分野のひとつで、今日の求人市場において極めて高い人気があります。World Economic Forum によると、人口知能の成長により、今後数年間で 5,800 万の新たな雇用が創出されることが期待されていますが [1]、Tencent Research Institute は、何百万人もの AI エンジニアが必要であるにもかかわらず、AI エンジニアは現在世界で 300,000 人しかいないと推定しています [2]。 実践的かつ魅力的な学習を通じて AI/ML スキルを向上できるようにすることを目的として、AWS は、Udacity と共同で構築した AWS Machine Learning Scholarship Program を発表します。 AWS Machine Learning Scholarship Program とは何ですか? AWS と Udacity は、あらゆるスキルレベルの開発者に ML の開始方法に関する教育を受ける機会を与えるために手を組んでいます。この奨学金は、AWS ML の専門知識を拡充することに関心のある方であれば誰でも応募できます。 この二段階の奨学金プログラムでは、無料の AWS Machine Learning Foundations コースを修了したすべての適格な学生は、Udacity からコース修了証明書を取得し、高水準の知識テストを受ける機会を獲得します。 このテストのスコアに基づいて、上位 325 名の開発者は、Machine Learning […]

Read More

Amazon QuickSight ML Insights を使用して、データから異常を見つけ、将来を予測する

 テクノロジーの進化に伴い、ビジネスは多種多様なソースから、より多くのデータを収集するようになってきています。集めるデータポイントが多くなりすぎると、ビジネスの成長に役立つ適切な知見を見出すことがしばしば難しくなります。ダッシュボードは、構築の仕方によっては、データを視覚的に表現することに優れていますが、データから異常や外れ値といった隠れた知見を見つけるとなると、必ずしも優れた手段とは言えません。人がデータを探す際には役立ちますが、データ自らが人にアピールしてくれるわけではありません。データ収集の規模が大きくなると、間接費の増大を避けるためにも前者から後者に移行する必要があります。企業が持つ時間やリソースの限界から、大まかなトレンドの把握に留まるか、または深い知見を得るにしても、その規模は小さなデータサブセットに限られるでしょう。 こうした限界から、情報に基づいて意思決定を下すことができなくなる恐れがあります。Amazon QuickSight には、機械学習 (ML) による異常検知機能が組み込まれており、 ML モデルの構築、トレーニング、ハイパーパラメータチューニング、推論、デプロイメントタスクにおいて、時間とリソースの節約に役立ちます。さらに、何百万ものメトリクスや何十億もの大規模データポイントから、深い知見を得ることができます。 この記事では、ML Insights を使用して役立つビジュアルや予測を作成する方法をご紹介します。このチュートリアルでは、以下の AWS のサービスを使用します。 Amazon QuickSight – ML Insights やビジュアルを構築します。 Amazon Athena – 手動でのデータ分析のため、Amazon QuickSight データセットをクエリします。 AWS Glue – データセットをクロールし、ロードすることなくメタデータを準備します。これにより、安価で拡張性と耐久性が非常に高い S3 バケットに格納された 未加工データファイルにビジュアルを保存し、実行できるので、高額なデータベース実行コストを低減できます。 Amazon S3 – データソースを保存します。 データセットの準備 始めるには、まず Amazon QuickSight 用データセットの収集、クリーンアップ、準備を行う必要があります。この記事では、データソースとして Amazon S3 を使用しますが、Quicksight 対応であれば、Redshift、Athena、RDS、Aurora、MySQL、Postgres、MariaDB など、あらゆるデータソースを使用して、クエリとビジュアルの構築ができます。この記事では、次の 3 つのデータセットを使用します。 Airlines Delay (エアラインの遅延) – Web サイト「data.world」から […]

Read More

AWS Glue の自動コード生成機能とワークフローを利用して、データパイプラインをシンプル化する

 これまでの一連の記事では、AWS Glue のジョブブックマークを使用して Amazon S3 やリレーショナルデータベースからデータを増分ロードする方法についてご紹介しました。また、AWS Glue に最適化された Apache Parquet ライターを使用してパフォーマンスを向上させ、スキーマ進化を管理する方法についても説明しました。 3 つ目の記事となる今回は、次の 3 つのトピックを取り上げます。まず、特定の列を選択する、深くネストされたレコードを展開する、ネストされたフィールドを効率的に解析 (パース) する、列データの展開処理といった一般的なユースケースにおいて、AWS Glue でデータの変換に役立つコードを自動生成方法について説明します。 次に、AWS Glue のワークフローとCrawlers、Apache Spark 、Python Shell ETL ジョブといったさまざまな Glue コンポーネントを使用してデータパイプラインを構築し、オーケストレーションする方法について説明します。 最後に、ETL ジョブで SparkSQL を活用し、Amazon S3 とリレーショナルデータベースに保存されたデータセットで SQL ベースの変換を実行する方法について説明します。 自動コード生成と変換: ApplyMapping、Relationalize、Unbox、ResolveChoice AWS Glue では、さまざまなデータ変換タスクの実行に使用するコードを自動的に生成できます。これらの変換では、複雑で深くネストされたデータセットの処理するための、使いやすいインターフェイスを提供します。たとえば、一部のリレーショナルデータベースやデータウェアハウスは、ネストされたデータ構造をネイティブにサポートしていません。AWS Glue を使用すると、データをターゲットデータベースにロードする前にネストされたデータ構造を展開するためのコードを自動生成できるので、時間が節約できるだけでなく、技術に詳しくないユーザーでもデータを扱うことができます。 AWS Glue が提供する、データ処理をシンプル化するための変換のうち、よく利用されるものを次に示します。 ApplyMapping は、列の投影やデータ型の変更に使用される変換処理です。この例では、action.id などいくつかのフィールドのネストを解除し、トップレベルの action.id フィールドにマッピングします。また、id 列を long […]

Read More

AWS COVID-19 パブリックデータレイクの探索

AWS COVID-19 のデータレイク — 新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の広がりおよび特性についての、またはそれに関する最新のデータセットが収集され、一元化されたリポジトリが現在利用可能になりました。詳細については、COVID-19 データの分析用のパブリックデータレイクをご参照ください。世界的には、このデータを収集するためにいくつかの取り組みが進行中であり、AWS はパートナーと協力して、この重要なデータを自由に利用できる状態にし、最新の状態に保てるように尽力しています。 このデータは、質問、独自のデータセットとの混合、独自のデータレイクへの新しい洞察の取り込みを行うためにすぐに利用できます。AWS は、パンデミック監視手法の開発研究を行うノースウェスタン大学をサポートしています。医療情報学博士号取得候補者の Ariel Chandler は、次のように述べています。「AWS COVID-19 データレイクを使用すれば、公開データに簡単にアクセスできるので、誰もがすぐに使えるはずの情報にアクセスするために手間をかける必要がなくなりました。AWS Data Exchange とこれらの処理ツールにアクセスすることにより、州全体にまたがる COVID-19 の拡散を追跡、報告、視覚化して、イリノイ州の公衆衛生への対応を支援しています。データレイクは、消費者や場所のデータを含む幅広いデータソースを使用して、どのコミュニティが最も危険にさらされているかを通知します。その情報は、この危機の最中に最も情報を必要とする人々に対して医療サービスや社会サービスを提供するために使用されます」 また、情報をクエリしてそれらの洞察をデータレイクに公開する新しい方法を作成することもできます。データは、公開ウェブサイト、AWS Data Exchange のデータプロバイダーを介して購入したデータ、または内部システムから取得される場合があります。 この記事では、Amazon SageMaker または Jupyter を介して AWS Glue データカタログから AWS COVID-19 データレイクにアクセスし、オープンソースの AWS Data Wrangler ライブラリを使用する方法について説明します。AWS Data Wrangler は、Pandas ライブラリの機能を AWS に拡張し、DataFrames と AWS データ関連サービス (Amazon Redshift、Amazon S3、AWS Glue、Amazon […]

Read More

新規オープン – AWS 欧州 (ミラノ) リージョン

 今日は、待ちに待った新しい AWS リージョンがイタリアで利用可能になったことをお知らせしたいと思います! 欧州 (ミラノ) リージョンは欧州 6 番目の AWS リージョンで、信頼性に優れた方法で複数のデータセンターにアプリケーションを分散させるため (たとえば、Amazon Elastic Compute Cloud (EC2) インスタンスに異なる AZ を使用するよう Amazon Virtual Private Cloud のサブネットを設定するなど) に使用できる 3 つのアベイラビリティーゾーン (AZ) で構成されています。 各 AZ は、AWS のインフラストラクチャの完全に隔離されたパーティションで、1 つ、または複数のデータセンターが含まれます。 AZ は分離された個別の地理的地域に設置されており、単一のイベントがリージョンの可用性に影響するリスクを大幅に減らすために十分な距離が置かれていますが、迅速なフェイルオーバーおよび同期レプリケーションを必要とするビジネス継続性には十分な近さです。これは、単一のデータセンターで実現できるものよりも、可用性、耐障害性、およびスケーラビリティに優れた本番アプリケーションを運用する能力を提供します。Amazon Simple Storage Service (S3)、AWS Lambda、および Amazon DynamoDB などの完全マネージド型サービスは、自動的にデータとアプリケーションを複数の AZ にレプリケートします。 ミラノの AWS リージョンは、イタリアのエンドユーザーへのサービス提供を目的とするお客様に低レイテンシーを提供すると共に、オーストリア、ギリシャ、およびブルガリアなどの他の国々からのお客様へのサービス提供時にも、その他の既存 AWS リージョンより優れたレイテンシーを提供します。その成果は、エンドユーザーのラストマイルネットワークにおける接続の品質、キャパシティー、および距離に応じて異なる場合があります。 政府、ヘルスケア、および金融サービスで業務を行うお客様など、データレジデンシーの要件および規制があるイタリアのお客様にとっては、国内インフラストラクチャも同じく重要です。 イタリアの AWS 現在 AWS […]

Read More

AWS DeepLens と Amazon Rekognition を使用してスマートガレージドアオープナーを構築する

 小売、製造、ヘルスケアを含む多くの業界が IoT 対応デバイスを採用し、AI または機械学習 (ML) テクノロジーを使用して、デバイスが人間の介入なしに人間のような意思決定を行えるようにしました。自宅で AI/機械学習テクノロジーを使用して IoT 対応デバイスに電力を供給するなど、いくつかのユースケースを適用することもできます。 この記事では、AWS DeepLens、Amazon Rekognition、およびその他の AWS サービスを使用して車のナンバープレートを認識し、IoT ベースのガレージドアオープナーをトリガーする方法を紹介します。このソリューションを他の多くのユースケース (製造業など) に適用して、生産現場でのロボットやパッケージのフローを制御することができます。医療業界では、このソリューションを病院に適用して、顔認識またはスタッフのセキュリティバッジから一意のコードを読み取ったり検証したりする手順に基づいて、スタッフが制限された領域にアクセスすることを許可または拒否できます。 ソリューションの概要 次の図は、ソリューションのアーキテクチャを示しています。 AWS DeepLens デバイスを使用すると、エッジで深層学習を実行することができます。オブジェクトを検出し、オブジェクト検出モデルに対して実行します。モデルが車を検出すると、Amazon S3 にフレームをアップロードします。新しいイメージが S3 バケットに保存されると、AWS Lambda 関数がトリガーされ、Amazon Rekognition への呼び出しが開始され、Amazon DynamoDB テーブルの許可された値一覧とナンバープレートの比較が行われます。関数がナンバープレートを見つけると、AWS Secrets Manager からサードパーティーの API シークレットを取得し、サードパーティーの API をトリガーしてガレージのドアを開きます。 お客様はすでに IoT 対応のガレージドアを使用されているかもしれません。そしてほとんどのガレージドアオープナーはプログラムでガレージドアを開閉する、ある種の API を提供します。この記事では、IoT ベースのガレージドアオープナーを最初から作成するのではなく、既存のガレージドアオープナーを想定しています。 このプロジェクトでは、以下の AWS のサービスを使用します。 AWS DeepLens – Apache MXNet、TensorFlow、および Caffe […]

Read More

新情報 – VPC エンドポイント向け Amazon Simple Email Service (SES)

 チャットやメッセージングアプリケーションも広く普及しましたが、メールは最も投資利益率 (ROI) の高いユビキタスチャネルとして人気を維持しています。参入のハードルの低さ、価格の安さ、特定の受信者をターゲティングする機能が特徴です。組織のマーケティングおよび取引のメッセージがタイムリーに顧客に届き、より深いエンゲージメントを促進していることを確認するには、大規模なメール配信における専門知識を培ってきた、経験豊富で信頼できるメールサービスプロバイダーと連携する必要があります。 Amazon Simple Email Services (SES) は信頼性と柔軟性に富んだ手ごろな価格のメールサービスプロバイダーとして、2011 年から開発者およびデジタルマーケター向けにサービスを提供してきました。Amazon SES は、顧客とのやりとりにメールを使用しているあらゆる規模の企業に適した、信頼性が高く、コスト効率の良いサービスです。多くの企業が、機密性が高く、厳しいセキュリティポリシーを保持する業界に属しています。そのため AWS は Amazon SES のセキュリティおよびコンプライアンスの機能を強化しました。独自の RSA キーペアを使用した DKIM の設定、HIPAA 資格や FIPS 140-2 準拠のエンドポイントのサポート、地域拡大などが可能となりました。 このたび Amazon SES ユーザーは、AWS PrivateLink を使用した VPC エンドポイントを介して、安全かつ拡張可能な方法で、Virtual Private Cloud (VPC) から Amazon SES に直接接続できるようになりました。インターネットゲートウェイ、NAT デバイス、VPN 接続、または AWS Direct Connect 接続を使用せずに、VPC 経由で Amazon SES にアクセスできるようになりました。インターフェイス VPC エンドポイントを使用すると、VPC と Amazon […]

Read More

Amazon SageMaker Debugger を使った機械学習の説明可能性

 機械学習 (ML) は、金融サービス業界 (FSI) から製造、自律走行車、および宇宙探査にいたるまで、世界中の業界に影響を及ぼします。ML はもはや学術機関および研究機関限定の単なる野心的なテクノロジーではなくなり、あらゆる規模の組織に利益をもたらす主力テクノロジーへと進化しました。しかし、ML プロセスにおける透明性の欠如と、結果として生じるモデルのブラックボックス的な性質が、金融サービスおよびヘルスケアなどの業界における ML の導入を向上させる上での妨げとなっています。 ML モデルを開発するチームにとっては、ビジネス成果に対する予測の影響が増加するにつれて、モデル予測を説明する責任も増加します。たとえば、消費者には、説明がなくても ML モデルから推薦された映画を受け入れる傾向があります。消費者がその推薦に同意するかどうかはわかりませんが、モデル開発者が予測を正当化する必要性は比較的低くなります。これに対して、クレジットローンの申し込みが承認されるかどうか、または患者に投与する薬の量を ML モデルが予測する場合、モデル開発者はその予測を説明する責任を負い、「ローンが拒否されたのはなぜですか」または「この薬を 10 ㎎ 飲まなくてはならないのはなぜですか」といった質問に対応する必要があります。 トレーニングプロセスに対する可視性を得て、人に対する説明が可能な ML モデルの開発が重要なのはこのためです。 Amazon SageMaker は、開発者およびデータサイエンティストが、あらゆる規模の ML モデルを迅速かつ簡単に構築、トレーニング、およびデプロイすることを可能にする完全マネージド型サービスです。Amazon SageMaker Debugger は Amazon SageMaker の機能で、リアルタイムおよびオフラインでの分析のためのモデルトレーニングプロセスに対する可視性を自動的に提供します。Amazon SageMaker Debugger では内部モデルの状態が定期的な間隔で保存され、トレーニング中のリアルタイムでの分析、およびトレーニング完了後のオフラインでの分析の両方を行うことができます。Amazon SageMaker Debugger はモデルのトレーニング中に問題を識別し、トレーニングされたモデルが行う予測への洞察を提供します。Amazon SageMaker Debugger には一連の組み込みルールが備わっており、これらは一般的なトレーニング問題を検知し、トレーニングが成功する上で重要な一般的な状態をモニタリングします。また、トレーニングジョブをモニタリングするカスタムルールを作成することも可能です。 この記事では、ML の説明可能性、人気の説明可能性ツールである SHAP (SHapley Additive exPlanation)、および Amazon SageMaker Debugger との SHAP のネイティブな統合について説明します。この記事の一環として、Amazon SageMaker […]

Read More

Amazon SageMaker Studio で ML インスタンスをオンザフライで選択する方法

 アマゾン ウェブ サービス (AWS) は、Amazon SageMaker Studio 内で、ノートブックの一般提供を開始しました。Amazon SageMaker Studio は、機械学習 (ML) インスタンスタイプのオンザフライ選択、最適化されあらかじめパーケージ化された Amazon SagMaker イメージ、および Jupyter ノートブックの共有をサポートしています。作業を中断したりインフラを管理したりすることなく、例えば ml.t3.medium から ml.p3.2xlarge へ、あるカーネルを使用するインスタンスタイプのノートブックで、別のインスタンスタイプに切り替えることができます。インスタンスの移動はシームレスで、インスタンスの起動中も作業を継続できます。Amazon Sagemaker Studio ドメイン用に作成された Amazon Elastic File System (Amazon EFS) により、新しいインスタンスでノートブックとデータをすぐに利用できます。ドメイン内のすべてのユーザーは、EFS ボリューム上に作成されたホームディレクトリを取得します。 Amazon Sagemaker Studio でノートブックを使用 ML ワークフロー用に完全に統合された開発環境である Amazon SageMaker Studio を使用してノートブックにアクセスできます。Amazon SageMaker Studio のご利用を開始すると、さまざまなインスタンスタイプの柔軟姓を活用できるようになります。 次のスクリーンショットは、2 つのノートブックが並んで動作している様子を示しています。 左側のノートブックでは、2 vCPU と4 GiB のメモリを搭載するインスタンスを使用して、データサイエンス SageMaker […]

Read More

Amazon ECR のマルチアーキテクチャコンテナイメージの紹介

 コンテナは、クラウドアプリケーションの開発とデプロイにおける事実上の標準です。コンテナイメージでソフトウェアを公開すると、統合パッケージソリューション、バンドルソフトウェア、および必要なすべての依存関係をポータブルイメージ形式で開発者に提供します。このイメージはどこでも実行でき、デプロイメントにおけるインフラストラクチャ固有の側面を抽象化します。 ただし、どこでも実行できるということはお約束できます。一部のアプリケーションには、Linux と Windows の両方のサポートなど、特定のホストプラットフォームまたはオペレーティングシステムの要件があります。コンピューティングアーキテクチャは、別の変数です。特に EC2 で実行されている AWS Graviton ARM ベースのインスタンスで、その比率は優れた料金対パフォーマンスを備えています。今日まで、このようなコンテナイメージは、アーキテクチャ固有の命名規則を使用して Amazon ECR に公開およびデプロイする必要がありました。そのため、イメージライフサイクルの一部側面が複雑になりました。 本日、Amazon ECR のマルチアーキテクチャコンテナイメージを発表いたします。これは待望していた機能であり、同じイメージリポジトリから異なるアーキテクチャやオペレーティングシステムのコンテナイメージを簡単にデプロイできます。 内部のコンテナイメージ Amazon ECR は完全マネージド型のコンテナレジストリで、開発者はコンテナイメージを簡単に保存、管理、およびデプロイできます。高可用性かつスケーラブルで、簡単に使用できます。マルチアーキテクチャイメージの詳細を説明する前に、コンテナイメージ機能の基本的な側面について説明します。 「コンテナ」という用語は、プロセスを実行する分離済みコンピューティング環境を提供するための一連のオペレーティングシステムコンポーネント、コンピューティングリソース、および構成を指します。コンテナに指定されたリソースの 1 つが、そのファイルシステムです。コンテナイメージを参照する場合、このポータブル形式のファイルシステムと、参照するコンテナ構成およびその他のメタデータをご覧ください。Docker などの一般的なコンテナ開発ツールを使用すれば、開発者はソフトウェアまたはサービスと必要なすべての依存関係を含むコンテナイメージを作成できます。これにより、コンテナがポータブルなオプションになります。 コンテナイメージは、レイヤーとマニフェストといった 2 つのメイン部分で構成されます。各コンテナイメージには、ファイルシステムコンテンツの 1 つ以上のレイヤーがあります。マニフェストは、イメージを構成するレイヤー、およびそのランタイムの特性と構成を指定します。Docker のコンテナイメージ形式は、Docker イメージ仕様と関連するイメージマニフェスト仕様で定義されています。Open Containers Initiative は、ランタイムにとらわれない OCI イメージ仕様を定義しました。 Amazon ECR のようなイメージレジストリは、これらの仕様に準拠したイメージをリポジトリに格納し、特定の各イメージは 1 つ以上のタグによって参照されます。イメージは通常、イメージをプッシュおよびプルするときにソフトウェアやサービスのバージョンを指定する目的でタグ付けされます。これらすべてをまとめると、最初に Docker または別のコンテナランタイムで使用するコンテナイメージをプルしたとき、2 つの事像が起こります。最初に、指定されたイメージリポジトリとタグに基づいてマニフェストがローカルにプルされ、次に指定されたレイヤーからコンテナファイルシステムを組み立てるためにマニフェストが使用されます。 具体的な例として、docker inspect <image> コマンドを使用して、Docker 開発環境のローカルイメージのマニフェストを確認できます。ご覧のとおり、アーキテクチャやオペレーティングシステムなどのプラットフォーム特性は、イメージマニフェストによって明確に指定されています。では、さまざまなオペレーティングシステムやプラットフォームアーキテクチャに簡単にコンテナをデプロイするにはどうすればよいでしょうか。 今日まで、Amazon ECR のリポジトリにイメージを公開するとき、これらの特性をイメージタグで指定する必要がありました。または、同じソースからビルドされたプラットフォーム固有のイメージを独自のイメージリポジトリに保存することもできます。次に、コンピューティング環境に適したバージョンのイメージを明示的に参照して取得する必要があります。例: {aws-account-id}.dkr.ecr.{aws-region}.amazonaws.com/my-image-linux-arm64:2.7 […]

Read More