Amazon Web Services ブログ

Julien Simon

Author: Julien Simon

As an Artificial Intelligence & Machine Learning Evangelist for EMEA, Julien focuses on helping developers and enterprises bring their ideas to life.

Amazon SageMaker Processing – 完全マネージド型のデータ処理とモデル評価

本日、フルマネージドインフラストラクチャで前処理、後処理、およびモデル評価のワークロードを簡単に実行できる、Amazon SageMaker の新機能、Amazon SageMaker Processing をリリースいたしました。 高精度な機械学習 (ML) モデルをトレーニングするにはさまざまな手順を踏む必要がありますが、中でもデータセットの前処理が最も重要となるでしょう。たとえば: 使用中の ML アルゴリズムに合う入力形式にデータセットを変換する、 既存の特徴をより表現力のある表現 (one-hot エンコーディングカテゴリ別特徴など) に変換する、 数値特徴を再スケーリングまたは正規化する、 高レベル特徴量エンジニアリングを行う (例: 住所を GPS 座標に置き換える)、 自然言語処理アプリケーションのテキストをクリーニングし、トークン分割する、 などなど! これらのタスクは、(とても大変な) データセットに対する特注スクリプトの実行と、後でトレーニングジョブで使用する処理済みバージョンの保存を伴います。ご想像のとおり、それらを手動で実行したり、オートメーションツールを構築およびスケールしたりする必要があることを考えると、ML チームは気が重くなります。後処理ジョブ (フィルタリングや照合など) やモデル評価ジョブ (さまざまなテストセットに対するモデルのスコアリング) についても同じことが言えます。 この問題を解決するために、私たちは Amazon SageMaker Processing を構築しました。それでは、詳細を説明しましょう。 Amazon SageMaker Processing のご紹介 Amazon SageMaker Processing には、データサイエンティストと ML エンジニアが Amazon SageMaker で前処理、後処理、およびモデル評価ワークロードを簡単に実行できる新式の Python SDK が導入されています。 この SDK では […]

Read More

Deep Graph Library が Amazon SageMaker で利用可能に

本日ここに、グラフニューラルネットワークを簡単に実装できるよう構築されたオープンソースライブラリ、Deep Graph Library が、Amazon SageMaker で利用可能になったことをお知らせします。 近年、自由形式のテキスト、画像、動画など、複雑なデータから詳細なパターンを抜き出すことができる、驚異的な性能の深層学習が世界に旋風を巻き起こしています。しかし、多くのデータセットはこれらのカテゴリーに当てはまらないため、グラフの方がわかりやすく表すことができます。 畳み込みニューラルネットワークや再帰型ニューラルネットワークのような、従来のニューラルネットワークのアーキテクチャは、そのようなデータセットに適していないことは直感的にも感じられ、新しいアプローチが必要となります。 グラフニューラルネットワークの初歩 グラフニューラルネットワーク (GNN) は、今日の機械学習におけるもっとも画期的な発展事項です。手始めに、これらの参考資料をご覧になるとよいでしょう。 GNN は、以下のような予測モデルのトレーニングに使用されています。 ソーシャルネットワーク。関連する利用者同士のつながりをグラフ化 推奨システム。顧客とアイテムの間のやり取りをグラフ化 化学分析。原子や結合をグラフ化して化合物のモデルを作成 サイバーセキュリティ。発信元と発信先の IP アドレスの接続状況をグラフ化で説明 その他多数のモデル ほとんどの場合、これらのデータセットは非常に大きく、部分的なラベル付けしかできません。ある個人から既知の不正を行う者への接続状況を分析することで、その個人が不正を行っている可能性を予測する、不正行為検出シナリオを考えてみましょう。この問題は、グラフノードの一部のみがラベル付けされる (「不正」か「正当」)、半教師あり学習タスクとして定義できます。これは大きなデータセットを手作業のラベル付けにより構築し、「線形化」して従来の機械学習アルゴリズムに適用するよりも良いソリューションになるはずです。 これらの問題に対処するためには、分野の専門知識 (小売、財務、化学など)、コンピューターサイエンスの知識 (Python、深層学習、オープンソースツール)、インフラストラクチャの知識 (トレーニング、デプロイ、モデルのスケーリング) が必要です。これらのスキルをすべてマスターしている人はごくわずかです。それが Deep Graph Library や Amazon SageMaker のようなツールが必要とされる理由です。 Deep Graph Library の紹介 2018 年 12 月に Github で初めてリリースされた Deep Graph Library (DGL) は Python のオープンソースライブラリーで、研究者や科学者がデータセットの GNN を迅速に構築、トレーニング、評価するのに役立ちます。 DGL は、PyTorch […]

Read More

AWS DeepComposer – 生成的な機械学習モデルを使用して音楽を作成する

本日、世界初の機械学習対応のミュージカルキーボードである AWS DeepComposer を発表します。読み間違えではありません。 機械学習 (ML) には、数学、コンピューターサイエンス、コード、およびインフラストラクチャの知識がかなり必要です。これは非常に重要なことですが、意欲的な ML 開発者の多くは圧倒され、時には (あえて言うと) 退屈に感じさえするでしょう。 誰もが実用的な ML について学び、それを楽しんでいただけるように、ML を搭載したデバイスをいくつか導入しました。AWS re:Invent 2017 では、世界初の深層学習対応カメラである AWS DeepLens を導入し、開発者がコンピュータービジョンの ML について学習できるようにしました。昨年は、AWS DeepRacer を発売しました。これは強化学習によって駆動する完全に自立型の 1/18 スケールのレーシングカーです。今年、当社はそのバー (水準) をババッと引き上げます (駄洒落をお許しください)。 AWS DeepComposer の紹介 AWS DeepComposer は、開発者が事前トレーニング済みのモデルまたは独自のモデルで Generative AI を使用できるように設計された 32 キー、2 オクターブのキーボードです。 デバイスが入手できるようになったときに E メールを受信するリクエストを行うことも、AWS コンソールで仮想キーボードを使うこともできます。 以下はその詳細な説明です。 DeepComposer コンソールにログインし、 短い曲を録音するか、あらかじめ録音された曲を使用し、 お気に入りのジャンルの生成モデルを選択し (事前トレーニング済みまたは独自のもの)、 このモデルを使用して、新しいポリフォニックコンポジションを生成し、 コンソールでコンポジションを再生し、 コンポジションをエクスポートするか、SoundCloud […]

Read More

Amazon Transcribe Medical – ヘルスケア顧客向けのリアルタイム自動音声認識

2017 年、Amazon Transcribe がローンチされました。これは、開発者がアプリケーションに Speech-to-Text 機能を簡単に追加できるようにする自動音声認識サービスです。今日、Amazon Transcribe Medical で医療音声に拡張できることを非常に嬉しく思います。 私が子供の頃、両親は両方とも医師でしたが、秘書が後でタイプしてアーカイブできるように、夜はよくマイクロカセットレコーダーを使って手紙や試験報告書を記録していました。それはかなり前のことでしたが、ウィスコンシン大学とアメリカ医師会による 2017 年の調査によると、米国のプライマリケア医は 1 日 6 時間を電子医療記録 (EHR) システムの医療レポートへの入力に費やしているということです。EHR は現在、医療従事者の標準要件となています。 医師に紙のレポートに戻るべきだと主張する人は誰もいないと思います。デジタルデータを扱う方がはるかに効率的です。それでも、長時間かかるこれらの管理業務を軽減することはできるでしょうか? 浮いた時間を、患者を診たり、病院で多忙な一日を過ごした後の休憩に余分に当てたりした方がいいことに疑いはありません。 Amazon Transcribe Medical の紹介 Amazon Transcribe Medical のおかげで、医師は人間の介入なしに、臨床メモを簡単かつ迅速に口述し、音声を正確なテキストにリアルタイムで変換できるようになりました。臨床医は自然に話すことができ、「点」や「丸」といった句読点を明示的に発声する必要はありません。このテキストは、EHR システムなどのダウンストリームアプリケーション、またはエンティティ抽出のために などの AWS 言語サービスに自動的に送信できます。 完全マネージドサービスの精神で、Transcribe Medical はインフラストラクチャの作業から解放され、実際に使用した分だけ支払うだけで簡単にスケーリングできます。高価なライセンスの初期費用は発生しません! ご想像のとおり、Transcribe Medical も HIPAA に準拠しています。 技術的な観点からは、操作はデバイスのマイクを使用して音声をキャプチャし、一般的な Websocket プロトコルに基づいて PCM 音声をストリーミング API に送信することだけです。この API は、書き起こされたテキスト、および文字レベルのタイムスタンプと句読点などとともに、一連の JSON ブロブで応答します。オプションで、このデータを Amazon Simple Storage […]

Read More

AWS Systems Manager Explorer – マルチアカウント、マルチリージョン対応のオペレーションダッシュボード

アマゾン ウェブ サービスは 2006 年以来、IT インフラストラクチャの簡略化に努力してきました。Amazon Elastic Compute Cloud (EC2)、Amazon Simple Storage Service (S3)、Amazon Relational Database Service (RDS)、AWS CloudFormation など多数のサービスのおかげで、数百万ものお客様が AWS リージョンであればどこでも信頼性の高いスケーラブルでセキュアなプラットフォームをわずか数分で構築できるようになりました。10 年にわたって多数のハードウェアを調達、デプロイ、管理してきましたが、AWS のサービスを使用してビルダーたちが成し遂げてきたイノベーションのペースには毎日驚くばかりです。 巨大なパワーには巨大な責任が伴います。AWS リソースを作成したその瞬間に、セキュリティのほかにコストやスケーリングに対する責任が生じます。何よりもモニタリングとアラートが重要となるため、Amazon CloudWatch、AWS Config、AWS Systems Manager などのサービス展開のきっかけになりました。 ところが、お客様は、作成したアカウントやリージョンに関係なく、1 つのダッシュボードで AWS リソースに起こる可能性のある問題を一覧表示できればオペレーションがもっと簡単になることを期待されていました。 そこで、さっそく着手しました。そして本日ここに、Systems Manager の一元管理オペレーションダッシュボードである AWS Systems Manager Explorer の提供開始をお知らせします。 AWS Systems Manager Explorer のご紹介 EC2、Config、CloudWatch、Systems Manager からモニタリング情報やアラートを収集する AWS Systems Manager Explorer […]

Read More

現在利用可能: Amazon Personalize のバッチレコメンド

本日、Amazon Personalize がバッチレコメンドをサポートするようになったことをお知らせいたします。 AWS re:Invent 2018 にて開催された Personalize は機械学習の経験をほとんど必要とせずに、アプリケーション用に個人にカスタマイズしたレコメンドを作成できる完全マネージド型サービスです。 Personalize ではオプションで顧客の人口統計情報 (年齢、場所など) だけでなく、アクティビティデータ (ページ閲覧数、サインアップ、購入など) を独自に表示します。次に、記事、製品、ビデオ、音楽など、レコメンドする項目のインベントリを提供します。以前のブログ記事で説明したように、Amazon Simple Storage Service (S3) に保存された履歴データと、JavaScript トラッカーまたはサーバー側からリアルタイムで送信されたストリーミングデータの両方を使用できます。 さらに Personalize はデータの処理と検証、重要なものの特定、正しいアルゴリズムの選択、データに合わせてカスタマイズし API を介してアクセス可能なパーソナライゼーションモデルのトレーニングと最適化を行います。これによってお客様のビジネスアプリケーションを簡単に呼び出すことができます。 ただし、一部のお客様からは、バッチのレコメンドがユースケースにより適しているとの声が寄せられています。たとえば、非常に多数のユーザーまたは項目に対するレコメンド事項を一度に計算し、それらを保存して、電子メールや通知送信などのバッチ指向のワークフローに時間をかけてフィードする機能が必要な場合があります。そのような方法を使うこともできますが、リアルタイムのレコメンドエンドポイントを使用すると、バッチ処理がより便利になり、費用対効果が高まります。 簡単なデモを見てみましょう。 バッチレコメンド事項の紹介 簡単にするために、この投稿でトレーニングされた映画のおすすめソリューションを MovieLens データセットで再利用します。ここでは、このソリューションに基づいてリアルタイムキャンペーンをデプロイする代わりに、バッチレコメンドジョブを作成します。 まず、映画をおすすめしたいユーザーを定義しましょう。S3 バケットに保存する JSON ファイルにユーザー ID を表示しただけです。 {“userId”: “123”} {“userId”: “456”} {“userId”: “789”} {“userId”: “321”} {“userId”: “654”} {“userId”: “987”} 次に、そのバケットにバケットポリシーを適用して、Personalize がバケット内のオブジェクトを読み書きできるようにします。ここでは AWS コンソールを使用していますが、PutBucketAcl API […]

Read More

新しい C5d インスタンスのサイズとベアメタル インスタンスをいますぐ使用可能

Amazon EC2 C5 インスタンスは、バッチ処理、分散型アナリティクス、ハイパフォーマンスのコンピューティング、機械 / 深層学習推論、ad サーブ、高度にスケーラブルなマルチプレイヤーゲーミング、ビデオエンコーディングなどのような計算負荷の高いワークロードに対して非常に一般的です。 2018 年には、非常に高速なローカル NVMe ストレージを追加し、これらの新しいインスタンスを C5d と名付けました。ビデオエンコード、イメージ操作、その他の形式のメディア処理など、高速で低レイテンシーのローカルストレージへのアクセスを必要とするアプリケーションに最適です。また、バッチ処理やログ処理など、データの一時的な保存を必要とするアプリケーションや、キャッシュやスクラッチファイルを必要とするアプリケーションにも役立ちます。 ほんの数週間前に、新しいインスタンスサイズと C5 インスタンスのベアメタルオプションをリリースしました。今は C5d ファミリーに 12xlarge、24xlarge、およびベアメタルオプションなど、同じ機能を追加できます。 新しい C5d インスタンスサイズは、持続的な全コアターボ周波数 3.6 GHz、最大シングルコアターボ周波数 3.9 GHzの Intel の第二世代 Xeron スケーラブルプロセッサ (コード名 Cascade Lake) で実行されます。 新しいプロセッサはまた、 AVX-512 インストラクションセットに基づいた Intel Deep Learning Boost と呼ばれる新機能も備えています。新しいベクトルニューラルネットワークのインストラクション (AVX-512 VNNI) のおかげで、深層学習フレームワークは、畳み込みなどの代表的な機械学習操作をスピードアップし、自動的に広域ワークロードでの推論性能を改善します。 これらのインスタンスは、AWS Nitro System を基礎としており、EBS 処理 (暗号化操作を含む) の専用ハードウェアアクセラレーター、各 Virtual Private Cloud […]

Read More

Amazon SageMaker で EC2 P3dn GPU インスタンスをご利用いただけるようになりました

ここ数年、深層学習の急速な台頭によって、皮膚がんの発見 (SkinVision) および自動運転車 (TuSimple) などの素晴らしいアプリケーションが実現されました。ニューラルネットワークのおかげで、深層学習にはまさに、大量の非構造データ (画像、動画、自由形式テキストなど) から複雑なパターンを抽出し、モデル化する並外れた能力があります。 しかし、これらのニューラルネットワークのトレーニングには、同じく大量のコンピューティングパワーも必要です。グラフィック処理ユニット (GPU) にその能力があることは長年実証済みで、AWS のお客様は、Amazon Elastic Compute Cloud (EC2) の P2 および P3 インスタンスを使用し、特に AWS の完全マネージド型でモジュラー設計の機械学習サービスである Amazon SageMaker においてそのモデルをトレーニングすることができる方法を素早く理解しました。 本日は、p3dn.24xlarge と名付けられた最大規模の P3 インスタンスが Amazon SageMaker でのモデルトレーニングに利用できるようになったことをお知らせしたいと思います。去年ローンチされたこのインスタンスは、大規模で複雑な分散型トレーニングジョブを迅速化するために設計されており、他の P3 インスタンスと比べて 2 倍の GPU メモリ、50% 増の vCPU、超高速のローカル NVMe ストレージ、および 100 Gbit のネットワーキングを備えています。 では、これをAmazon SageMaker で試してみませんか? Amazon SageMaker での EC2 P3dn インスタンスの導入 Caltech-256 […]

Read More

今すぐ利用可能: ベアメタル Arm ベースの EC2 インスタンス

 AWS re:Invent 2018 では、Arm ベースの AWS Graviton プロセッサを搭載した、Amazon Elastic Compute Cloud (EC2) インスタンスの新しいライン、A1 ファミリーを発表しました。このファミリーは、ウェブフロントエンド、コンテナ化されたマイクロサービス、キャッシングフリートなどのスケールアウトワークロードに最適です。コンピューティングオプションの選択肢を拡大することにより、A1 インスタンスは、お客様が適切なアプリケーションに適切なインスタンスを使用するのを支援し、最大 45% のコスト削減を実現します。さらに、A1 インスタンスにより、Arm 開発者はクラウド内の Arm ベースのインフラストラクチャ上でネイティブにビルドおよびテストできます。クロスコンパイルやエミュレーションはもはや不要です。 今日、ベアメタルオプションで A1 ファミリーを拡大します。 A1 のベアメタル インスタンス名 論理プロセッサ メモリ EBS最適化帯域幅 ネットワーク帯域幅 a1.metal 16 32 GiB 3.5 Gbps 10Gbpsまで 既存のベアメタルのインスタンス (M5、M5d、R5、R5d、z1d など) と同様に、お使いのオペレーティングシステムは、プロセッサに直接アクセスする既存のハードウェアで直接実行されます。 以前のブログ投稿で説明されているとおり、次のようなアプリケーションにベアメタルのインスタンスを利用することができます。 物理的なリソースと低レベルなハードウェア機能にアクセスが必要。仮想化された環境で使用可能または完全なサポートを常に必要としないパフォーマンスカウンターなど、 ハードウェアで直接実行されることを目的とするか、仮想化されていない環境で使用するためにライセンスまたはサポートされている ベアメタルインスタンスでは、Elastic Load Balancing、Auto Scaling、Amazon CloudWatch、および AWS のその他サービスを利用することもできます。 A1 インスタンスの使用 […]

Read More

最大 100 Gbps のネットワーキングを備えた新しい M5n および R5n EC2 インスタンス

 AWS のお客様は、Amazon EC2 で要求の厳しいアプリケーションを構築しています。お客様にできる限りのサポートをするために、その要求に耳を傾け、仕事をし、新しい機能を考え出しています。たとえば、2018 年、Amazon EC2 C5 インスタンスのネットワーク機能をアップグレードし、最大 100 Gbps のネットワーキングとパケット処理パフォーマンスの大幅な改善を実現しました。これらは、新しい仮想化テクノロジー (別名: AWS Nitro System)、および Elastic Fabric Adapter によって可能になり、100 Gbps ネットワーキングプラットフォームで低レイテンシーを実現しています。 この利点を最も広範なワークロードに拡張するために、同じネットワーキング機能が Amazon EC2 M5 および R5 インスタンスの両方で利用できるようになったことをお知らせします。 Amazon EC2 M5n および M5dn インスタンスの紹介 Amazon EC2 の初期の頃から、M ファミリーが汎用ワークロードの一般的な選択肢でした。新しい M5(d)n インスタンスはこの伝統を支持し、改善されたネットワークスループットとパケットレートパフォーマンスを活用できるデータベース、ハイパフォーマンスコンピューティング、分析、キャッシングフリートに最適です。 次のチャートに、新しいインスタンスとその仕様を示します。各 M5(d) インスタンスサイズには、上記のアップグレードされたネットワーク機能をサポートする M5(d)n の対応物が追加されました。たとえば、通常の m5(d).8xlarge インスタンスには 10 Gbps のネットワーク帯域幅がありますが、m5(d)n.8xlarge 兄弟は 25 Gbps になります。行の先頭の […]

Read More