Amazon Web Services ブログ

AWS Localization

Author: AWS Localization

AWS Storage Gateway Recap &#8211、SMB サポート、RefreshCache イベント、その他

自分の言葉を引用すると、AWS Storage Gateway は、既存のアプリケーションと AWS クラウド間に位置するマルチプロトコルストレージアプライアンスを含むサービスです。アプリケーションは設定に応じてゲートウェイをファイルシステム、ローカルディスクボリューム、または仮想テープライブラリとして認識します。 本日は Storage Gateway のファイルゲートウェイ設定についての最新情報と、それに伴って可能になるいくつかの新しいプロセスモデルについても紹介します。まず、最新情報についてです。 SMB サポート – ファイルゲートウェイはすでに NFS (バージョン 3 と 4.1 がサポート済み) を使用するクライアントからのアクセスをサポートしています。先月、SMB (Server Message Block) プロトコルのサポートが追加されました。これによって、SMB の v2 または v3 を使用して通信を行う Windows アプリケーションはゲートウェイを介して S3 のオブジェクトとしてファイルを保存し、バックアップ、コンテンツの配布、機械学習処理、ビックデータワークロードなどのハイブリッドクラウドユースケースが可能になります。既存のオンプレミス AD (Active Directory) ドメインまたは AWS Directory Service でホストされているクラウドベースドメインを使用してゲートウェイへのアクセスを制御することも、認証されたゲストアクセスを使用することもできます。この最新情報の詳細については、「AWS Storage Gateway が SMB サポートを追加し、Amazon S3 バケットでのオブジェクトの保存とアクセスが可能に」を参照してください。 クロスアカウントアクセス許可 – 一部のお客様はある AWS アカウントでゲートウェイを実行し、これを別のアカウントを持つ S3 […]

Read More

Amazon SageMaker 線形学習者でマルチクラス分類器を構築する

Amazon SageMaker は、機械学習モデルのスケーラブルな訓練とホスティングのための完全マネージド型サービスです。Amazon SageMaker の線形学習者アルゴリズムにマルチクラス分類のサポートが追加されます。線形学習者は、広告のクリック予測、不正検出、またはその他の分類問題のロジスティック回帰や売上予測、配達時間の予測、または数値の予測を目的とした線形回帰などの線形モデルに利用できる API を既に提供しています。線形学習者を利用したことがない場合は、本アルゴリズムに関するドキュメントまたはこれまでのブログ投稿をご参考にして使い始めて下さい。Amazon SageMaker が初めての場合は、ここから始めて下さい。 このブログ記事では、マルチクラス分類を線形学習者で訓練する 3 つの側面について説明します。 マルチクラス分類器の訓練 マルチクラス分類メトリクス バランスの取れたクラス毎の重み付けを使った訓練 マルチクラス分類器の訓練 マルチクラス分類は、機械学習タスクの一つで、出力がラベルの有限集合に入ることで知られています。たとえば、電子メールを分類するには、それぞれに受信トレイ、仕事、ショッピング、スパムの中のいずれかのラベルを割り当てます。あるいは、顧客が shirt、mug、bumper_sticker、no_purchase の中から何を購入するかを予測しようとするかもしれません。それぞれの例が数値的な特徴や既に知っているカテゴリのラベルがある場合、マルチクラス分類器を訓練することができます。 関連する問題:バイナリ、マルチクラス、マルチラベル マルチクラス分類は、バイナリ分類およびマルチラベル問題の 2 つの機械学習タスクに関連します。線形学習者はすでにバイナリ分類をサポートしてましたが、マルチクラス分類も利用できるようになりました。ただし、マルチラベルサポートはまだサポートされてません。 データセットに可能性のあるラベルが 2 つしかない場合は、バイナリ分類問題になります。例としては、取引や顧客のデータに基づいて取引が不正であるかどうかを予測することや、写真から抽出された特徴に基づいて人が笑顔であるかどうかを検出することなどがあります。データセットの各例では、可能性のあるラベルの 1 つが正しく、もう 1 つが間違っています。その人物は笑顔なのか、笑顔でないのか。 あなたのデータセットに 3 つ以上の可能性のあるラベルがある場合、マルチクラス分類問題になります。たとえば、トランザクションが詐欺、キャンセル、返品、または通常どおりに完了するかどうかを予測します。また、写真の人物が笑っている、悩んでいるのか、驚いているのか、あるいは恐れているのかを検出することもできます。可能性のあるラベルは複数ありますが、一度に付けられる正しいラベルは 1 つだけです。 複数のラベルがあり、1 つの訓練サンプルに複数の正しいラベルがある場合は、マルチラベル問題になります。たとえば、既知のセットから画像にタグを付けるなどです。公園でフリスビーを追っている犬の画像は、屋外、犬、および公園でラベル付けするかもしれません。どんな画像でも、これらの 3 つのラベルがすべて真、すべてが偽、あるいは何らかの組み合わせになるはずです。マルチラベル問題のサポートはまだ追加されていませんが、現状の線形学習でマルチラベル問題を解決する方法がいくつかあります。ラベルごとに別々のバイナリ分類器を訓練することができます。または、マルチクラス分類器を訓練して、最上位クラスだけでなく、最上位の k クラス、または確率スコアがあるしきい値を超えるすべてのクラスを予測できます。 線形学習者は、softmax 損失関数を使用してマルチクラス分類器を訓練します。アルゴリズムは、各クラスの重みの集合を学習し、各クラスの確率を予測します。これらの確率を直接使用することができます。たとえば、電子メールを受信トレイ、仕事、ショッピング、スパムに分類して、クラスの確率が 99.99% を超える場合にのみスパムとしてフラグを立てるポリシーを検討します。しかし、多くのマルチクラス分類のユースケースでは、予測ラベルとして最も高い確率を持つクラスを取り上げます。 実例:森林被覆の種類を予測する マルチクラス予測の例として、Covertype データセット (著作権: Jock A. Blackard とコロラド州立大学) を見てみましょう。このデータセットには、米国地質調査所および米国森林局がコロラド州北部の荒野について収集した情報が含まれています。特徴を土壌タイプ、標高、水との距離などの測定値とし、ラベルを基に各場所の樹木の種類 (森林被覆の種類) […]

Read More

Amazon SageMaker で、物体検出アルゴリズムが利用可能に

Amazon SageMaker は、完全マネージド型で、拡張性が高い機械学習 (ML) プラットフォームであり、機械学習モデルの構築、トレーニング、デプロイを容易にします。これは、誰もが使える ML に向けた偉大な一歩であり、開発者が ML の領域へ入る際のバーを下げることができます。コンピュータビジョンは、画像を扱う機械学習の一つの分野です。Amazon SageMaker の画像分類アルゴリズムは、SageMaker が提供するより一般的なアルゴリズムの 1 つであり、画像をあらかじめ定義されたカテゴリのセットに分類することを学習します。 本日、Amazon SageMaker の物体検出 (OD) アルゴリズムを開始し、コンピュータビジョンの提供を強化します。物体検出は、画像内の物体を特定およびローカライズするプロセスです。このアルゴリズムは、物体が存在する画像上の境界ボックスを明らかにし、ボックスがどんな物体をカプセル化するかを識別することによって、さらに画像の分類を進めます。  カスタムクラスを含む独自のデータセットを使用してトレーニングする必要がない場合は、物体検出に Amazon Rekognition サービスを使用することもできることに注意してください。Amazon Rekognition は、あらかじめ定義されたクラスのセットから物体を識別できる API を提供します。Amazon SageMaker の物体検出アルゴリズムを使用すると、独自のデータセット/クラスを使用して学習するだけでなく、画像内の物体をローカライズすることもできます。 Amazon SageMaker の物体検出アルゴリズムの動作例写真提供 Mansoor、PEXELS Single-Shot Multi-Box Detector (SSD) は、このタスクを達成するためのより高速で正確なアルゴリズムの 1 つです。推論の間に 1 回のパスだけで、画像内の複数の物体を検出します。SageMaker が利用可能なすべてのリージョンで、Amazon SageMaker のお客様は SSD を組み込みアルゴリズムとして使用できるようになったことをお知らせします。このアルゴリズムは、以下の構成で P2/P3 インスタンスを使用してトレーニングすることができます。 シングルマシン、シングル GPU シングルマシン、マルチ GPU マルチマシン、マルチ GPU このアルゴリズムは、Amazon […]

Read More

Amazon SageMaker BlazingText を使用して強化されたテキスト分類と単語ベクトル

本日、Amazon SageMaker BlazingText アルゴリズム用のいくつかの新機能を発表します。感情分析、固有表現抽出、機械翻訳などの多くの下流工程での自然言語処理 (NLP) タスクではテキストデータを実数値ベクトルに変換する必要があります。お客様は数百ギガバイトのテキストドキュメントからこれらのベクトルを学習するために、BlazingText の高度に最適化された Word2Vec アルゴリズムの実装を使用してきました。 結果として得られるベクトルは、私たちが単語を読むときに認識する豊かな意味とコンテキストを捉えます。 BlazingText は fastText や Gensim のようなそれ以外に広く利用されているものより 20 倍以上高速であり、お客様は GPU や複数の CPU マシンを使用して数十億単語を含む独自のデータセットでこれらのベクトルをトレーニングできるため、これによって数日間かかっていたトレーニング時間を数分に短縮することができます。 これまでに BlazingText を使用して作業をしたことがない場合には、このアルゴリズムについて、ドキュメントや以前のブログ記事を参照することができます。 BlazingText には次の新機能と機能拡張が追加されました。 単語ベクトルにサブワード情報を持たせて豊かな表現にするための文字 n-gram のベクトル表現の学習。 私たちが用いるトレーニングデータセットでは、推論時に出現するすべての単語を持つことは不可能であるため、これらの単語をすべて無視したり、ランダムベクトルを使用するよりも、これらの単語の意味表現を生成する方がはるかに役立ちます。BlazingText は文字 n-gram (サブワード) ベクトルの和としてベクトルを表すことで、未定義 (OOV) 語の意味のあるベクトルを生成することが可能です。 高速マルチクラスとマルチラベルテキスト分類を実行する能力。 テキスト分類の目的は、テキスト文書を 1 つまたは複数の定義されたカテゴリー (スパム検出、感情分析、ユーザーレビュー分類) に自動的に分類することです。BlazingText は fastText テキスト分類器を拡張し、最適化された CUDA カーネルを使用して GPU アクセラレーションを活用します。深層学習テキスト分類モデル (Conneau et al., 2016, Zhang and LeCun (2015)) はトレーニングに数時間から数日かかることがありますが、BlazingText は同程度の精度を達成しながら […]

Read More

新 – Amazon EBS スナップショットのライフサイクル管理

単一の AWS サービスまたは機能の経緯に着目し、顧客からのフィードバックに応じて時間の経過と共にどのように進化したかを見ることは、常に興味深いことです。たとえば、Amazon Elastic Block Store (EBS) は 10 年前に始まり、それ以来、多くの特徴や機能を獲得しています。以下は、いくつかの最も重要なお知らせです。 2008 年 8 月 – 最大 1 TB のボリュームと S3 へのスナップショットをサポートする、プロダクション形式で EBS を開始しました。 2010 年 9 月 – EBS ボリュームにタグを付ける機能を追加しました。 2012 年 8 月 – EBS ボリュームのためのプロビジョンド IOPS を開始し、必要なパフォーマンスレベルでダイヤルインできるようにしました。 2014 年 6 月 – SSD-backed EBS ボリュームを作成できる機能を追加しました。 2015 年 3 月 – 最大 16 TB […]

Read More

Amazon Kinesis Video Streams に、HLS 出力ストリームのサポートを追加

Amazon Kinesis Video Streams (KVS) 用の HTTP Live Streams (HLS) に、新しい出力機能が追加されました。今日は、それをデモンストレーションしてみようと思います。KVS をよくご存知でないなら、Jeff が こちらのリリースで取り上げていますので、ご参照ください。このリリースは 2017 年の AWS re:Invent のためのものです。簡単に言うと、Amazon Kinesis Video Streams は、1 台あるいは数百万台のデバイスから、アナリティクスや機械学習用の動画を安全にキャプチャ、処理、および保存するサービスです。家庭用オートメーションやスマートシティと言ったものから、産業用オートメーションやセキュリティに至るまで、あらゆるものに電力を供給するため、機械学習アルゴリズムを使ったKinesis Video が利用されています。 お客様と意見をやり取りした後、この数か月で GStreamer のプラグイン 、一般的に普及しているオープンソースのマルチメディアフレームワーク、および Docker コンテナを含む数多くの機能を立ち上げました。これにより、Amazon Kinesis に動画をストリーミングすることが容易になりました。各新機能の詳しいご紹介はまた次の機会にして、今日は、新しい HLS 出力機能についてご説明したいと思います。このブログ投稿では、ひどく散らかった私のオフィスの写真をいくつか載せていますことをご了承ください。 HLS 出力は、Amazon Kinesis Video Streams の HLS エンドポイントを作成するのに便利な新機能です。ライブおよびオンデマンド動画を再生するカスタム UI やツールを構築するのに役立ちます。HLS ベースの再生機能は完全マネージド型のため、受信メディアを多重化するためのインフラストラクチャを構築する必要はありません。新しい GetHLSStreamingSessionURL API を使って、新規のストリーミングセッションを ( 現在のところ ) 最大 5 […]

Read More

AWS re:Invent 2018 がもうすぐ開催 – 準備はいいですか?

この記事を書いている時点で、re:Invent 2018 開催まであと 138 日になりました。イベントチームの同僚たちは、全てのお客様がラスベガスで最高の経験ができるよう、総力を尽くしています。同僚とのミーティング後、この投稿を書くことにしたのは、お客様が会場にあるものをもっと理解し、何を期待できるかが分かり、お客様の方で計画と準備を進めることができるのでは、と思ったからです。 規模を考える このイベントの規模に関する課題について、考えることから始めました。2017 年のイベントには、約 43,000 人 (AWS のお客様、パートナー、報道関係者、業界アナリスト、AWS 従業員を含めて) が参加しました。クラウドアーキテクチャで使われるスケーリングの原則やベストプラクティスを数多く、このような大規模で複雑なイベントで重要となる物理的、ロジスティック的、そしてコミュニケーション上で生じる課題に対して適用しています。 場所の移動をもっと楽にしたいと同時に、そうする必要性自体を減らそうと考えています。私たちチームが現在行っていることは、次のようなものです。 キャンパスシャトル – 2017 年には、何百ものバスが数ある re:Invent の会場間を往復しました。その結果、運行系統に大幅な遅延が発生して、満足いくものではありませんでした。2018 年は、車両の数を増やし、直通だったバスを各停車場を巡る各停のものにし、さらにそれぞれの会場にはピックアップおよびドロップオフポイントを作りました。これで、行きたい場所へひとっ飛びです。 ライドシェアリング – Lyft と Uber (両社とも AWS をご利用くださっています) の協力の下、他にも交通手段をご用意しています (現在準備中ですが、アプリをダウンロードできます)。ラスベガスモノレールとタクシー会社にも協力いただいて、さらにはテレポーテーションサービスも現在準備していますが、開催に間に合うかどうかは未定です。 セッションアクセス – 複数の re:Invent 会場にまたがるしっかりとした予備スペースシステムも設置中で、人気の高いセッションを複数の会場で繰り返し行うことが可能となっています。 モバイルアプリの改善 – re:Invent のモバイルアプリはさらに使い勝手がよくなり、位置認識も行えるようになりました。空席のあるセッションを見つけたり、近くで何が行われているか、さらにはシャトルや他の交通手段を知らせてくれます。 みんなのためのもの re:Invent を参加者の皆様全員を暖かく歓迎する場所にし、斬新かつ開放的なビジネスやソーシャルのためのイベントにしたいと考えています。会場でのプランを少しお見せしましょう。 4 キロと 8 キロのチャリティファンラン – ファンランで一日を始めましょう。このイベントは Girls Who Code をサポートしています。 We […]

Read More

Discover Financial Services が Amazon SageMaker で動作する Robocar イベントで機械学習を活用

AWS re:Invent に参加した Discover Financial Services (DFS) のチームメンバーが、Robocar Rally はインパクトがきわめて強いイベントだったと語りました。Discover のコアチームのメンバー 6 名はこのハッカソンに参加し、機械学習 (ML) および AWS に関する深層学習を使用したハンズオン体験をしました。彼らにとってその楽しい時間は、永く記憶に残るものとなりました!Discover の Cloud Center of Excellence (CCoE) はのちに、ある 1 つのアイデアを提案しました。それは、「Discover 本社のオンサイトで同じイベントを再現してみよう」というものです。Discover CCoE にはそのリーダーシップおよびデータサイエンスチームをもって機械学習実験の現状にインパクトを与えるために、AWS AI/ML サービスに対する認識を高めようという目標がありました。そのイベントが実現するのに、2 か月半かかっていません。 チーム編成 Discover はイベント開催中にチームあたり 6 名からなる 6 チームを編成し、ハッカソンに参加して、1 対 1 で直接競わせました。Discover は多数の事業領域にわたる多様な縮図を体現しています。これが開発者からセキュリティ専門家にいたる混合環境を構築しており、そこには機械学習の関係者も含まれます。チーム規模およびチーム数は、カスタマーの関心と過去の Robocar Rally のイベントから継承されてきた知見をすり合わせた結果としてそうなりました。 Robocar の役割 AWS はこのイベント運営および各チームメンバーに対する戦略的な役割分担を目指して、規範的なアプローチを使用しました。 ドライバー: モデルのトレーニング中はクリーンデータの収集を確保しながら、車両を管理し、イベント開催中は Robocar を管理します。 Robo […]

Read More

AWS PrivateLink を使用した Amazon SageMaker で、セキュアな予測呼び出し

Amazon SageMaker が AWS PrivateLink を使用した Amazon Virtual Private Cloud (VPC) エンドポイントをサポートすることになりました。これで、インターネットに頼ることなく、ユーザーの VPC 内の Amazon SageMaker にホスティングされた機械学習モデルの予測呼び出しを開始できます。 Amazon SageMaker は、開発者やデータサイエンティストが、機械学習モデルをあらゆる規模で、迅速かつ簡単に構築、トレーニング、デプロイできるようにする完全マネージド型プラットフォームです。機械学習モデルは Amazon SageMaker を使用して実稼働状態にデプロイされると、ユーザーのアプリケーションにセキュアな HTTPS エンドポイントを設定します。予測の低いレイテンシーおよび高いスループットを達成するために、アプリケーションに求められるのは SageMaker Runtime API を使用することのみとなりました。AWS PrivateLink をサポートすることで、SageMaker Runtime API はインターネットで接続するのではなく、VPC 内のインターフェイスエンドポイントから呼び出しが可能になります。クライアントアプリケーションと SageMaker Runtime API の間での通信は VPC 内で行われるので、インターネットゲートウェイ、NAT デバイス、VPN 接続、AWS Direct Connect は必要ありません。 AWS コマンドラインインターフェイス (AWS CLI) のコマンドまたは AWS マネジメントコンソールを使用して、SageMaker Runtime に接続するための […]

Read More

Amazon SageMaker で主成分分析を実行する

主成分分析 (PCA) は、主に株式市場の予測から医用画像分類に至るまで数多くのアプリケーションの次元削減のために、データ科学者が使用する非常に一般的な手法です。PCA のその他の用途としては、ノイズ除去および特徴抽出があります。また、PCA は、探索的データ解析ツールとしても使用されます。 PCA をよりよく理解するために、トラックのプロパティで構成されるデータセットの例を考えてみましょう。これらのプロパティは、色、サイズ、コンパクトさ、座席数、ドア数、トランクのサイズなどによってそれぞれのトラックを記述します。測定されるこれらの特徴の多くは重複しているため、こうした重複を取り除き、より少ないプロパティでそれぞれのトラックを説明する必要があります。これが、まさに PCA が目指すものです。 このブログ記事では、カリフォルニア大学アーバイン校のアイリス (あやめ) 標準データセットで実行されている PCA を使用して、Jupyter ノートブックのコードの簡単な例で PCA の基本を紹介し、次に Amazon SageMaker 環境で動作する PCA を紹介します。Amazon SageMaker を使用するメリットのいくつかを指摘します。 PCA とは? PCA は、できるだけ多くの情報を保持しながら、d 個の特徴を p << d 個の特徴に圧縮する技術です。PCA のための古典的なデモンストレーションは、画像で行われます。白黒画像は、各ピクセルのグレースケールを決定する整数の n X d の行列として表すことができます。PCA は、圧縮された画像が元の画像とほぼ同じに見えるように、nd 個ではなく、(n+d) p 個で保存できるマトリックスによる低ランクの表現を提供します。機械学習 (ML) の文脈では、PCA は次元削減技術ということになります。特徴の数が多い場合、ML アルゴリズムには過剰適合のリスクがあるか、トレーニングに時間がかかりすぎることになります。そのために、PCA は入力の次元を減らすことができます。PCA が次元を減らす方法は、相関関係に基づいています。2 つの特徴が相関していて、一方の値が与えられると、もう一方の値について知識を使って推測することができます。p をターゲットの次元とする PCA は、これらの線形関数が元の d 個の特徴を最も正確に予測するような p […]

Read More