Amazon Web Services ブログ

Amazon SageMaker 線形学習者でマルチクラス分類器を構築する

Amazon SageMaker は、機械学習モデルのスケーラブルな訓練とホスティングのための完全マネージド型サービスです。Amazon SageMaker の線形学習者アルゴリズムにマルチクラス分類のサポートが追加されます。線形学習者は、広告のクリック予測、不正検出、またはその他の分類問題のロジスティック回帰や売上予測、配達時間の予測、または数値の予測を目的とした線形回帰などの線形モデルに利用できる API を既に提供しています。線形学習者を利用したことがない場合は、本アルゴリズムに関するドキュメントまたはこれまでのブログ投稿をご参考にして使い始めて下さい。Amazon SageMaker が初めての場合は、ここから始めて下さい。 このブログ記事では、マルチクラス分類を線形学習者で訓練する 3 つの側面について説明します。 マルチクラス分類器の訓練 マルチクラス分類メトリクス バランスの取れたクラス毎の重み付けを使った訓練 マルチクラス分類器の訓練 マルチクラス分類は、機械学習タスクの一つで、出力がラベルの有限集合に入ることで知られています。たとえば、電子メールを分類するには、それぞれに受信トレイ、仕事、ショッピング、スパムの中のいずれかのラベルを割り当てます。あるいは、顧客が shirt、mug、bumper_sticker、no_purchase の中から何を購入するかを予測しようとするかもしれません。それぞれの例が数値的な特徴や既に知っているカテゴリのラベルがある場合、マルチクラス分類器を訓練することができます。 関連する問題:バイナリ、マルチクラス、マルチラベル マルチクラス分類は、バイナリ分類およびマルチラベル問題の 2 つの機械学習タスクに関連します。線形学習者はすでにバイナリ分類をサポートしてましたが、マルチクラス分類も利用できるようになりました。ただし、マルチラベルサポートはまだサポートされてません。 データセットに可能性のあるラベルが 2 つしかない場合は、バイナリ分類問題になります。例としては、取引や顧客のデータに基づいて取引が不正であるかどうかを予測することや、写真から抽出された特徴に基づいて人が笑顔であるかどうかを検出することなどがあります。データセットの各例では、可能性のあるラベルの 1 つが正しく、もう 1 つが間違っています。その人物は笑顔なのか、笑顔でないのか。 あなたのデータセットに 3 つ以上の可能性のあるラベルがある場合、マルチクラス分類問題になります。たとえば、トランザクションが詐欺、キャンセル、返品、または通常どおりに完了するかどうかを予測します。また、写真の人物が笑っている、悩んでいるのか、驚いているのか、あるいは恐れているのかを検出することもできます。可能性のあるラベルは複数ありますが、一度に付けられる正しいラベルは 1 つだけです。 複数のラベルがあり、1 つの訓練サンプルに複数の正しいラベルがある場合は、マルチラベル問題になります。たとえば、既知のセットから画像にタグを付けるなどです。公園でフリスビーを追っている犬の画像は、屋外、犬、および公園でラベル付けするかもしれません。どんな画像でも、これらの 3 つのラベルがすべて真、すべてが偽、あるいは何らかの組み合わせになるはずです。マルチラベル問題のサポートはまだ追加されていませんが、現状の線形学習でマルチラベル問題を解決する方法がいくつかあります。ラベルごとに別々のバイナリ分類器を訓練することができます。または、マルチクラス分類器を訓練して、最上位クラスだけでなく、最上位の k クラス、または確率スコアがあるしきい値を超えるすべてのクラスを予測できます。 線形学習者は、softmax 損失関数を使用してマルチクラス分類器を訓練します。アルゴリズムは、各クラスの重みの集合を学習し、各クラスの確率を予測します。これらの確率を直接使用することができます。たとえば、電子メールを受信トレイ、仕事、ショッピング、スパムに分類して、クラスの確率が 99.99% を超える場合にのみスパムとしてフラグを立てるポリシーを検討します。しかし、多くのマルチクラス分類のユースケースでは、予測ラベルとして最も高い確率を持つクラスを取り上げます。 実例:森林被覆の種類を予測する マルチクラス予測の例として、Covertype データセット (著作権: Jock A. Blackard とコロラド州立大学) を見てみましょう。このデータセットには、米国地質調査所および米国森林局がコロラド州北部の荒野について収集した情報が含まれています。特徴を土壌タイプ、標高、水との距離などの測定値とし、ラベルを基に各場所の樹木の種類 (森林被覆の種類) […]

Read More

Amazon SageMaker で、物体検出アルゴリズムが利用可能に

Amazon SageMaker は、完全マネージド型で、拡張性が高い機械学習 (ML) プラットフォームであり、機械学習モデルの構築、トレーニング、デプロイを容易にします。これは、誰もが使える ML に向けた偉大な一歩であり、開発者が ML の領域へ入る際のバーを下げることができます。コンピュータビジョンは、画像を扱う機械学習の一つの分野です。Amazon SageMaker の画像分類アルゴリズムは、SageMaker が提供するより一般的なアルゴリズムの 1 つであり、画像をあらかじめ定義されたカテゴリのセットに分類することを学習します。 本日、Amazon SageMaker の物体検出 (OD) アルゴリズムを開始し、コンピュータビジョンの提供を強化します。物体検出は、画像内の物体を特定およびローカライズするプロセスです。このアルゴリズムは、物体が存在する画像上の境界ボックスを明らかにし、ボックスがどんな物体をカプセル化するかを識別することによって、さらに画像の分類を進めます。  カスタムクラスを含む独自のデータセットを使用してトレーニングする必要がない場合は、物体検出に Amazon Rekognition サービスを使用することもできることに注意してください。Amazon Rekognition は、あらかじめ定義されたクラスのセットから物体を識別できる API を提供します。Amazon SageMaker の物体検出アルゴリズムを使用すると、独自のデータセット/クラスを使用して学習するだけでなく、画像内の物体をローカライズすることもできます。 Amazon SageMaker の物体検出アルゴリズムの動作例写真提供 Mansoor、PEXELS Single-Shot Multi-Box Detector (SSD) は、このタスクを達成するためのより高速で正確なアルゴリズムの 1 つです。推論の間に 1 回のパスだけで、画像内の複数の物体を検出します。SageMaker が利用可能なすべてのリージョンで、Amazon SageMaker のお客様は SSD を組み込みアルゴリズムとして使用できるようになったことをお知らせします。このアルゴリズムは、以下の構成で P2/P3 インスタンスを使用してトレーニングすることができます。 シングルマシン、シングル GPU シングルマシン、マルチ GPU マルチマシン、マルチ GPU このアルゴリズムは、Amazon […]

Read More

Amazon SageMaker BlazingText を使用して強化されたテキスト分類と単語ベクトル

本日、Amazon SageMaker BlazingText アルゴリズム用のいくつかの新機能を発表します。感情分析、固有表現抽出、機械翻訳などの多くの下流工程での自然言語処理 (NLP) タスクではテキストデータを実数値ベクトルに変換する必要があります。お客様は数百ギガバイトのテキストドキュメントからこれらのベクトルを学習するために、BlazingText の高度に最適化された Word2Vec アルゴリズムの実装を使用してきました。 結果として得られるベクトルは、私たちが単語を読むときに認識する豊かな意味とコンテキストを捉えます。 BlazingText は fastText や Gensim のようなそれ以外に広く利用されているものより 20 倍以上高速であり、お客様は GPU や複数の CPU マシンを使用して数十億単語を含む独自のデータセットでこれらのベクトルをトレーニングできるため、これによって数日間かかっていたトレーニング時間を数分に短縮することができます。 これまでに BlazingText を使用して作業をしたことがない場合には、このアルゴリズムについて、ドキュメントや以前のブログ記事を参照することができます。 BlazingText には次の新機能と機能拡張が追加されました。 単語ベクトルにサブワード情報を持たせて豊かな表現にするための文字 n-gram のベクトル表現の学習。 私たちが用いるトレーニングデータセットでは、推論時に出現するすべての単語を持つことは不可能であるため、これらの単語をすべて無視したり、ランダムベクトルを使用するよりも、これらの単語の意味表現を生成する方がはるかに役立ちます。BlazingText は文字 n-gram (サブワード) ベクトルの和としてベクトルを表すことで、未定義 (OOV) 語の意味のあるベクトルを生成することが可能です。 高速マルチクラスとマルチラベルテキスト分類を実行する能力。 テキスト分類の目的は、テキスト文書を 1 つまたは複数の定義されたカテゴリー (スパム検出、感情分析、ユーザーレビュー分類) に自動的に分類することです。BlazingText は fastText テキスト分類器を拡張し、最適化された CUDA カーネルを使用して GPU アクセラレーションを活用します。深層学習テキスト分類モデル (Conneau et al., 2016, Zhang and LeCun (2015)) はトレーニングに数時間から数日かかることがありますが、BlazingText は同程度の精度を達成しながら […]

Read More

新 – Amazon EBS スナップショットのライフサイクル管理

単一の AWS サービスまたは機能の経緯に着目し、顧客からのフィードバックに応じて時間の経過と共にどのように進化したかを見ることは、常に興味深いことです。たとえば、Amazon Elastic Block Store (EBS) は 10 年前に始まり、それ以来、多くの特徴や機能を獲得しています。以下は、いくつかの最も重要なお知らせです。 2008 年 8 月 – 最大 1 TB のボリュームと S3 へのスナップショットをサポートする、プロダクション形式で EBS を開始しました。 2010 年 9 月 – EBS ボリュームにタグを付ける機能を追加しました。 2012 年 8 月 – EBS ボリュームのためのプロビジョンド IOPS を開始し、必要なパフォーマンスレベルでダイヤルインできるようにしました。 2014 年 6 月 – SSD-backed EBS ボリュームを作成できる機能を追加しました。 2015 年 3 月 – 最大 16 TB […]

Read More

Amazon Kinesis Video Streams に、HLS 出力ストリームのサポートを追加

Amazon Kinesis Video Streams (KVS) 用の HTTP Live Streams (HLS) に、新しい出力機能が追加されました。今日は、それをデモンストレーションしてみようと思います。KVS をよくご存知でないなら、Jeff が こちらのリリースで取り上げていますので、ご参照ください。このリリースは 2017 年の AWS re:Invent のためのものです。簡単に言うと、Amazon Kinesis Video Streams は、1 台あるいは数百万台のデバイスから、アナリティクスや機械学習用の動画を安全にキャプチャ、処理、および保存するサービスです。家庭用オートメーションやスマートシティと言ったものから、産業用オートメーションやセキュリティに至るまで、あらゆるものに電力を供給するため、機械学習アルゴリズムを使ったKinesis Video が利用されています。 お客様と意見をやり取りした後、この数か月で GStreamer のプラグイン 、一般的に普及しているオープンソースのマルチメディアフレームワーク、および Docker コンテナを含む数多くの機能を立ち上げました。これにより、Amazon Kinesis に動画をストリーミングすることが容易になりました。各新機能の詳しいご紹介はまた次の機会にして、今日は、新しい HLS 出力機能についてご説明したいと思います。このブログ投稿では、ひどく散らかった私のオフィスの写真をいくつか載せていますことをご了承ください。 HLS 出力は、Amazon Kinesis Video Streams の HLS エンドポイントを作成するのに便利な新機能です。ライブおよびオンデマンド動画を再生するカスタム UI やツールを構築するのに役立ちます。HLS ベースの再生機能は完全マネージド型のため、受信メディアを多重化するためのインフラストラクチャを構築する必要はありません。新しい GetHLSStreamingSessionURL API を使って、新規のストリーミングセッションを ( 現在のところ ) 最大 5 […]

Read More

Formula 1®、AWSクラウドによりイノベーションを加速、AWS機械学習サービスや映像サービスを導入

  Formula One Group(Formula 1、以下F1)がAWSと提携し、クラウド化プロジェクトを開始しました。 F1は、21か国で開催する国際自動車連盟 (FIA) 主催のF1世界選手権 (FIA Formula One World Championship) の推進を担っています。 F1はITインフラストラクチャの大部分をオンプレミスのデータセンターからAWSクラウドへ移行予定です。フルマネージドな機械学習サービスAmazon SageMaker、イベント駆動型サーバーレスのコンピューティングサービスAWS LambdaやAWS分析サービスなど、さまざまなAWSサービスを通じてレース戦略とデータ追跡システムを強化し、世界で5億人を超えるファンとレーシングチームに、より確実な統計と予測情報を提供します。 F1の放送システムに関しても、複数の施設に及ぶ膨大なコンテンツデータをAWSのクラウドストレージで管理し、AWS Elemental Media Servicesで映像処理を行うというクラウドによるワークフローへ移行しました。複数の国でレースを行うため、現地にIT運用センターを設営する必要がありますが、クラウドを利用することで現地に運び込む機材が少なくなるため、クラウドが提供する効率性に加えて実用性な面でも利点を得ることができます。 F1は、非常にデータドリブンな自動車レースです。各レースでは、各競技車両が実装する120個のセンサーが3 GBのデータを生成し、毎秒1,500データポイントが生成されます。 F1のデータ科学者は、過去65年間で蓄積されたレースデータを使って深度学習モデルをトレーニングします。例えば、適切なピットストップウインドウ(適正なピットのタイミング)の特定や、タイヤ交換のピットストップ作戦といった、レース中の予測を行うことが可能です。リアルタイムでデータ分析をして、ドライバーが限界点までパフォーマンスを出しているかどうかといった洞察を、視聴しているファンに提供します。Amazon Kinesisを使って、機械学習、分析に用いる動画をリアルタイムにAWSのワークフローに取り込み、旋回中の各競技車両の主要なパフォーマンスデータを高速処理し、 Amazon SageMaker を活用した機械学習の結果により、ドライバーのパフォーマンスを正確に把握することができます。 F1のイノベーションとデジタル技術のディレクター、ピート・サマラ氏(Pete Samara)は次のように述べています。「AWSは我々のニーズに対して、他のクラウド事業者に勝るスピード、スケーラビリティ、信頼性、グローバル展開、パートナーエコシステム、そして幅広いサービスを提供してくれます。Amazon SageMakerなどの機械学習サービスを活用することにより、強力な洞察と予測をリアルタイムでファンに提供することができます。 また、AWSのスケーラブルで高性能コンピューティングワークロードを、Formula 1 Motorsports部門が活用できていることも素晴らしいです。これにより、新車のデザインルールの開発時に、エアロダイナミクス(空力性能)チームが実行できるシミュレーションの数と品質が大幅に向上します。」 原文はFormula One Group Case Study https://aws.amazon.com/jp/solutions/case-studies/formula-one/ AWSでの機械学習について https://aws.amazon.com/jp/machine-learning/ AWS ビデオソリューションについて https://aws.amazon.com/jp/digital-media/aws-managed-video-services/   AWS Elemental Marketing 山下  

Read More

AWS GDPR データ処理補遺条項がサービス条件に組み込まれました

この度、AWS GDPR (一般データ保護規則) に準拠したデータ処理補遺条項 (DPA) (.pdf) がオンラインサービス条件に組み込まれたことをご報告します。これにより、AWS のすべてのお客様が、グローバルに AWS GDPR DPA を利用できるようになりました。これは、2018 年 5 月 25 日以降、AWS のサービスを使用して一般データ保護規則に従って個人データを処理する場合に自動的に適用されます。AWS GDPR DPA には、欧州連合 (EU) のデータ保護機関によって承認され、29 条作業部会として知られる EU モデル条項も含まれています。このため、EU 加盟国及び欧州経済領域 (EEA) からそれ以外の国に個人データを転送する場合に、AWS の個人データが EEA で保護されるレベルと変わらない高いレベルで保護されるため、AWS のお客様は安心してデータを転送できます。 この発表は当社、お客様、APN(Amazon Partner Network)のパートナー各社にとって重要な GDPR コンプライアンスの構成要素となっています。クラウドサービスを使用して個人データを処理するすべてのお客様は、GDPR に準拠する場合、クラウドサービスのプロバイダーとの間にデータ処理契約を結ぶ必要があります。 2017 年 4 月の早い時期に、AWS は GDPR に対応した DPA をお客様が利用できることを発表しています。このように、2018 年 5 月 25 日の施行日より 1 年以上前に、当社はお客様への […]

Read More

AWS re:Invent 2018 がもうすぐ開催 – 準備はいいですか?

この記事を書いている時点で、re:Invent 2018 開催まであと 138 日になりました。イベントチームの同僚たちは、全てのお客様がラスベガスで最高の経験ができるよう、総力を尽くしています。同僚とのミーティング後、この投稿を書くことにしたのは、お客様が会場にあるものをもっと理解し、何を期待できるかが分かり、お客様の方で計画と準備を進めることができるのでは、と思ったからです。 規模を考える このイベントの規模に関する課題について、考えることから始めました。2017 年のイベントには、約 43,000 人 (AWS のお客様、パートナー、報道関係者、業界アナリスト、AWS 従業員を含めて) が参加しました。クラウドアーキテクチャで使われるスケーリングの原則やベストプラクティスを数多く、このような大規模で複雑なイベントで重要となる物理的、ロジスティック的、そしてコミュニケーション上で生じる課題に対して適用しています。 場所の移動をもっと楽にしたいと同時に、そうする必要性自体を減らそうと考えています。私たちチームが現在行っていることは、次のようなものです。 キャンパスシャトル – 2017 年には、何百ものバスが数ある re:Invent の会場間を往復しました。その結果、運行系統に大幅な遅延が発生して、満足いくものではありませんでした。2018 年は、車両の数を増やし、直通だったバスを各停車場を巡る各停のものにし、さらにそれぞれの会場にはピックアップおよびドロップオフポイントを作りました。これで、行きたい場所へひとっ飛びです。 ライドシェアリング – Lyft と Uber (両社とも AWS をご利用くださっています) の協力の下、他にも交通手段をご用意しています (現在準備中ですが、アプリをダウンロードできます)。ラスベガスモノレールとタクシー会社にも協力いただいて、さらにはテレポーテーションサービスも現在準備していますが、開催に間に合うかどうかは未定です。 セッションアクセス – 複数の re:Invent 会場にまたがるしっかりとした予備スペースシステムも設置中で、人気の高いセッションを複数の会場で繰り返し行うことが可能となっています。 モバイルアプリの改善 – re:Invent のモバイルアプリはさらに使い勝手がよくなり、位置認識も行えるようになりました。空席のあるセッションを見つけたり、近くで何が行われているか、さらにはシャトルや他の交通手段を知らせてくれます。 みんなのためのもの re:Invent を参加者の皆様全員を暖かく歓迎する場所にし、斬新かつ開放的なビジネスやソーシャルのためのイベントにしたいと考えています。会場でのプランを少しお見せしましょう。 4 キロと 8 キロのチャリティファンラン – ファンランで一日を始めましょう。このイベントは Girls Who Code をサポートしています。 We […]

Read More

Amazon Elastic File System 東京リージョン 一般提供開始のお知らせと利用上の留意点のまとめ

みなさん、こんにちは。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 AWS Summit Tokyo 2018 の基調講演にてアナウンスいたしました、Amazon Elastic File System (EFS)が東京リージョンで今日一般提供が開始されました。 Amazon EFSは複数のEC2からマウント可能なファイルストレージサービスです。従来ご利用いただいていたブロックストレージであるAmazon Elastic Block Store (EBS)との使い分けの考慮が大事なサービスとなりますので、その特徴とご利用における検討事項を纏めます。 Amazon EFS の特徴 Amazon EFSはシンプルで、スケーラブル、伸縮自在なファイルストレージを、AWS クラウドサービスとオンプレミスの両方でご利用いただくことが可能です。 シンプル – ファイルシステムを迅速かつ容易に作成および構成できるシンプルなウェブサービスインターフェイスを備え、ファイルストレージインフラストラクチャを管理するため、複雑なデプロイ、パッチ適用、複雑なファイルシステムデプロイメントを維持する必要はありません。また課金体系もシンプルであり、保存されているデータ容量にたいしてのみ課金されます。東京リージョンでの価格は0.36USD / GBとなります。 スケーラブル – ファイルシステムの拡大に合わせて、スループットおよび IOPS が自動でスケールされます。こちらにパフォーマンスについてはまとまっています。 伸縮自在 – ファイルの追加や削除に合わせてファイルシステムのストレージ容量を直ちに自動で拡張または縮小でき、これによりスループット及びIOPSが変動します。 高可用性および高耐久性 – ファイルシステムの各オブジェクト (ディレクトリ、ファイル、リンクなど) は、複数のアベイラビリティーゾーンに冗長的に保存されるため、高いレベルの可用性と耐久性を確保できます。 オンプレミス環境からの利用 – AWS Direct Connect で Amazon VPC に接続し、オンプレミスのデータセンターサーバーにファイルシステムをマウントすることが可能です ご利用上の留意点 EFS はNFS v4 プロトコルをサポートしています。NFS […]

Read More

Discover Financial Services が Amazon SageMaker で動作する Robocar イベントで機械学習を活用

AWS re:Invent に参加した Discover Financial Services (DFS) のチームメンバーが、Robocar Rally はインパクトがきわめて強いイベントだったと語りました。Discover のコアチームのメンバー 6 名はこのハッカソンに参加し、機械学習 (ML) および AWS に関する深層学習を使用したハンズオン体験をしました。彼らにとってその楽しい時間は、永く記憶に残るものとなりました!Discover の Cloud Center of Excellence (CCoE) はのちに、ある 1 つのアイデアを提案しました。それは、「Discover 本社のオンサイトで同じイベントを再現してみよう」というものです。Discover CCoE にはそのリーダーシップおよびデータサイエンスチームをもって機械学習実験の現状にインパクトを与えるために、AWS AI/ML サービスに対する認識を高めようという目標がありました。そのイベントが実現するのに、2 か月半かかっていません。 チーム編成 Discover はイベント開催中にチームあたり 6 名からなる 6 チームを編成し、ハッカソンに参加して、1 対 1 で直接競わせました。Discover は多数の事業領域にわたる多様な縮図を体現しています。これが開発者からセキュリティ専門家にいたる混合環境を構築しており、そこには機械学習の関係者も含まれます。チーム規模およびチーム数は、カスタマーの関心と過去の Robocar Rally のイベントから継承されてきた知見をすり合わせた結果としてそうなりました。 Robocar の役割 AWS はこのイベント運営および各チームメンバーに対する戦略的な役割分担を目指して、規範的なアプローチを使用しました。 ドライバー: モデルのトレーニング中はクリーンデータの収集を確保しながら、車両を管理し、イベント開催中は Robocar を管理します。 Robo […]

Read More