Amazon Web Services ブログ

Amazon Translate が、日本語、ロシア語、イタリア語、繁体字中国語、トルコ語、およびチェコ語のサポートを追加しました。

本日、Amazon Translate が、日本語、ロシア語、イタリア語、繁体字中国語、トルコ語、さらにチェコ語のサポートを追加しました。Amazon Translate は、高速で高品質な言語翻訳を、お手ごろな価格で提供する翻訳 API です。Amazon Translate は元々、2017 年開催の AWS re:Invent でのプレビューでリリースしました。同僚の Tara が、このサービスの詳細について書いています。 最初のプレビュー時から、Amazon Comprehend 、 Amazon CloudWatch の指標、および各 TranslateText 内にある膨大なテキストを使った自動ソース言語推論のような機能を追加しようと、お客様とのやり取りを続けてきました。4 月にはこのサービスが一般に利用可能となり、機能のリクエストやフィードバックをお客様から引き続きいただいています。 Amazon Translate との連携 Amazon Translate コンソールにある API エクスプローラーを使って、今すぐ新しい言語を試してみてください。 任意の SDK を使用することもできます。以下に、簡単な Python のサンプルを書いてみました。 import boto3 translate = boto3.client(“translate”) lang_flag_pairs = [(“ja”, “????”), (“ru”, “????”), (“it”, “????”), (“zh-TW”, “????”), (“tr”, “????”), (“cs”, […]

Read More

Amazon EMR と Apache Livy を使用して、同時データオーケストレーションパイプラインを構築する

多くのお客様が、Amazon EMR と Apache Spark を使用してスケーラブルなビッグデータパイプラインを構築しています。大規模な生産パイプラインの場合、一般的ユースケースは、さまざまなソースから発生する複雑なデータを読み取ることです。このデータは、機械学習パイプライン、分析ダッシュボード、ビジネスレポートなどの下流アプリケーションに役立つように変換する必要があります。このようなパイプラインでは、Amazon EMR で Spark ジョブを並行して実行することがたびたび必要になります。この記事では、EMR バージョン 5.9.0 以降で利用可能な Apache Livy を使用して、複数の Spark ジョブを EMR クラスター上で平行して送信する方法を中心に取り扱います。 Apache Livy は、REST インターフェイスを通じて、Spark クラスターとのやりとりを容易にするサービスです。Apache Livy を使用すると、大きな jar ファイルを管理、デプロイする代わりに、REST API コールでシンプルな Scala コードまたは Python コードを送信できます。これは、EMR ステップ API を使用してシリアルで実行するのではなく、複数の Spark ジョブをパラレルで実行することでデータパイプラインを容易に拡張できるためです。お客様は、ワークフローの一環として一時的なクラスターを継続して利用し、結果としてコストを削減できます。 このブログ記事の目的に合わせ、今回は Apache Airflow を使用してデータパイプラインをオーケストレーションします。Airflow は ETL タスクの管理に役立つオープンソースのタスクスケジューラです。ワークフローを 1 か所からスケジューリングして管理できるため、Apache Airflow はお客様に人気があります。Airflow の Configuration as Code […]

Read More

Amazon SageMaker ハンズオン開催報告とシナリオ公開のお知らせ

(この記事は2018年7月17日に公開したあと、7月31日にシナリオが更新されたので追記しました) みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 2018年7月3日にAmazon SageMaker ハンズオンを弊社目黒オフィスで開催しました。講師は弊社ソリューションアーキテクトの志村と鮫島がお届けさせていただきました。 その時の資料が公開され、ご自宅でもハンズオンを楽しんでいただくことができるようになりましたのでお知らせいたします。 Amazon SageMaker 紹介 & ハンズオン(2018/07/03 実施) from Amazon Web Services Japan Amazon SageMaker 紹介 & ハンズオン(2018/07/25 実施) from Amazon Web Services Japan (2018年7月31日、シナリオが新しく更新されました) 57ページからがハンズオンの資料となっています。SageMakerはその学習モデルの開発においてJupyter Notebookを使用します。このため、ハンズオンではあらかじめ用意されたJupyter Notebookの内容に従って作業を進めて行く形態をとっています。中身はDeep Learningですので、慣れてない方からすると、すべてを理解いただくのが大変な一方で、ハンズオンの完走自体は非常に簡単に行っていただけるような工夫がされています。 最後に自分のマウスで書いた手書きの文字を判別する実習を行ってハンズオンは終了となります。 またSageMakerは非常に頻繁にアップデートがかかっています。 https://aws.amazon.com/jp/blogs/news/category/artificial-intelligence/sagemaker/ 2018年6月1日東京リージョンでの一般提供開始以降に対応した主なアップデートが以下です。 トレーニングジョブのクローン作成機能 自動モデルチューニングにおけるハイパーパラメーターチューニングに対応 PyTorch と TensorFlow 1.8 のサポート AWS PrivateLink を使用した Amazon Virtual Private Cloud […]

Read More

AWS ヒーロー – 新しいカテゴリを追加

AWS ヒーローの新しいカテゴリーを立ち上げ 2014 年より AWS コミュニティヒーロープログラムを開始し、AWS エキスパートたちが運営する活気あふれたグループを認定しています。優秀な開発者がその幅広い知識を駆使し、いろんな媒体にわたり AWS 製品とサービスに関して顧客や技術者を教育しています。AWS が成長するにつれ、ヒーローの新たなグループがどんどん生まれています。 今日、優れたコミュニティリーダーを認定しましたが、AWS ヒーロープログラムが拡大してきている証拠です。コミュニティ内で AWS サービスを幅広く推奨することを目的とするコミュニティヒーローとは異なり、今回の新しいカテゴリーのヒーローは特定のテクノロジーの開発に努力し、その推奨に取り組むスペシャリストたちです。新しいヒーローとして最初に立ち上げたカテゴリーは、AWS サーバーレスヒーローと AWS コンテナヒーローです。テクニカルコミュニティでは、AWS のナレッジ共有へのあふれる情熱がますます大きくなっています。ぜひ、新しいヒーローたちの登場を歓迎してあげてください。 AWS サーバーレスヒーロー サーバレスヒーローは、AWS サーバレスエコシステムを早期に取り入れた熱意あふれるパイオニアたちです。GitHub や AWS Serverless Application Repository のオープンソース化に対する貢献だけでなく、AWS サーバーレステクノロジーをオンラインや対面で普及させる活動を行っています。こうしたサーバーレスヒーローは、開発者、企業、コミュニティなどが最新鋭のアプリケーションを構築する際、その発展に一役買っている人たちです。サーバーレスヒーローとして最初に選ばれたコホートは、下記の人たちです。 Yan Cui Aleksandar Simovic Forrest Brazeal Marcia Villalba Erica Windisch Peter Sbarski Slobodan Stojanović Rob Gruhl Michael Hart Ben Kehoe Austen Collins AWS コンテナヒーローのご紹介 AWS コンテナヒーローは、AWS […]

Read More

Amazon SageMaker は k近傍 (kNN) 分類および回帰のサポートを開始しました

Amazon SageMaker が、分類と回帰の問題を解決するため、ビルトイン k-Nearest-Neighbor (kNN) アルゴリズムのサポートを開始したことをご報告します。kNN は、マルチクラス分類、ランキング、および回帰のためのシンプルで、解釈しやすい、そして驚くほど強力なモデルです。 kNN の導入 kNN の背後にある考えは、類似したデータポイントは、少なくともほとんどの時間、同じクラスを持つ必要があるというものです。この方法はとても直感的で、レコメンデーションシステム、異常検出、画像 / テキスト分類を含む多くの分野で実証されています。 例えば、「人物」、「動物」、「屋外」、「海」、「日没」など、考えうる 2000 のタイプのうちの 1 つとして、あるイメージを分類する場合を考えてみましょう。画像間の適切な距離関数が与えられると、ラベル付けされていない画像の分類は、最近傍に割り当てられたラベル、すなわち距離関数に従ってそれに最も近いラベルの付いた画像によって決定されます。 あまり見られませんが、kNN の別の使用法は、回帰問題です。ここでの目的は、クエリのクラスを決定するのではなく、むしろ連続する数字 (例えば、特定の人の給与、ある実験にかかるコストなど) を予測することです。クエリの予測は、その近傍のラベルの関数として設定されます。通常は、平均として、そして時には外れ値を特定する方法としての平均値または幾何平均として、設定されます。 どんな時に kNN を使用するか? kNN 分類と回帰の使用を考えている場合に、考慮すべきいくつかのメリットとデメリットについてご紹介します。 メリット 予測品質: kNN クラシファイヤー (分類器) は、例えばクラス間の線形分離を必要とする線形クラシファイヤーとは対照的に、空間の非構造化パーティションを回復することができます。また、空間の異なる密度にも適応することができ、放射基底関数 (RBF) カーネルによるサポートベクターマシン (SVM) 分類といった方法よりも安定しています。 2D データの下記の 2 つの例は、ラベルの付いたデータによって与えられた空間の異なるパーティションおよびその空間上の kNN モデルの予測を示しています。 短いサイクル: kNN のもうひとつの利点は、トレーニングがほとんど、あるいは全く必要ないことです。つまり、深いネットワークや SVM、または線形関数などの多くのトレーニング手順を必要とするクラシファイヤーと比較すると、入力データセットの考えられる様々なメトリック / 修正に対する反復が、潜在的に高速であることを意味しています。 多くの出力クラス: kNN は非常に多くのクラスをシームレスに処理できます。比較すると、交差エントロピー損失を伴う線形モデルまたはディープニューラルネットワークは、考えられる各クラスのスコアを明確に計算し、最良のものを選択しなければなりません。例えば、画像または特徴のセットによって花の種類を認識するタスクを想像してください。10 万個のラベルが付いた特徴の例と 5,000 個の花の種類の例があります。それぞれの花の種類を識別するのに、5,000 個のパラメータセットを明確に学習するモデルはどれもすぐに過学習してしまう傾向があり、誤った答えを生む可能性があります。 […]

Read More

Amazon SageMaker DeepAR は欠損値、カテゴリ機能と時系列機能、および一般化した頻度をサポートします。

本日私たちは Amazon SageMaker の DeepAR について、いくつかの新機能をリリースしています。DeepAR は再帰型ニューラルネットワーク (RNN) を使用して確率的予測を生成する、時系列予知または予測のための教師付き機械学習アルゴリズムです。発表以来、このアルゴリズムはさまざまなユースケースにおいて使用されてきました。今回のリリースにより開発者は、欠損値のサポート、ユーザー提供による時系列機能、複数のカテゴリー機能、頻度の一般化などの新しい機能にアクセスできるようになりました。 予測はあらゆる分野へ 予測は、多くの業界に渡りビジネスプロセスを改善することができます。これにより、機械学習 (ML) と人工知能 (AI) を使用して自動化と最適化の世界への理想的なエントリーポイントを予測することができるようになるのです。より良い製品需要予測を通じてサプライチェーンを最適化するかどうか、Web サーバーのトラフィックを予測することによってコンピューティングリソースをより効果的に割り当てるかどうか、患者のニーズを満たすために病院にスタッフを派遣して人命を救うかどうかなど、ほとんどの分野において予測は素早く投資に対する効果を見せてくれるでしょう。 Amazon では、予測を使用しさまざまな分野におけるビジネス意思決定の自動化を推進しています。これらの中にはフルフィルメントセンターでの製品や労働需要の予測や、AWS サービスのキャパシティ予測などが含まれます。 DeepAR アルゴリズムの新機能 このブログ記事では、今回利用可能となった DeepAR アルゴリズムの新機能の概要を簡単に紹介させていただきます。 欠損値のサポート 予測アルゴリズム (またはそれらの実装) においてはデータが完全であると仮定している場合が多いのですが、現実は一致しない傾向にあります。実際には、時系列データはたびたび部分的にしか観察されない場合があります。たとえば、時系列にセンサーデータが含まれていて、そしてそのセンサが一定時間に渡って故障していたりオフラインであったりする可能性があります。需要予測時に製品の在庫がなくなったり、サーバーのトラフィック時系列情報がダウンタイムや設定ミスのために数日間利用できなくなる可能性があるのです。このような場合、予測アルゴリズムを使用する前に不足している値を埋め (置き換え) なければならないという負担がユーザーにかかる場合が頻繁に発生します。しかしながら、誤って置き換えられたデータは予測に悪影響を及ぼす可能性があります。たとえば、在庫切れ状況により観測されていない値をゼロに置き換えた場合、予測はゼロに向かって偏っていきます。確かにこれは、特に長い在庫切れ段階の後に将来の製品需要を予測したい場合には望ましくありません。 DeepAR の最新リリースにおいては、モデル内で欠損値が直接処理されるようになりました。これにより、欠損値を含む時系列の予測が容易に (前処理時の置き換えは不要)、かつより正確に (粗い外部置き換え手法に頼るのではなく、RNN モデルを利用することにより) なります。 欠損値を持つ時系列の予測をモデルが生成する方法の例は、以下の通りです。 カスタム時系列機能 DeepAR に対してお客様から最も多く頂いた要望の 1 つは、カスタムの時間変動機能をモデルへと供給することでした。時系列を予測する場合、ユーザはしばしばターゲットとなる時系列について有用な情報を提供することができる他の説明的な時系列を有しています。たとえば製品の需要を予測する場合には、一定期間内にプロモーションが実施されたかどうかや製品の価格がどの程度であったかなど、時間に依存する情報へとアクセスをするかもしれません。(DeepAR が内部的に提供するデフォルトの季節性機能に加えて) カスタムの季節性パターン、因果効果などをモデル化する独自の機能時系列を提供できるようになりました。この時間変動性を持った情報の使用は、そうでなければノイズに起因する効果を「説明する」ことにより、最終的に精度を向上させる可能性があります。さらには、「what if」シナリオをシミュレートすることもできます。たとえば、「今後この商品を 1 週間プロモーションするとどうなるか?」などです。 ここでは、短期需要の増加と相関する時間変動機能 (青色の線) を使用する例を示します。実際には、これはプロモーションイベントまたは特別なカレンダーイベントです。この例において、DeepAR はこの機能によって需要の増加した期間とそれ以外の期間を区別することができます。 時系列ごとの複数カテゴリ 特定の時系列を予測する場合、グループ情報は非常に役立ちます。特に、利用可能な履歴データがあまりない場合に便利です。以前の DeepAR は単一のカテゴリ分類属性によって時系列をグループ化することをサポートしており、ユーザーは時系列のグループの可能な […]

Read More

AWS Storage Gateway Recap &#8211、SMB サポート、RefreshCache イベント、その他

自分の言葉を引用すると、AWS Storage Gateway は、既存のアプリケーションと AWS クラウド間に位置するマルチプロトコルストレージアプライアンスを含むサービスです。アプリケーションは設定に応じてゲートウェイをファイルシステム、ローカルディスクボリューム、または仮想テープライブラリとして認識します。 本日は Storage Gateway のファイルゲートウェイ設定についての最新情報と、それに伴って可能になるいくつかの新しいプロセスモデルについても紹介します。まず、最新情報についてです。 SMB サポート – ファイルゲートウェイはすでに NFS (バージョン 3 と 4.1 がサポート済み) を使用するクライアントからのアクセスをサポートしています。先月、SMB (Server Message Block) プロトコルのサポートが追加されました。これによって、SMB の v2 または v3 を使用して通信を行う Windows アプリケーションはゲートウェイを介して S3 のオブジェクトとしてファイルを保存し、バックアップ、コンテンツの配布、機械学習処理、ビックデータワークロードなどのハイブリッドクラウドユースケースが可能になります。既存のオンプレミス AD (Active Directory) ドメインまたは AWS Directory Service でホストされているクラウドベースドメインを使用してゲートウェイへのアクセスを制御することも、認証されたゲストアクセスを使用することもできます。この最新情報の詳細については、「AWS Storage Gateway が SMB サポートを追加し、Amazon S3 バケットでのオブジェクトの保存とアクセスが可能に」を参照してください。 クロスアカウントアクセス許可 – 一部のお客様はある AWS アカウントでゲートウェイを実行し、これを別のアカウントを持つ S3 […]

Read More

Amazon SageMaker 線形学習者でマルチクラス分類器を構築する

Amazon SageMaker は、機械学習モデルのスケーラブルな訓練とホスティングのための完全マネージド型サービスです。Amazon SageMaker の線形学習者アルゴリズムにマルチクラス分類のサポートが追加されます。線形学習者は、広告のクリック予測、不正検出、またはその他の分類問題のロジスティック回帰や売上予測、配達時間の予測、または数値の予測を目的とした線形回帰などの線形モデルに利用できる API を既に提供しています。線形学習者を利用したことがない場合は、本アルゴリズムに関するドキュメントまたはこれまでのブログ投稿をご参考にして使い始めて下さい。Amazon SageMaker が初めての場合は、ここから始めて下さい。 このブログ記事では、マルチクラス分類を線形学習者で訓練する 3 つの側面について説明します。 マルチクラス分類器の訓練 マルチクラス分類メトリクス バランスの取れたクラス毎の重み付けを使った訓練 マルチクラス分類器の訓練 マルチクラス分類は、機械学習タスクの一つで、出力がラベルの有限集合に入ることで知られています。たとえば、電子メールを分類するには、それぞれに受信トレイ、仕事、ショッピング、スパムの中のいずれかのラベルを割り当てます。あるいは、顧客が shirt、mug、bumper_sticker、no_purchase の中から何を購入するかを予測しようとするかもしれません。それぞれの例が数値的な特徴や既に知っているカテゴリのラベルがある場合、マルチクラス分類器を訓練することができます。 関連する問題:バイナリ、マルチクラス、マルチラベル マルチクラス分類は、バイナリ分類およびマルチラベル問題の 2 つの機械学習タスクに関連します。線形学習者はすでにバイナリ分類をサポートしてましたが、マルチクラス分類も利用できるようになりました。ただし、マルチラベルサポートはまだサポートされてません。 データセットに可能性のあるラベルが 2 つしかない場合は、バイナリ分類問題になります。例としては、取引や顧客のデータに基づいて取引が不正であるかどうかを予測することや、写真から抽出された特徴に基づいて人が笑顔であるかどうかを検出することなどがあります。データセットの各例では、可能性のあるラベルの 1 つが正しく、もう 1 つが間違っています。その人物は笑顔なのか、笑顔でないのか。 あなたのデータセットに 3 つ以上の可能性のあるラベルがある場合、マルチクラス分類問題になります。たとえば、トランザクションが詐欺、キャンセル、返品、または通常どおりに完了するかどうかを予測します。また、写真の人物が笑っている、悩んでいるのか、驚いているのか、あるいは恐れているのかを検出することもできます。可能性のあるラベルは複数ありますが、一度に付けられる正しいラベルは 1 つだけです。 複数のラベルがあり、1 つの訓練サンプルに複数の正しいラベルがある場合は、マルチラベル問題になります。たとえば、既知のセットから画像にタグを付けるなどです。公園でフリスビーを追っている犬の画像は、屋外、犬、および公園でラベル付けするかもしれません。どんな画像でも、これらの 3 つのラベルがすべて真、すべてが偽、あるいは何らかの組み合わせになるはずです。マルチラベル問題のサポートはまだ追加されていませんが、現状の線形学習でマルチラベル問題を解決する方法がいくつかあります。ラベルごとに別々のバイナリ分類器を訓練することができます。または、マルチクラス分類器を訓練して、最上位クラスだけでなく、最上位の k クラス、または確率スコアがあるしきい値を超えるすべてのクラスを予測できます。 線形学習者は、softmax 損失関数を使用してマルチクラス分類器を訓練します。アルゴリズムは、各クラスの重みの集合を学習し、各クラスの確率を予測します。これらの確率を直接使用することができます。たとえば、電子メールを受信トレイ、仕事、ショッピング、スパムに分類して、クラスの確率が 99.99% を超える場合にのみスパムとしてフラグを立てるポリシーを検討します。しかし、多くのマルチクラス分類のユースケースでは、予測ラベルとして最も高い確率を持つクラスを取り上げます。 実例:森林被覆の種類を予測する マルチクラス予測の例として、Covertype データセット (著作権: Jock A. Blackard とコロラド州立大学) を見てみましょう。このデータセットには、米国地質調査所および米国森林局がコロラド州北部の荒野について収集した情報が含まれています。特徴を土壌タイプ、標高、水との距離などの測定値とし、ラベルを基に各場所の樹木の種類 (森林被覆の種類) […]

Read More

Amazon SageMaker で、物体検出アルゴリズムが利用可能に

Amazon SageMaker は、完全マネージド型で、拡張性が高い機械学習 (ML) プラットフォームであり、機械学習モデルの構築、トレーニング、デプロイを容易にします。これは、誰もが使える ML に向けた偉大な一歩であり、開発者が ML の領域へ入る際のバーを下げることができます。コンピュータビジョンは、画像を扱う機械学習の一つの分野です。Amazon SageMaker の画像分類アルゴリズムは、SageMaker が提供するより一般的なアルゴリズムの 1 つであり、画像をあらかじめ定義されたカテゴリのセットに分類することを学習します。 本日、Amazon SageMaker の物体検出 (OD) アルゴリズムを開始し、コンピュータビジョンの提供を強化します。物体検出は、画像内の物体を特定およびローカライズするプロセスです。このアルゴリズムは、物体が存在する画像上の境界ボックスを明らかにし、ボックスがどんな物体をカプセル化するかを識別することによって、さらに画像の分類を進めます。  カスタムクラスを含む独自のデータセットを使用してトレーニングする必要がない場合は、物体検出に Amazon Rekognition サービスを使用することもできることに注意してください。Amazon Rekognition は、あらかじめ定義されたクラスのセットから物体を識別できる API を提供します。Amazon SageMaker の物体検出アルゴリズムを使用すると、独自のデータセット/クラスを使用して学習するだけでなく、画像内の物体をローカライズすることもできます。 Amazon SageMaker の物体検出アルゴリズムの動作例写真提供 Mansoor、PEXELS Single-Shot Multi-Box Detector (SSD) は、このタスクを達成するためのより高速で正確なアルゴリズムの 1 つです。推論の間に 1 回のパスだけで、画像内の複数の物体を検出します。SageMaker が利用可能なすべてのリージョンで、Amazon SageMaker のお客様は SSD を組み込みアルゴリズムとして使用できるようになったことをお知らせします。このアルゴリズムは、以下の構成で P2/P3 インスタンスを使用してトレーニングすることができます。 シングルマシン、シングル GPU シングルマシン、マルチ GPU マルチマシン、マルチ GPU このアルゴリズムは、Amazon […]

Read More

Amazon SageMaker BlazingText を使用して強化されたテキスト分類と単語ベクトル

本日、Amazon SageMaker BlazingText アルゴリズム用のいくつかの新機能を発表します。感情分析、固有表現抽出、機械翻訳などの多くの下流工程での自然言語処理 (NLP) タスクではテキストデータを実数値ベクトルに変換する必要があります。お客様は数百ギガバイトのテキストドキュメントからこれらのベクトルを学習するために、BlazingText の高度に最適化された Word2Vec アルゴリズムの実装を使用してきました。 結果として得られるベクトルは、私たちが単語を読むときに認識する豊かな意味とコンテキストを捉えます。 BlazingText は fastText や Gensim のようなそれ以外に広く利用されているものより 20 倍以上高速であり、お客様は GPU や複数の CPU マシンを使用して数十億単語を含む独自のデータセットでこれらのベクトルをトレーニングできるため、これによって数日間かかっていたトレーニング時間を数分に短縮することができます。 これまでに BlazingText を使用して作業をしたことがない場合には、このアルゴリズムについて、ドキュメントや以前のブログ記事を参照することができます。 BlazingText には次の新機能と機能拡張が追加されました。 単語ベクトルにサブワード情報を持たせて豊かな表現にするための文字 n-gram のベクトル表現の学習。 私たちが用いるトレーニングデータセットでは、推論時に出現するすべての単語を持つことは不可能であるため、これらの単語をすべて無視したり、ランダムベクトルを使用するよりも、これらの単語の意味表現を生成する方がはるかに役立ちます。BlazingText は文字 n-gram (サブワード) ベクトルの和としてベクトルを表すことで、未定義 (OOV) 語の意味のあるベクトルを生成することが可能です。 高速マルチクラスとマルチラベルテキスト分類を実行する能力。 テキスト分類の目的は、テキスト文書を 1 つまたは複数の定義されたカテゴリー (スパム検出、感情分析、ユーザーレビュー分類) に自動的に分類することです。BlazingText は fastText テキスト分類器を拡張し、最適化された CUDA カーネルを使用して GPU アクセラレーションを活用します。深層学習テキスト分類モデル (Conneau et al., 2016, Zhang and LeCun (2015)) はトレーニングに数時間から数日かかることがありますが、BlazingText は同程度の精度を達成しながら […]

Read More