Amazon Web Services ブログ

Julien Simon

Author: Julien Simon

As an Artificial Intelligence & Machine Learning Evangelist for EMEA, Julien focuses on helping developers and enterprises bring their ideas to life.

数十億ものパラメータを持つ深層学習モデルのトレーニングをシンプル化する Amazon SageMaker

今日は、ハードウェアの制限が原因で、これまでトレーニングすることが難しかった超大型深層学習モデルのトレーニングを Amazon SageMaker がシンプル化することをご紹介したいと思います。 過去 10 年の間、深層学習 (DL) と呼ばれる機械学習のサブセットが一世を風靡してきました。ニューラルネットワークを基盤とする DL アルゴリズムは、膨大な量の非構造化データ (画像、動画、スピーチ、またはテキストなど) に隠された情報パターンを抽出する、類いまれな能力を備えています。DL は、さまざまな複雑かつ人間的なタスク、特にコンピュータビジョンと自然言語処理において、瞬く間に目覚ましい成果を達成しました。現に、DL は ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、the General Language Understanding Evaluation (GLUE)、または Stanford Question Answering Dataset (SQUAD) といったリファレンスタスクにおける結果を向上させ続けているため、イノベーションがかつてない速さで進んでいます。 これまで以上に複雑なタスクに挑戦するために、DL 研究者はますます高度なモデルを設計し、さらなるニューロン層と結合を追加してパターン抽出と予測精度を向上させており、モデルサイズに直接的な影響を及ぼしています。たとえば、画像分類では 100 メガバイトの ResNet-50 モデルで極めて良好な結果を得ることができますが、オブジェクト検出やインスタンスセグメンテーションなどのより困難なタスクには、約 250 メガバイトの Mask R-CNN または YOLO v4 などのより大きなモデルを使用しなければならなくなります。 想像がつくと思いますが、モデルの増大もモデルのトレーニングに必要な時間とハードウェアリソースに影響します。Graphical Processing Units (GPU) が以前から大型 DL モデルのトレーニングと微調整に好まれるオプションであるのはこのためです。GPU の超並列的なアーキテクチャと大型のオンボードメモリのおかげで、ミニバッチトレーニングと呼ばれる手法の使用が可能になります。複数のデータサンプルを、ひとつずつではなく、一度に […]

Read More

新機能 – バイアスを検出し、機械学習モデルの透明性を向上させる Amazon SageMaker Clarify

今日は、お客様が機械学習 (ML) モデルのバイアスを検出し、ステークホルダーと顧客にモデルの動作を説明できるようにすることで透明性を高めるために役立つ Amazon SageMaker の新機能、Amazon SageMaker Clarify をご紹介します。 ML モデルは、データセットに存在する統計的パターンを学習するトレーニングアルゴリズムによって構築されるため、いつくかの疑問がすぐさま思い浮かびます。第一に、ML モデルが特定の予測にたどり着いた理由を説明できるようになるのか? 第二に、モデル化しようとしている現実問題をデータセットが忠実に表現しない場合はどうなるのか? そもそも、このような問題を検出することはできるのか? これらの問題は、認識できない形で何らかのバイアスを生じないのか? これから説明するとおり、これらは決して推論的な疑問ではなく、極めて現実的なもので、その影響は広範囲に及ぶ可能性があります。 バイアス問題から始めましょう。不正なクレジットカード決済を検出するモデルに取り組んでいることを想像してください。幸いにも、決済の大部分は正当なものであり、データセットの 99.9% を占めています。これは、不正決済が 0.1% のみであることを意味し、100,000 件のうち 100 件といったところです。二値分類モデル (正当な決済 vs. 不正な決済) のトレーニングでは、モデルが多数派グループに強い影響を受ける、つまりバイアスがかかる可能性が非常に高くなります。実際に、トリビアルモデルでは決済が常に正当であると判断されてしまうかもしれません。このモデルはまったく役に立たないものの、99.9% は正しいことになります! このシンプルな例から、データの統計的特性、そしてモデルの精度を測定するために使用するメトリクスをどれほど慎重に扱わなければならないかがわかります。 この過少出現問題には多数の派生タイプがあります。クラス、特徴、およびユニークな特徴量が増加しても、データセットには特定のグループについて少量のトレーニングインスタンスしか含まれていない可能性があります。実際、これらのグループの一部は、性別、年齢範囲、または国籍など、さまざまな社会的にセンシティブな特徴に該当することがあります。このようなグループの過少出現は、予測結果に不均衡な影響をもたらす恐れがあります。 残念ながら、悪意がまったくなかったとしても、データベースにバイアス問題が存在し、ビジネス、倫理、および規制面での影響を伴うモデルに取り込まれてしまう可能性があります。このため、モデル管理者が本番環境システムにおけるバイアスの潜在的な原因に注意することが重要になるのです。 では、説明可能性の問題についてお話しましょう。線形回帰や決定木ベースのアルゴリズムといったシンプルで十分に解明されているアルゴリズムでは、モデルを検証し、モデルがトレーニング中に学習したパラメータを調べ、モデルが主に使用する特徴を特定することは比較的簡単です。その後、このプロセスがビジネス慣行に沿っているかどうかを判断できます (つまり、「人間のエキスパートでもこうしただろう」と言うようなものです)。 しかし、モデルがますます複雑になるにつれて (深層学習さん、あなたのことです)、このような分析は不可能になります。スタンリー・キューブリックの「2001 年宇宙の旅」に出てくる先史時代の部族と同じように、私たちはしばしば、不可解なモノリスをまじまじと見詰めながら、それが何を意味するのか頭をかしげるしかありません。多くの企業と組織は、ML モデルを本番環境で使用する前に、それらを説明可能なものにする必要があるかもしれません。さらに、一部の規制では、ML モデルが重大な意思決定の一環として使用される場合に説明可能性が義務付けられている場合があり、この説明可能性は、最初にお話したバイアスの検出にも役立ちます。 こうして、データセットとモデルに存在するバイアスを検出し、モデルが予測を行う方法を理解するための援助をお客様から求められた AWS は、作業を開始し、SageMaker Clarify を考案しました。 Amazon SageMaker Clarify のご紹介 SageMaker Clarify は、AWS の完全マネージド型 ML サービスである Amazon […]

Read More

新機能 — Amazon SageMaker Feature Store で機械学習の機能を格納、発見、共有する

今回、 Amazon SageMaker Feature Store を発表できることを、非常に喜ばしく思います。この Amazon SageMaker の新機能により、トレーニングや予測ワークフローで使用するために精選されたデータの安全な保存、検出、共有などを、データサイエンティストや機械学習エンジニアが容易に実施できるようになります。 作業経験が豊富な方であれば、機械学習 (ML) モデルをトレーニングし適切なアルゴリズムを選択するためには、高品質のデータを供給することがいかに重要かをご存知だと思います。ML のワークフローとして、最初にデータをクリーニングするのは良い考えです。さらに通常は、欠損値の補完、外れ値の削除、その他の処理が行われることになります。さらに多くの場合では、「特徴エンジニアリング」 と呼ばれる (一般的なものと難解なもの両方の手法がミックスされた) 手法により、データの変換が行われます。 特徴エンジニアリングの目的とは、簡単に言えば、表現性が高まるようにデータを変換して、アルゴリズムの学習を助けるということです。例えば、多くの列型データセットには、住所などの文字列が含まれています。ほとんどの ML アルゴリズムにとって、文字列は無意味なので、これらを数値表現でエンコードしなおす必要が生じます。この住所の文字列の場合であれば、GPS 座標に置き換えることができます。この形式なら、位置の概念を学ぶアリゴリズムにとって、より表現性が高いものになります。言い方を変えると、データが新しい石油だとすれば、モデルが成層圏の精度を得るのに必要とする高オクタン価のジェット燃料に、その石油を変える精製プロセスが、特徴エンジニアリングだと言えます。 実際、ML の実務担当者達は、特徴エンジニアリング用にコードを作成し、そのコードを初期データセットに適用し、処理されたデータセットでモデルをトレーニングた上でその精度の評価を行うことに、多くの時間を費やしています。この作業は実験的な性質を持つため、たとえ最小規模のプロジェクトであっても、複数回の反復が必要になることがあります。同じ特徴エンジニアリングコードが何度も実行されることも多く、同じ操作の繰り返により時間と計算リソースが浪費されます。こういった事情は、大規模な組織では、さらなる生産性の低下を引き起こすこともあり得ます。多くの場合で異なるチームが同じジョブを実行していたり、以前の作業に関する情報がないために特徴エンジニアリング用のコードを重複して記述したりするのが、その理由です。 また、MLチームには、解決しなければならない別の難しい問題もあります。モデルは処理が施されたデータセットでトレーニングされるているため、予測のために送信されるデータにも、同じ変換を適用することが不可欠となるのです。これは多くの場合、異なる言語で書きなおした特徴エンジニアリングコードを予測ワークフローに統合して、予測の処理時に実行する、ということを意味します。また、こういったプロセスの全体により、時間が消費されるだけでなく、一貫性を損なう可能性もあります。なぜなら、データ変換の最も小さな差異でさえ、予測には大きな影響を与え得るからです。 これらの問題を解決するために、しばしば ML チームは、フィーチャストアを構築します。フィーチャストアとは、トレーニングや予測ジョブで使用される処理済みデータを保持および取得できる、中央リポジトリのことです。フィーチャストアは便利ですが、独自のストアを構築および管理することは、技術、インフラストラクチャ、そして運用の面で多大な労力を要し、実際の ML 作業のための貴重な時間を奪ってしまいます。こういった状況に対する、よりよいソリューションをお客様から求められ、当社では、新サービスを作ることになりました。 Amazon SageMaker Feature Store のご紹介 Amazon SageMaker Feature Store は、ML 機能のための完全マネージド型で一元化されたリポジトリです。インフラストラクチャを管理することなく、特徴データを安全に保管および取得できます。Feature Store は、Amazon SageMaker に組み込まれています。SageMaker は、あらゆるアルゴリズムをサポートしている、ML 用の完全マネージド型サービスです。さらに Feature Store は、ウェブベースの ML 用開発環境である Amazon SageMaker Studio とも統合されています。 SageMaker […]

Read More

新機能 — Amazon SageMaker Pipelines が機械学習プロジェクトに DevOps 機能を提供

本日、 Amazon SageMaker Pipelines を発表することができまして、大変うれしく思います。これは Amazon SageMaker の新機能で、データサイエンティストやエンジニアが、エンドツーエンドの機械学習パイプラインを簡単に構築、自動化、スケールできるようになります。 機械学習 (ML) はもともと試験段階にあり、本質的に予測することはできません。数日から数週間かけてさまざまな方法でデータを分析および処理します。これは、ジオード (晶洞石) を壊して、貴重な宝石を見つけようとする作業のようです。次に、さまざまなアルゴリズムとパラメータを試しながら、最高の精度を求めて多くのモデルをトレーニングおよび最適化します。この作業は通常、アルゴリズムとパラメータの間に依存関係がある多くの異なる手順を伴い、手作業で管理するため、とても複雑になる可能性があります。特に、モデル系列の追跡は簡単ではなく、監査性やガバナンスを妨げます。最後に、上位モデルをデプロイし、参照テストセットに対するモデルの評価を行います。最後に、 と言いましたが、実際には何度も反復して、新しいアイデアを試し、新しいデータでモデルを定期的に再トレーニングします。 ML がどんなにエキサイティングであっても、残念ながら多くの繰り返し作業を伴います。小規模なプロジェクトでも、本番環境に移る前には何百もの手順が必要になります。こうした作業のせいで、時間の経過とともにプロジェクトの楽しさや興奮が失われていくだけでなく、監視する必要性やヒューマンエラーの可能性が大きくなります。 手作業を軽減し、トレーサビリティを向上させるために、多くの ML チームでは DevOps の理念を採用し、継続的インテグレーションと継続的配信 (CI/CD) 用のツールとプロセスを実装しています。確かにこれは正しい手順といえますが、独自のツールを作成することで、当初の予想よりも多くのソフトウェアエンジニアリングとインフラストラクチャ作業が必要な複雑なプロジェクトとなる場合が多いです。貴重な時間とリソースが実際の ML プロジェクトから奪われ、革新のペースがスローダウンします。残念ながら一部のチームでは、手作業でのモデルの管理、承認、デプロイに戻ることにしました。 Amazon SageMaker Pipelines のご紹介 簡単に言うと、Amazon SageMaker Pipelines で、ML プロジェクトの DevOps がトップレベルになります。この新機能により、データサイエンティストや ML デベロッパーは、自動化された、信頼性の高いエンドツーエンドの ML パイプラインを簡単に作成できるようになります。SageMaker は通常どおり、すべてのインフラストラクチャを完全に管理するため、お客様が作業を行う必要はありません。 Care.com は、高品質の介護サービスを見つけて管理するための世界をリードするプラットフォームです。Care.com のデータサイエンスマネージャーの Clemens Tummeltshammer 氏は次のように言います「 需要と供給が均衡な、力のある介護業界は、個々の家庭から国の GDP にいたる経済成長にとって不可欠です。私たちは Amazon SageMaker Feature Store と […]

Read More

機械学習用のデータを準備するためのビジュアルインターフェイス、Amazon SageMaker Data Wrangler のご紹介

本日、Amazon SageMaker の新たな機能であるAmazon SageMaker Data Wranglerを発表できることを非常に嬉しく思います。これを利用することで、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用した機械学習 (ML) アプリケーションのデータ準備をより速く行うことができます。 データサイエンティストと機械学習エンジニアのグループに、機械学習における問題の調査に実際、どのくらい時間を費やすのかを尋ねるたびに、私はよく多くのため息と、それに続く「運が良ければ 20% です」というせりふに沿った答えを聞きます。その理由を尋ねると、答えはいつでも同じです、「データ準備に、常に時間の 80% を費やしています。」 実際、トレーニングのためのデータ準備は、機械学習のプロセスにおける重要なステップであり、そこで下手な仕事をしようとは誰も考えないでしょう。一般的なタスクは次のとおりです。 データの特定: 未加工データの格納場所の検索、データへのアクセス データの可視化: データセット内の各列の統計的性質の検証、ヒストグラムの構築、外れ値の調査 データのクリーニング: 重複の削除、欠損値のエントリの入力または削除、外れ値の削除 データの強化および特徴エンジニアリング: 列の処理によるより表現力のある特徴データの構築、トレーニングのための特徴データのサブセットの選択 新しい機械学習プロジェクトの初期段階において、これは直感と経験が大きな役割を果たす高度な手動プロセスです。データサイエンティストは、多くの場合、pandas や PySpark などのオープンソースツールやオープンソースツールの組み合わせを使用して、さまざまなデータ変換の組み合わせを試し、モデルをトレーニングする前にデータセットを処理します。その後、予測結果を分析し、反復処理を行います。同じくらい重要ですが、このプロセスを何度も繰り返しループするのは、時間がかかり面倒であると同時に、エラーが発生しやすくなります。 ある時点で、適切なレベルの精度 (または選択した他のすべてのメトリクス) に達すると、本番環境の完全なデータセットでトレーニングしたいと考えるでしょう。しかし、まずはサンドボックス内で実験した正確なデータ準備のステップを再現および自動化する必要があります。残念ながら、この作業のインタラクティブな性質を考慮すると、慎重に文書化していても、常にエラーの余地があります。 最後に大事なことですが、最終段階に進む前に、データ処理インフラストラクチャを管理および拡張する必要があります。今考えれば、このすべてを行うには、80% の時間では十分ではないかもしれません。 Amazon SageMaker Data Wrangler のご紹介 Amazon SageMaker Data Wrangler は、機械学習用に完全に管理された統合開発環境 (IDE) である Amazon SageMaker Studio に統合されています。数回クリックするだけで、データソースへの接続、データの探索と視覚化、組み込み変換および独自の変換の適用、自動生成されたスクリプトへの結果コードのエクスポート、マネージドインフラストラクチャでの実行が可能です。各ステップをより詳しく見ていきましょう。 もちろん、データ準備は、データを特定してアクセスすることから始まります。SageMaker Data Wrangler を使用すると、導入してすぐに Amazon Simple Storage Service […]

Read More

Amazon SageMaker JumpStart で事前構築済みモデルと機械学習ソリューションへのアクセスを簡素化する

本日、Amazon SageMaker の新機能である Amazon SageMaker JumpStart の提供を開始したことを発表します。人気の高いモデルのコレクション (別名「モデルズー」) および一般的なユースケースを解決するエンドツーエンドのソリューションに、ワンクリックでアクセスして機械学習ワークフローを高速化することができます。 近年、機械学習はビジネスプロセスの改善と自動化に役立つ技術であることが証明されています。実際、過去データでトレーニングされたモデルは、金融サービス、小売、製造、通信、ライフサイエンスといった幅広い業界において結果を高精度に予測できます。しかし、これらのモデルの使用には、データセットの準備、アルゴリズムの選択、モデルのトレーニング、精度の最適化、本番稼働環境へのデプロイ、パフォーマンスの経時的モニタリングといった、一部の科学者やデベロッパーだけが有しているスキルと経験が必要になります。 モデルの構築プロセスを簡素化するために、機械学習コミュニティは、モデルズーと呼ばれる、人気の高いオープンソースライブラリによるモデルのコレクションを作成しました。モデルズーは多くの場合、リファレンスデータセットで事前トレーニングされています。例えば、TensorFlow Hub や PyTorch Hub では、デベロッパーは多数のモデルをダウンロードして、コンピュータビジョンや自然言語処理などのアプリケーションに統合することができます。 モデルのダウンロードは第一歩にすぎません。デベロッパーはその後、TensorFlow Serving および TorchServe モデルサーバーといったさまざまなツール、または独自のカスタムコードを使用してモデルをデプロイし、評価とテストを行う必要があります。モデルを実行したら、デベロッパーは受信データの適切な形式を把握する必要があります。これは以前からの悩みの種です。毎回ここで頭を抱えているのは私だけではないでしょう。 もちろん、完全な機械学習アプリケーションには通常、多くの不確定要素があります。データを事前処理して、バックエンドから取得した追加データでエンリッチメントを行い、モデルに投入する必要があります。予測は多くの場合、後処理され、さらなる分析や視覚化を行うために保存されます。モデルズーは有用ですが、役に立つのはモデリング段階でのみです。完全な機械学習ソリューションが提供できるようになるまでにデベロッパーが行うべき作業は、まだたくさんあります。 そのため、機械学習エキスパートには、プロジェクトのバックログが殺到します。一方で経験の少ないプラクティショナーは、開始するまでに苦労します。これらの障壁は大変苛立たしいものです。お客様からもこの問題への対処を求められました。 Amazon SageMaker JumpStart のご紹介 Amazon SageMaker JumpStart は、機械学習用の完全な統合開発環境 (IDE) である Amazon SageMaker Studio に統合されているため、モデルやソリューションなどを直感的に見つけることができます。ローンチ時の SageMaker JumpStart には、以下が含まていれます。 不正検出や予知保全といった、一般的な機械学習ユースケースに対応する 15 以上のエンドツーエンドソリューション コンピュータビジョン (画像分類、物体検出) および自然言語処理 (文章分類、質問応答) に対応する、TensorFlow Hub および PyTorch Hub で公開されている 150 以上のモデル […]

Read More

予知保全を可能にするシンプルでコスト効率性に優れた Amazon Monitron

本日、Amazon Monitron を発表しました。Amazon Monitron は状態モニタリングサービスで、潜在的な障害の検出、および開発中の誤りの追跡により、予知保全を実施し、予期しないダウンタイムを低減できます。 実話:数ヶ月前、私は新しい洗濯機を購入しました。配達業者が地下室にそれを設置した時に、最近製品は数年も持たなく、信頼できなくなっていることについて雑談しました。彼が去ろうした時に、私は老朽化してメンテナンスが不十分な給湯器を指さし、数週間後にこれを新しいものと交換することを伝えました。信じがたいことに、次の日それが壊れました。どうぞ、笑ってください。事前に計画していないので当然のことです。 この出来事には苛立ちましたが、生産ラインや倉庫などの産業環境で機械の予期せぬ故障による時間やコストの巨大な損失に比べれば、何てことありません。砂粒が原因で予定外の停止が起こることもあります。事は最悪の形で、最悪の時に起こる可能性が高い、そして結果として、深刻なビジネスへの影響をもたらすということを、マーフィーの法則から学びました。 故障を回避するために、信頼性マネージャやメンテナンス技術者が次の 3 つの戦略を組み合わせることがよくあります。 故障まで実行 :確実に動作しなくなるまで、メンテナンスをせずに機器を操作させる。修理の完了後、機器を稼働状態に戻す。ただし、機器の状態は不明で、故障は制御不能です。 計画的保守 : 状態に関係なく、事前定義された保守作業が定期的または計量の基準で実行される。計画的なメンテナンス活動の有効性は、メンテナンスの指示や計画するサイクルの良し悪しに依存します。機器のメンテナンスが過剰だったり、あるいは不十分だったりする場合に、不必要なコストが発生したり、故障が発生したりする危険性があります。 状態基準保全 : 監視対象コンポーネントの状態が定義済みのしきい値を超えたときにメンテナンスを完了させる。耐性、振動、温度などの物理的特性を監視することは、より適切な戦略です。これにより、メンテナンスの必要性やメンテナンスコストを低減できます。 予知保全 : コンポーネントの状態を監視し、潜在的な障害を検出し、障害の発生を追跡する。メンテナンスは、将来予想される障害発生の前に、且つメンテナンスの総コストが最も効率の高いときに計画します。 状態基準保全と予知保全では、重要な機器にセンサーを設置する必要があります。これらのセンサは、温度や振動などの物理量を測定し、取得します。その変化は、潜在的な故障または悪化状態の先行指標となります。 ご想像のとおり、このようなメンテナンスシステムの構築と導入には、特注のハードウェア、ソフトウェア、インフラストラクチャ、プロセスなどが必要で、長期的かつ複雑でコストのかかるプロジェクトになる可能性があります。お客様から支援を求められ、この事業に取り組みました。 Amazon Monitron のご紹介 Amazon Monitron は、簡単に利用ができて、費用対効果の高い監視サービスで、施設内の機器の状態を監視し、予知保全プログラムを実施します。 Amazon Monitron の設定はとても簡単です。まず、 Monitron センサーをインストールします。これで、ベアリング、ギアボックス、モーター、ポンプ、コンプレッサ、ファンなどの回転機械から振動と温度データを取得します。センサーは、Bluetooth Low Energy (BLE) 技術を使用して、振動と温度の測定値を近くの Monitron ゲートウェイに毎時送信します。センサーを少なくとも 3 年間稼働させることができます。 Monitron ゲートウェイ自体は WiFi ネットワークに接続され、センサーデータを AWS に送信します。データは格納され、機械学習と ISO 20816 振動関連規格を使用して分析されます。 通信頻度が低いため、最大 20 個のセンサーを 1 […]

Read More

Amazon SageMaker が今後も機械学習のトップランナーであり続けることの宣言と、GPU インスタンス料金の最大 18% 引き下げのお知らせ

アマゾン ウェブ サービス (AWS) は 2006 年以来、何百万人にも上るお客様の IT ワークロードの構築と管理を支援してきました。スタートアップ企業から大規模エンタープライズ、公共機関まで、あらゆる規模の組織が AWS のクラウドコンピューティングサービスを利用して、過去に例のないレベルのセキュリティ、回復力、スケーラビリティを実現しています。毎日、お客様はこれまでより短い時間とより低いコストで、実験、イノベーション、本番環境デプロイを行っています。その結果、追求、獲得したビジネスチャンスを、産業グレードの製品およびサービスに変換することが可能になりました。 お客様にとって機械学習の優先順位が上がってくるにつれて、同じ俊敏性と堅牢性を十分に備えた機械学習サービスの構築が求められるようになりました。その結果、フルマネージド型サービスである Amazon SageMaker が AWS re:Invent 2017 で発表、リリースされ、あらゆるデベロッパーやデータサイエンティストが機械学習モデルを高速で構築、トレーニング、デプロイできるようになりました。 Amazon SageMaker は現在、あらゆる業種の数万人に上るお客様が本番環境で高品質のモデルを構築、トレーニング、デプロイするのを支援しています。その例としては、金融サービス (Euler Hermes、Intuit、Slice Labs、Nerdwallet、Root Insurance、Coinbase、NuData Security、Siemens Financial Services)、ヘルスケア (GE Healthcare、Cerner、Roche、Celgene、Zocdoc)、報道およびメディア (Dow Jones、Thomson Reuters、ProQuest、SmartNews、Frame.io、Sportograf)、スポーツ (Formula 1、Bundesliga、Olympique de Marseille、NFL、Guiness Six Nations Rugby)、小売 (Zalando、Zappos、Fabulyst)、オートモーティブ (Atlas Van Lines、Edmunds、Regit)、デートアプリ (Tinder)、ホスピタリティ (Hotels.com、iFood)、産業および製造業 (Veolia、Formosa Plastics)、ゲーム (Voodoo)、カスタマーリレーションシップマネジメント (Zendesk、Freshworks)、エネルギー (Kinect Energy Group、Advanced Microgrid […]

Read More

Amazon Transcribe で自動言語識別がサポートされるようになりました

  2017 年、自動音声認識サービスの 1 つとして、Amazon Transcribe のサービスが開始され、デベロッパーが 音声をテキストに変換する機能 (speech-to-text) を簡単にアプリケーションに追加できるようになりました。それ以来、多くの言語がサポートされ、リアルタイム対応の 6 言語を含む、31言語で音声録音の変換が可能になりました。 Amazon Transcribe の一般的なユースケースは 、顧客からの電話問い合わせのトランスクリプション(文字起こし)です。これにより、企業は自然言語処理技術を使用してトランスクリプション(文字起こし)したテキストを分析し、感情を読み取ったり、最も一般的な電話問い合わせの理由を特定したりできます。複数の公用語を持つ国や複数の地域で運用する場合、音声ファイルに異なる言語が含まれている可能性があります。したがって、トランスクリプション(文字起こし)を行う前に、適切な言語でファイルを手動でタグ付けする必要があります。これには、通常、多言語スピーカーのチームを編成する必要があり、音声ファイルの処理に余分なコストと遅延が発生します。 メディアおよびエンターテインメント業界では、 Amazon Transcribe を使用して、メディアコンテンツをアクセス可能で、検索可能なテキストファイルに変換することがよくあります。ユースケースには、字幕やトランスクリプトの生成、コンテンツの調整などが含まれます。オペレーションチームは、Amazon Transcribe を品質管理にも利用します。たとえば、抽出されたテキストに含まれるタイムスタンプから音声と動画が同期していることを確認できます。しかし、間違った言語で動画がストリーミングされないようにするために主要な言語をラベル付けしますが、これを検証する方法など、簡単には解決できない他の問題がありました。 本日、 Amazon Transcribe が音声録音で主要な言語を自動識別できるようになったことを発表します。この機能により、手動によるタグ付けが不要になり、より効率的なトランスクリプション(文字起こし)のワークフローを構築できます。Amazon Transcribe を使用して、上記の例に加え、ボイスメール、会議、その他あらゆる録音フォーマットを自動的に認識してトランスクリプション(文字起こし)することが簡単にできるようになりました。 自動言語識別の導入 Amazon Transcribe は 、30 秒以上の音声から効率的に音声言語でトランスクリプトを生成できます。手動でタグ付けする時間やリソースは必要ありません。主要な言語の自動識別は、バッチトランスクリプションモードで 31 言語すべてに対応しています。言語識別は、サンプリング技術により、トランスクリプション処理よりもはるかに高速に数秒で行われます。 すでに Amazon Transcribe を 音声認識に使用している場合は、 StartTranscriptionJob API でこの機能を有効にするだけで利用できるようになります。トランスクリプションジョブが完了する前に、GetTranscriptionJob API が音声録音での主要な言語と、信頼度スコアとして 0 ~ 1 を返します。トランスクリプトには、上位 5 つの言語とそれぞれの信頼度スコアがリストされています。 もちろん、 Amazon Transcribe […]

Read More

Amazon ECS が EC2 Inf1 インスタンスのサポートを開始

機械学習と深層学習のモデルがより高度になるにつれて、高スループットで予測を素早く提供するためのハードウェアアクセラレーションの必要性も急増しています。本日より、AWS のお客様は、クラウドにおける高パフォーマンス性と最も低い予測コストのために Amazon ECS で Amazon EC2 Inf1 インスタンスをご利用いただけるようになります。これらのインスタンスは、数週間前から Amazon Elastic Kubernetes Service での利用が可能になっています。 EC2 Inf1 インスタンスの手引き Inf1 インスタンスは、AWS re:Invent 2019 でリリースされました。これらは AWS が一から構築したカスタムチップの AWS Inferentia を使用しており、機械学習の推論ワークロードが加速します。 Inf1 インスタンスは複数のサイズで利用可能で、1、4、または 16 の AWS Inferentia チップがあり、最大 100 Gbps のネットワーク帯域幅と最大 19 Gbps の EBS 帯域幅があります。AWS Inferentia チップには 4 つの NeuronCore が含まれています。いずれも高性能のシストリックアレイ行列乗算エンジンを実装しているため、畳み込みや変換などの一般的な深層学習のオペレーションを大きく高速化します。NeuronCores には大容量のオンチップキャッシュも搭載されており、外部メモリからのアクセスを削減し、プロセスの I/O 時間を節約できます。複数の AWS Inferentia チップが Inf1 […]

Read More