メディアアプリケーション向け機械学習
機械学習、人工知能、深層学習の違い
機械学習とは、既存のデータ間の関係について理解するモデルを構築し、新しいデータについて予測をする学習アルゴリズムの使用を指します。機械学習という言葉は人工知能と同じ意味で使われることがありますが、実はこれらの用語は、関連する別々の概念を指しています。
人工知能とは、明示的なプログラミングなしに現実世界を感知し、学び、推論し、行動し、適応する能力です。広義には、人間のようなある一定のレベルの知能を示すことができるあらゆるシステムとして定義することができます。
明示的な人間の指示なしにコンピュータが学習し決定を下すことを可能にするソリューションを構築する全体的な概念が人工知能であるとした場合、機械学習とは開発者がそれらの能力を生み出すメソッドといえます。
深層学習は、機械学習について議論するときによく持ち出される 3 つ目の用語です。深層学習は、明示的な数学的アルゴリズムを使用するのではなく、脳がどのように機能するかをモデル化し、ニューラルネットワークと呼ばれるシステムで学習します。
結論: 人間のように振る舞うことができるシステムを構築する方法は複数あります。それは、ルールベースのシステムおよび知識ベースのシステムで、過去数十年にわたって注目されてきました。しかし、統計に深く根ざしているのが機械学習であるため、人工知能アプリケーションやシステムを構築する際には機械学習ツールやサービスを使用することになります。
人工知能
明示的なプログラミングなしに現実世界を感知し、学び、推論し、行動し、適応する。
機械学習
学習アルゴリズムを使用してデータからモデルを構築する計算メソッド (教師あり、教師なし、半分教師あり、または強化学習モード)。
深層学習
連続する複雑な表現を学習する多層のニューロンを持つニューラルネットワークにヒントを得たアルゴリズム。
クラウドの機械学習の違いは?
膨大な処理能力、データレイク、セキュリティ、分析機能、そしてクラウドサービスと統合する能力の組み合わせが、ニッチで実験的なテクノロジーであった機械学習を、ビジネスにおいて必要不可欠な構成要素へと変えつつあります。
今日、企業は多くの機械学習ツールを使用して分析用のデータを作成し、機械学習モデルを構築および改良し、音声認識、画像と動画の分析、予測や推奨事項の提供、その他多くのインテリジェントなソリューションを含む、エンドユーザー認知アプリケーションを活用しています。
その結果、機械学習によって、毎日の業務を推進するシステム、プロセス、およびインフォメーションテクノロジーから新しいインサイト、発見、効率性がもたらされています。機械学習テクノロジーが作業成果物とそれを操作する人々および処理に価値を付加することによって、ほとんどすべてのビジネスや創造活動の基盤となるコアインフラストラクチャを強化させることができます。
これは、メディアとエンターテインメント、企業、公共部門の動画プロバイダーをはじめ、機械学習によって動画コンテンツの価値を高め、優れた視聴者体験を生み出すことができるすべての分野でますます真実となってきています。
特に動画プロバイダーにとっては、動画のクラウド機械学習ツール向けのアプリケーションの数は膨大であり、開発と改良が続けられています。
動画向けのクラウドの機械学習の利点は?
現代の動画プロバイダーは、共通して以下のような質問を持っています。
- どの俳優が演じているか?
- 特定の言葉が発せられるタイミングは?
- どのようなオブジェクトが映っているか?
- 存在する俳優/場面/単語/オブジェクトがわかったら、それらを必要なときにどのように正確に取得するか?
クラウドの動画機械学習では、それぞれの質問に答えるための便利な方法が用意されています。以下に例を提示します。
検索可能な動画アーカイブ: クラウドの機械学習サービスでは、動画チームは、動画アーカイブからアセットをカタログ化したり、検索したり、構築したりすることに費やす時間とリソースを大幅に削減できます。機械学習を利用したコンテンツのインデックス作成とメタデータの生成によって、現実世界で大きな利点を持つ多くのアプリケーションを有効化することができます。
例えば、多数の放送局では、多くの場合異なるソースから生じ、矛盾するシステムを使用してアセットにタグ付けされた可能性もある動画コンテンツの大規模なアーカイブを、維持しなければなりません。機械学習ツールを使用すると、検索のためにコンテンツにタグを付けるという時間のかかる手作業を排除することができ、動画コンテンツライブラリを高速で正確な検索向けに最適化することができます。
動画キャプションの自動化: キャプションメタデータは、動画をすべての視聴者にとって便利でアクセス可能なものにするために不可欠です。しかし、動画アセットを書き起こし、異なる画面やデバイス間でアクセシビリティを確保するために必要なさまざまな形式で正確なキャプションを作成して統合するプロセスには、コストと時間がかかる場合があります。膨大な量のコンテンツのキャプションを生成する必要がある場合、ますます法外な時間と費用がかかることになります。
クラウドで動画を処理および分析できる機械学習ツールの出現により、コンテンツプロバイダーはキャプション作成プロセスを自動化するためのパワフルでスケーラブルなプロセスを手に入れることができるようになりました。これは、何千時間もの動画があり、顧客が設定したアクセシビリティ要件を満たすためにキャプションが必要な、オンライントレーニングプロバイダーなどの企業にとって時間と労力の大幅な節約になります。
動画クリップ生成: 従来は、動画クリップを生成し公開するプロセスには、生の動画から関連するコンテンツを識別し、タイムコード化されたクリップを生成し、さらにソーシャルチャネルで公開するためにそれらのクリップをトランスコード、パッケージ化、配布するといった手動ワークフローが必要とされていました。
この労働力を必要とする複数のステップによるプロセスは、特にライブイベントの放送では、遅延を引き起こしたり、機会を逃したりする可能性があります。現在、機械学習ツールは、プロセスの重要なステップを自動化することによって配信者が視聴者の画面に価値の高いクリップをほぼリアルタイムで表示できるようにしています。これは、即時性という特性を持つソーシャルメディアにはるかに適しています。
パーソナライズと収益化: ストリーミング動画の収益機会を最適化するために、コンテンツプロバイダーは、個々のユーザーをターゲットとし、パーソナライズされた広告などによって各視聴者に合わせた方法で配信される広告を提供するためのインフラストラクチャを整備する必要があります。
機械学習で強化された動画ワークフローを使用すると、視聴者が使用しているデバイスの種類、視聴者に関する人口統計情報、あるいはストリーミングされているコンテンツに関する情報など、さまざまな要因に基づいてパーソナライズされた広告をシームレスに挿入することができます。これはコンテンツ対応広告挿入として知られています。
分析と測定: 今日の動画ワークフローには、ライブストリームと VOD ストリーム、およびそれらの背後にあるインフラストラクチャに関する、無限に近い量の情報を測定して報告する機能があります。個々のコンポーネントのパフォーマンス、主要なプロセス、完全なワークフローに関連するデータを測定し、リアルタイムの通知または長期的な分析に使用できます。
新しいインサイトと発見を特定するために、機械学習システムのアプリケーションによって、ワークフローのパフォーマンス、ネットワークリソースの使用、収益化の結果など、動画ワークフローのあらゆる側面を最適化する新しい方法がコンテンツプロバイダーに提供されます。
将来的に可能になりそうな機械学習動画アプリケーションは?
セキュリティ: クラウドのセキュリティ保護に関する主な懸念の 1 つは、アクセスコントロールです。例えば、動画プロバイダーは、未発表のヒット作からの映像などのプライベートコンテンツを、社員が誤って公開してしまうというようなミスが起こらないようにしたいと考えています。「機械学習の警備員」は、他の誰かが気付く前に保護されたコンテンツを実際に検出することによって、このような問題から守ることができます。
コンテンツの権利: 動画プロバイダーにとってのもう一つの悩みは、毎秒 1 フレームずつフレームレートを遅くするなどの、ウォーターマークやコンテンツフィルターを回避するためのトリックを使用して、著作権で保護されたコンテンツの動画をオンラインで公開するユーザーがいるということです。スタジオスクリプトや権利所有者のコンテンツがロードされた機械学習ソリューションを想像してみてください。ソリューションは、このデータを使用してウェブ上で新しいコンテンツをスキャンし、スクリプトと一致する会話と音声を認識することができます。
動画デモ: スポーツ動画における機械学習
フレームベースの分析: AWS Elemental メディアサービスと Amazon Rekognition を組み合わせたこのデモでは、画面内の人物の識別と追跡、その画面からのメタデータの作成と公開、および非常に高速でインテリジェントな検索機能の活用がいかに簡単にできるかを説明します。