コンピュータビジョンとは

コンピュータビジョンは、マシンが画像を自動的に認識して正確かつ効率的に記述するために使用する技術です。現在、コンピューターシステムは、スマートフォン、交通カメラ、セキュリティシステム、およびその他のデバイスから取得された、またはそれらによって作成された大量の画像およびビデオデータにアクセスできます。コンピュータビジョンアプリケーションでは、人工知能と機械学習 (AI/ML) を使用してこのデータを正確に処理し、オブジェクトの識別や顔認識、分類、推奨、監視、検出を行います。

コンピュータービジョンが重要である理由

視覚情報処理技術は以前から存在していましたが、そのプロセスの多くは人間の介入を必要とし、時間がかかり、エラーも発生しやすかったです。例えば、過去に顔認識システムを実装する場合、デベロッパーは鼻筋の幅や目の間の距離などの重要なデータポイントを何千もの画像に手動でタグ付けする必要がありました。画像データは構造化されておらず、コンピューターが整理するには複雑なため、これらのタスクを自動化するには膨大な計算能力が必要でした。そのため、ビジョンアプリケーションは高価で、ほとんどの組織では利用できませんでした。

今日では、この分野の進歩と計算能力の大幅な向上が相まって、画像データ処理の規模と精度の両方が向上しています。クラウドコンピューティングリソースを搭載したコンピュータービジョンシステムに、誰でもアクセスできるようになりました。どの組織でも、このテクノロジーを本人確認、コンテンツ管理、ストリーミング動画分析、障害検出などに使用できます。

コンピュータービジョンのユースケースにはどのようなものがありますか?

エンターテインメント、ビジネス、医療、交通、日常生活など、さまざまなコンピュータービジョンアプリケーションが使用されています。以下にいくつかのユースケースを見ていきます。

セキュリティと安全

政府や企業は、資産、施設、設備のセキュリティを向上させるためにコンピュータービジョンを利用しています。例えば、カメラとセンサーは、公共スペース、工業用地、および高度なセキュリティ環境を監視します。権限のない個人が立ち入り禁止区域に入るなど、通常とは異なることが発生した場合、自動アラートを送信します。

同様に、コンピュータービジョンは、自宅だけでなく職場でも個人の安全を向上させることができます。例えば、認識技術は安全に関連する無数の問題を監視できます。これらには、ペットを検出する自宅でのリアルタイムストリーム、訪問者や配達された荷物を検知するライブフロントドアカメラなどがあります。職場での監視には、作業者による適切な個人用保護具の着用、警告システムへの通知、または報告書の作成が含まれます。

運用効率

コンピュータービジョンは、画像を分析してビジネスインテリジェンスのメタデータを抽出することで、新たな収益機会と業務効率を創出します。例えば、次のことができます。

  • 製品が工場から出荷される前に品質欠陥を自動的に特定します
  • マシンのメンテナンスと安全上の問題を検知
  • ソーシャルメディアの画像を分析して、顧客行動の傾向とパターンを発見する
  • 自動顔認識による従業員認証

医療

ヘルスケアは、コンピュータービジョン技術を応用する主要産業の1つです。特に、医療画像解析は臓器や組織を視覚化して医療従事者が迅速かつ正確な診断を下すのに役立ち、結果として治療成績や平均余命の向上につながります。以下に例を示します。

  • ほくろや皮膚病変の分析による腫瘍検出
  • 自動 X 線分析
  • MRI スキャンによる症状発見

自動走行車

自動運転車技術は、コンピュータービジョンを使用してリアルタイムの画像を認識し、自律輸送に搭載された複数のカメラから 3D マップを作成します。画像を分析して、他の道路利用者、道路標識、歩行者、または障害物を特定できます。

半自動運転車では、コンピュータービジョンが機械学習 (ML) を使用してドライバーの行動を監視します。例えば、ドライバーの頭の位置、アイトラッキング、上半身の動きに基づいて、注意散漫や疲労、眠気の兆候を探します。このテクノロジーが特定の警告標識を検出すると、ドライバーに警告し、運転事故の可能性を減らします。

農業

生産性の向上からインテリジェントオートメーションによるコスト削減まで、コンピュータービジョンアプリケーションは農業部門全体の機能を強化します。衛星画像や UAV 映像は、広大な土地の分析と農業慣行の改善に役立ちます。コンピュータビジョンアプリケーションは、畑の状態の監視、作物の病気の特定、土壌水分のチェック、天候や収穫量の予測などのタスクを自動化します。コンピュータービジョンによる動物モニタリングは、スマートファーミングのもう 1 つの重要な戦略です。

コンピュータービジョンはどのように機能しますか?

コンピュータビジョンシステムは、人工知能 (AI) 技術を使用して、物体認識と物体分類を担う人間の脳の機能を模倣します。コンピューター科学者は、膨大な量の情報を入力して視覚データを認識するようにコンピューターをトレーニングします。機械学習 (ML) アルゴリズムは、こうした画像や動画の一般的なパターンを識別し、その知識を適用して未知の画像を正確に識別します。例えば、コンピューターが何百万もの車の画像を処理すると、画像内の車両を正確に検出できる識別パターンが構築され始めます。コンピュータビジョンには、以下のような技術が使われています。

深層学習

深層学習は、ニューラルネットワークを使用する機械学習の一種です。深層学習ニューラルネットワークは、コンピューター内で連携して動作する人工ニューロンと呼ばれるソフトウェアモジュールを何層にも重ねて構成されています。数学的な計算を使って画像データのさまざまな側面を自動的に処理し、画像に関する総合的な理解を徐々に深めていきます。

畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (CNN) は、ラベリングシステムを利用して視覚データを分類し、画像全体を理解します。画像をピクセルとして分析し、各ピクセルにラベル値を与えます。この値を入力して、コンボリューションと呼ばれる数学演算を実行し、画像について予測を行います。人間が遠くにある物体を認識しようとするように、CNN はまず輪郭や単純な形を識別してから、色、内部の形、質感などの詳細を入力します。最後に、予測プロセスを数回繰り返して精度を向上させます。

リカレントニューラルネットワーク

リカレントニューラルネットワーク(RNN)は CNN に似ていますが、一連の画像を処理してそれらの間のリンクを見つけることができます。CNN は単一画像の分析に使用されますが、RNN は動画を分析して画像間の関係を理解できます。 

コンピュータービジョンで実行できる一般的なタスクにはどのようなものがありますか?

組織が実装できるコンピュータービジョンタスクの例を以下に示します。 

画像の分類

画像分類により、コンピューターは画像を見て、その画像がどのクラスに分類されるかを正確に分類できます。コンピュータビジョンはクラスを理解し、木、飛行機、建物などのラベルを付けます。一例として、カメラは写真の中の顔を認識してピントを合わせることができます。

オブジェクトの検出

オブジェクトの検出は、画像を検出してローカライズするためのコンピュータービジョンタスクです。分類を使用して画像を識別、並べ替え、整理します。物体検出は、工業プロセスや製造プロセスで自律型アプリケーションの制御や生産ラインの監視に使用されます。また、コネクテッドホームカメラのメーカーやサービスプロバイダーは、カメラからのライブビデオストリームを処理して人や物体をリアルタイムで検出し、エンドユーザーに実用的なアラートを提供するためにオブジェクトの検出を利用しています。

オブジェクトのトラッキング

オブジェクトのトラッキングでは、深層学習モデルを使用して、カテゴリに属するアイテムを識別して追跡します。複数の業界にまたがるいくつかの実際の用途があります。オブジェクトのトラッキングの最初の要素はオブジェクト検出です。オブジェクトの周囲にバウンディングボックスが作成され、オブジェクト ID が割り当てられ、フレームを介して追跡できます。例えば、オブジェクトのトラッキングは、都市環境での交通監視、人間による監視、医療画像処理に使用できます。

セグメンテーション

セグメンテーションとは、表示されたピクセルに基づいてオブジェクトの画像をさまざまな領域に分割することによってオブジェクトを識別するコンピュータービジョンアルゴリズムです。セグメンテーションは、アイテムの形や輪郭を配置してそれが何であるかを判断するなど、画像を簡略化することもできます。そうすることで、セグメンテーションは画像またはフレームに複数のオブジェクトがあるかどうかも認識します。

例えば、画像に猫と犬がいる場合、セグメンテーションを使用して 2 匹の動物を認識することができます。オブジェクトの周囲にボックスを形成するオブジェクト検出とは異なり、セグメンテーションはピクセルを追跡してオブジェクトの形状を決定するため、分析やラベル付けが容易になります。

コンテンツベースの画像検索

コンテンツベースの画像検索は、大規模なデータベースから特定のデジタル画像を検索できるコンピュータービジョン技術の応用です。タグ、説明、ラベル、キーワードなどのメタデータを分析します。セマンティック検索では、「建物の写真を検索」などのコマンドを使用して適切なコンテンツを取得します。

コンピュータビジョンと画像処理の違いは?

画像処理では、アルゴリズムを使用して、シャープ化、スムージング、フィルタリング、強調などの画像を変更します。コンピュータービジョンは、画像を変えるのではなく、見たものを理解してラベル付けなどのタスクを実行するという点で異なります。場合によっては、画像処理を使用して画像を変更し、コンピュータービジョンシステムが画像をよりよく理解できるようにすることができます。また、コンピュータービジョンを使用して画像や画像の一部を識別し、画像処理を使用して画像をさらに修正する場合もあります。

AWS はコンピュータビジョンのタスクにどのように役立ちますか?

AWS は、あらゆるレベルの専門知識を持つお客様に、包括的なデータソースに接続された、最も幅広く、最も完全な人工知能と機械学習 (AI/ML) サービスを提供しています。

フレームワークを構築し、独自のインフラストラクチャを管理しているお客様向けに、PyTorch MXNet TensorFlow など、最も一般的な深層学習フレームワークのバージョンを最適化します。AWS では、コンピューティング、ネットワーキング、ストレージインフラストラクチャ ML サービスの幅広く充実したポートフォリオを提供しており、独自のパフォーマンスと予算のニーズに合わせてプロセッサやアクセラレータを選択できます。

ビジネス全体で標準的なコンピュータービジョンソリューションを構築したいお客様向けに、Amazon SageMaker は、フルマネージドインフラストラクチャ、ツール、およびワークフロー (ビジネスアナリスト向けのノーコードのサービスを含む) を使用して、あらゆるユースケースのために、データの準備や、ML モデルの構築、トレーニング、およびデプロイを簡単に実行できるようにします。

ML のスキルがないお客様、市場投入までの時間を短縮したいお客様、または既存のプロセスやアプリケーションにインテリジェンスを追加したいお客様向けに、AWS は ML ベースのさまざまなコンピュータービジョンサービスを提供しています。これらのサービスにより、事前にトレーニングされた API を使用して AI アプリケーションに簡単にインテリジェンスを追加できます。Amazon Rekognition は ML を使用して画像や動画の分析を自動化し、数百万の画像、ライブストリーム、保存されている動画を数秒で分析します。Amazon Deep Lens は世界初の深層学習対応ビデオカメラで、デベロッパーはコンピュータービジョンプロジェクト、チュートリアル、物理デバイスを使った現実世界での実践的な探索を通じて深層学習の基礎を学ぶことができます。

今すぐ無料の AWS アカウントを作成して、コンピュータービジョンの使用を開始しましょう。

AWS での次のステップ

追加の製品関連リソースを確認する
機械学習サービスの詳細 
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで、AWS を使って構築を開始しましょう。

サインイン