ビッグデータは、データの量、速度、および多様性の増加に伴って生じる、従来のデータベースでは解決できないデータ管理の課題の観点から説明できます。ビッグデータには様々な定義がありますが、一般にそれぞれにはビッグデータの「3 つの V」として知られた概念が含まれます。

Volume (量) : テラバイトからペタバイトまでのデータが含まれます。

Variety (多様性) : 幅広いソースや形式のデータ (ウェブログ、ソーシャルメディアのやりとり、E コマーストランザクションとオンライントランザクション、財務取引など) が含まれます。

Velocity (速度) : 企業において、データが生成されてから、実用可能な洞察がユーザーに提供されるまでの時間的要件は厳しくなっています。そのため、データの収集、保存、処理、分析を比較的短い時間枠 (日次からリアルタイム) で行う必要があります。


誇大宣伝をよそに、ビッグデータの問題を抱えていることに気付かない、あるいは問題をビッグデータの観点から考えていない組織は少なくありません。一般に、データの量、多様性、および速度の急増に応じて既存のデータベースとアプリケーションがスケールできなくなった場合、ビッグデータテクノロジーが組織の役に立ちます。

ビッグデータの課題に正しく対処できないと、コストが上がり、生産性と市場競争力が下がる可能性があります。一方、安定したビッグデータ戦略があれば、既存の重いワークロードをビッグデータテクノロジーに移行したり、新しい機会を有利に活用するために新しいアプリケーションをデプロイしたりして、組織がコストを削減し、運用効率を上げるのに役立ちます。


BigData__hadoop

ビッグデータテクノロジーは、データ管理サイクル全体に対応する新しいツール群により、技術的にも経済的にも実現可能な方法で、より大きなデータセットの収集と保存にとどまらず、それを分析することで新たな価値ある洞察を生み出します。多くの場合、ビッグデータ処理には共通のデータフローが関係します。これは、生データの収集に始まり、実用的な情報の消費に至るものです。

収集。生データ (トランザクション、ログ、モバイルデバイスなど) の収集は、ビッグデータを扱うときに多くの組織が最初に直面する課題です。適切なビッグデータプラットフォームを使うと、このステップが簡略化され、デベロッパーは幅広いデータ (構造化データから非構造化データまで) をあらゆる速度 (リアルタイムからバッチ処理まで) で取り込めます。

保存。どのビッグデータプラットフォームも、安全かつスケーラブルで耐久性を備えたリポジトリに、処理作業前のデータ (あるいは処理作業後のデータさえ) を保存することが必要です。特定の要件によっては、移動中のデータを一時的に保存する必要もあります。

処理と分析。このステップでは、データを生の状態から消費可能な形式に変換します。通常、これは、ソート、集約、結合、さらにはより高度な機能やアルゴリズムを実行することによって行います。変換後のデータセットは、さらに処理するために保存することも、ビジネスインテリジェンスツールやデータ可視化ツールで消費できるようにすることもできます。

消費と可視化。ビッグデータにとって一番重要なのは、データアセットから価値の高い実用可能な洞察を引き出すことです。理想的なのは、高速で簡単にデータセットを分析できるセルフサービスのビジネスインテリジェンスツールやアジャイルデータ可視化ツールで、ステークホルダーがデータを利用できることです。分析の種類に応じて、エンドユーザーは結果データを統計的 「予測」 の形で消費することもあれば (予測的分析の場合)、推奨されるアクションの形で消費することもあります (規範的分析の場合)。


ビッグデータエコシステムは、引き続き驚異的な速度で発展しています。今日では、多様な分析スタイルのセットが組織内のさまざまな機能を支えています。

BigData__collection-processing

記述的分析は、ユーザーが次の質問に答えるときに役立ちます。 「何が起こり、それの原因はなんですか?」例として、スコアカードやダッシュボードを使った従来のクエリやレポート環境があります。

予測的分析は、所定のイベントが将来発生する可能性をユーザーが評価するのに役立ちます。例としては、早期警報システム、不正検出、予防メンテナンスアプリケーション、および予測があります。

規範的分析は、ユーザーに対して、特定の (規範的) 推奨事項を提供します。"x" が発生したらどうするかという質問に答えます。

当初、Hadoop などのビッグデータフレームワークはバッチワークロードしかサポートしていませんでした。これは、大きなデータセットが、指定された時間枠 (日単位ではなく時間単位で計測するのが一般的) の間に一括処理されるものでした。しかし、洞察を得るまでの時間の重要性が増すにつれ、ビッグデータの "速度" が Apache SparkApache KafkaAmazon Kinesis などの新しいフレームワークの発展に拍車をかけ、リアルタイムおよびストリーミングのデータ処理をサポートするようになりました。


アマゾン ウェブ サービスは、クラウドコンピューティングサービスの幅広い、完全に統合されたポートフォリオを提供し、ビッグデータアプリケーションを構築、保護、およびデプロイするために役立ちます。AWS では、ハードウェアの調達、インフラストラクチャの維持やスケールの必要がないため、新しい洞察の発見にリソースを集中できます。新しい機能が絶えず追加されるので、長期間の投資契約なしに常に最新のテクノロジーを活用できます。

AWS ビッグデータのプラットフォームとツールの詳細 »

迅速な可用性

ビッグデータテクノロジーの大半ではサーバーの大規模なクラスターが必要なため、プロビジョニングやセットアップのサイクルが長くなります。AWS では、必要なインフラストラクチャをほぼ瞬時にデプロイできます。これは、お客様のチームの生産性を高め、新しいことに挑戦しやすい環境を整備し、プロジェクトの展開を高速化することを意味します。

広範で奥深い能力

ビッグデータのワークロードは、分析の対象となるデータアセットに応じてさまざまです。広範で奥深いプラットフォームとは、実質的に、すべてのビッグデータアプリケーションを構築でき、データの量、速度、多様性に関係なくすべてのワークロードをサポートできるプラットフォームを意味します。AWS には毎年 50 を超えるサービスと数百の機能が追加されており、クラウドでのビッグデータの収集、保存、処理、分析、および可視化に必要なすべてのものが提供されます。AWS ビッグデータプラットフォームの詳細

信頼性と安全性

ビッグデータは機密データです。そのため、俊敏性を失うことなくデータアセットをセキュリティ保護し、インフラストラクチャを保護することが不可欠です。AWS では、複数の施設、ネットワーク、ソフトウェア、およびビジネスプロセスにわたる、最も厳しい要件を満たす機能が提供されます。ISO 27001、FedRAMP、DoD SRG、および PCI DSS などの認証に対応するために、環境は継続して監査されます。アシュアランスプログラムにより、HIPAA、NCSC など 20 を超える規格に準拠していることを証明できます。詳細については、クラウドセキュリティセンターをご覧ください。

数百ものパートナーとソリューション

大規模なパートナーエコシステムが、スキルの面でのサポートを提供しており、ビッグデータをすぐに始めるのに役立ちます。AWS パートナーネットワークにアクセスして、コンサルティングパートナーからの支援を得たり、データ管理スタック全体にある多くのツールやアプリケーションから選択したりできます。


ビッグデータの課題の解決をお手伝いします。手間のかかる部分はお任せいただき、目標達成に向けて時間やリソースを存分に注ぎ込んでください。

AWS ビッグデータソリューションの詳細 »