HG Data 導入事例

2014 年

HG Data は世界最大級のテクノロジー企業向けにインストールされた技術の高機能インテリジェンスにおいて世界をリードする、急速に成長中のスタートアップ企業で、革新的な OEM パートナーでもあります。HG Data は、インターネットやウェブのアーカイブ、オフラインリソースにある数十億もの体系化されていないドキュメントをインデックス処理します。このドキュメントには B2B ソーシャルメディア、導入事例、プレスリリース、ブログ投稿、政府文書、コンテンツライブラリ、技術サポートフォーラム、ウェブサイトのソースコード、求人情報、レジュメなどが含まれますが、これを利用して、世界各地の企業で使用中のインストールされた B2B 技術に関する詳細かつ正確な調査を実施します。

HG Data は、インストールされた技術に関する世界最大のグローバル B2B データベースを、かつて可能だったレベルより正確かつ詳細に構築できます。HG Data のクライアントは、市場分析、競争的置換、予測モデリング、マーケティングキャンペーン、クライアント維持策、セールスプレイブックなどのインストールされた技術を元に企業をターゲットにできます。2010 年創設の HG Data は、カリフォルニア州のサンタバーバラおよびサニーベールにオフィスを持ちます。

Technology concept. 3D render
kr_quotemark

「AWS を使用することで、設備投資を減少させつつ素早いマーケティングが可能になりました。ハードウェアへの投資が不要になったためです」と Moreira 氏は言います。

Victor Moreira
HG Data、最高技術責任者

課題

HG Data の創設者たちは、既存の企業 NOZA を売却後に同社を作りました。NOZA は慈善事業データベースサービスで、売却先は募金ソフトウェア企業でした。同社はその当時、コロケーションサービスを使用していました。「私たちは HG Data の創設前からクラウドサービスに向けて動いていたんです」と、共同創設者兼 CEO の Craig Harris は言います。「コロケーションサービスにあるコンピューターは高速なのですが、新しい機械を購入するのは設備投資にあたり、設置までに最大 2 週間はかかりました。問題が発生すれば、施設の技術サポートを呼ばなければなりません。担当者が問題を調査して、折返し連絡を寄こすまで、しばらく時間が必要になってしまいます」 売却終了後、HG Data の創設者たちは既存のインフラストラクチャを手放したため、その代わりになるソリューションを必要としていました。

アマゾン ウェブ サービスが選ばれた理由

HG Data は、早急に決断を下す必要がありました。同社の 最高技術責任者 (CTO)、Victor Moreira 氏は、すでにアマゾン ウェブ サービス (AWS) を使用していました。「私は個人のプロジェクトで AWS の無料利用枠を使っていました。それで AWS のサービスや機能には慣れていたんです。他のクラウドサービスプロバイダーも検討しましたが、私に経験があったのが決め手になりました。私たちは創業初日から AWS を利用しています」

ビジネスインテリジェンスのため数十億のドキュメントを処理

HG Data のビジネスの中核を成しているのは、生のドキュメントを収集および処理し、顧客にフィードまたはフラットファイルとして配布することです。このデータプラットフォームでは、専用の自然言語アルゴリズムを使用してドキュメントを処理しています。アルゴリズムにはインテリジェンスが組み込まれており、適切な言語と構文を特定します。たとえば、ドキュメントがグローバルセールス担当者の職務内容を説明する内容で、カスタマーリレーションシップマネジメント (CRM) システムの経験を必要としている場合、このプラットフォームのアルゴリズムは「CRM を使用するグローバルなセールスフォース (営業担当)」と「Salesforce の CRM」を区別することができます。

同社は個人のソースからドキュメントを収集し、一括ロードでデータを受け取ります。「通常は四半期ごとに約 10 億のドキュメントを購入します」と Moreira 氏は言います。「ウェブクロールで、1 日あたり約 10 万のドキュメントを収集します。これは毎月約 10 TB の未処理データになりますが、このデータを Amazon Simple Storage Service (Amazon S3) バケットに保存します」 一括ロードのデータサイズは、処理のパイプラインを通過すると元のサイズより増加します。これは、HG Data でミラーリングと複製用にコピーを保存しているためです。処理の終わりに HG Data は余分なコピーを削除するため、サイズは 10 TB に戻ります。

同社では Amazon Elastic MapReduce (Amazon EMR) を使用してドキュメントの重複を排除し、分析用に統一された JSON 形式に変換します。「Amazon EMR の登場前は、流れの中で 10 億ものドキュメントの重複排除を行うことができませんでした」と Moreira 氏は言います。「そこでスケールアウトのできる Hadoop を利用して、ドキュメントの平行処理に取り組みました。また Hadoop クラスターを簡単に実行できるよう、Amazon EMR を使用しました。今では 100 億以上のドキュメントの重複排除が可能です」 また Amazon EMR を使用することで、HG Data の開発者は、Hadoop クラスターではなくコードに集中できるようになりました。「最初に Hadoop の作業を始めた時は、全部の時間をクラスターの準備とノードの稼働開始に費やしていました」と Moreira 氏は言います。「Amazon EMR を使い始めてからは、Hadoop クラスターに触れていません。時間をアルゴリズムのデザインに使えるようになったのです」

処理後のデータは他の Amazon S3 バケットに、その後 MongoDB NoSQL データベースに送られます。オープンソースの検索および分析エンジン、ElasticSearch がデータベースからのデータをインデックス処理し、全文検索ができるようにします。自然言語と機械学習アルゴリズムの実行後、顧客への配信を行う Amazon RDS for MySQL に最終的なデータが保存されます。アーキテクチャのほとんどは米国西部 (オレゴン) リージョンで実行されます。図 1 に、AWS での HG Data のアーキテクチャを示します。

AWS API を使用して運用効率を向上し予算を節約する

当初 HG Data は、.Net Framework と C# データベースを使用して、特大の Amazon Elastic Compute Cloud (Amazon EC2) インスタンス上でデータプラットフォームを設計していました。これは同社の要求する速度では利用できなかったため、Glassfish、MongoDB、ElasticSearch、Ember.js など、この用途専用のツールによるモジュラー寄りの手法で再設計を行いました。リードシステムアーキテクトの Arnold David Gowans 氏はこう言っています。「AWS API がなければ、現在の場所にはいられなかったでしょう。3 人のエンジニアによるチームを作りましたが、彼らはプログラミングと問題解決が主な業務で、システム管理者ではなかったのです。AWS API によりほとんどの管理上の負担が軽減され、製品のパフォーマンスが大きく向上しました。私もツールのシステム管理ではなく、直面している問題の解決に集中できます」 チームでは API を使用して、自動でインスタンスを立ち上げ、指定した期間ウェブクローラーを実行してデータを集め、インスタンスを終了します。

ほとんどのプロセスの時間は決まっています。エンジニアたちは、Amazon EC2 API と一緒に動作して、CPU とメモリに合わせ動的にインスタンスを立ち上げる API を作りました。その後 Gowans 氏は Amazon EC2 スポットインスタンスの履歴を確認する API を作り、20 個の Amazon EC2 スポットインスタンスを使用して Amazon EMR を実行すると、社の予算を節約できると結論しました。この API は、仕事の要件と期間に基づき最適な入札価格を計算し、オンデマンド価格を最大 70% 削減しました。HG Data は、内部および外部のウェブサイトなどを含むその他の環境を、Amazon EC2 リザーブドインスタンスで稼働させています。

利点

「AWS を使用することで、設備投資を減少させつつ素早いマーケティングが可能になりました。ハードウェアへの投資が不要になったためです」と Moreira 氏は言います。「今ハードウェアを購入するとなれば、10 万ドルはかかります。データは成長していますから、毎年投資が必要になります。ということは、今後 3 年間、中心になるプロセスの設備投資だけで毎年 10 万ドルを支払うわけです。年間の償却と、AWS の月次コストを考慮すると、ハードウェアのコストの約 50% を節約できます」

HG Data は、成功の度合いを市場でのスピードで測定します。企業がデータを入手、処理し、顧客に対し適切な形式で提供可能にするまでの早さが重要になります。「私たちは API を使い、クリック 1 つで機械の立ち上げやデータのクロールを行います。以前のシステムなら 3 か月必要でしたが、これなら最大でも数日で終わります」

「AWS によって、ビッグデータの運用が現実的になりました」と Harris 氏は言います。「技術系の大企業が公式に買収を発表した 10 分後に、それを狙って 12 時間以内にメールを送信したい顧客からの電話が入ってきました。私たちは生のデータを持っていなかったので、数十万ものデータソースをクロールし、処理した情報を顧客に送らなければなりませんでした。AWS がなければ、12 時間以内の締切には間に合いませんでした。以前のシステムなら 2、3 週間はかかっていたでしょう。今ではできるだけ早くコードを作成し、機械学習プラットフォームに追加することができます。処理と配信の速度が原因でビジネスのスケールアップが阻害されるような事態を避けられるのは AWS のおかげです。値段がつけられないほどの価値があります」


HG Data について

HG Data は世界最大級のテクノロジー企業向けにインストールされた技術の高機能インテリジェンスにおいて世界をリードする、急速に成長中のスタートアップ企業で、革新的な OEM パートナーでもあります。

AWS の利点

  • 資本支出を 30 万 USD 節約
  • ハードウェアコストを 50% 節約
  • 数か月ではなく数日で新製品を発売

使用されている AWS のサービス

Amazon S3

Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。 

詳細 »

Amazon Elastic MapReduce

Amazon EMR は、業界をリードするクラウドネイティブなビッグデータプラットフォームです。大規模環境で大量のデータを迅速かつコスト効率よく処理できます。

詳細 »

Amazon RDS for MySQL

MySQL は、世界で最も人気の高いオープンソースのリレーショナルデータベースです。Amazon RDS によって、MySQL のデプロイをクラウド内で簡単にセットアップ、運用、スケールできるようになります。

詳細 >>

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。開発者がウェブスケールのクラウドコンピューティングを簡単に利用できるように設計されています。

詳細 >>


開始方法

あらゆる業界のさまざまな規模のお客様が、AWS を活用してビジネスを日々変革しています。AWS のエキスパートにお問い合わせのうえ、今すぐ AWS クラウドジャーニーを開始しましょう。