株式会社ゴルフダイジェスト・オンライン(GDO)は、ゴルフ新品中古用品販売、ゴルフ場予約サービス、最新ゴルフ関連情報提供、ゴルフレッスン(店舗&web)など、インターネットでゴルフのワンストップ・サービス(見る・買う・行く・楽しむ)を展開するゴルフ専門サービス企業です。

ゴルフダイジェスト・オンラインでは、2011年より全社のデータ分析・活用基盤としてDWH/BIを構築、利用してきましたが、近年のデータ分析の高度化、データ活用対象範囲の拡大に伴い、夜間バッチ処理時間の増加が課題となっていました。

特に月に1.5億レコード発生するWebサイトへのアクセスログの集計処理は、ETL(Extract/Transform/Load)処理を行うサーバに高い負荷がかかるようになっていました。更に、DWH/BIは、データ分析以外にDWHで加工したデータを外部システムに提供する用途にも利用が拡大していました。例えば、新たに構築するメールマーケティングを中心としたキャンペーンマネージメントシステムへのデータ提供においては、Webサイト上のアクセスログを利用した顧客の行動履歴データの集計といった、より大量のデータを複雑に処理する必要性が求められており、このままではETLサーバーでの処理が業務のボトルネックになる状況に直面していました。

このように増大し続ける負荷に対し、ETLサーバの増強により処理能力を向上して対処することも可能でしたが、ETLツールの課金体系がサーバのCPU数(CPUコア数)により増加するため、ETLサーバを物理的に増加させる方法では、多大なソフトウェアライセンスの投資も発生することになり、コスト的には大きな課題となっていました。

そこで、アクセスログを中心とした大量データの処理をETLサーバから切り離すことでETLサーバの負荷軽減を図るために検討した技術がHadoopです。Hadoopでは大量のデータを複数のサーバで分散処理することで全体としての処理時間を短縮する仕組みであり、今後増出していく負荷に対応するには適切な技術と判断しました。また、Hadoop環境の実装には従来のETLツールのような商用ソフトウェアが不要であり、ライセンスの追加投資から解放されるのも魅力でした。その一方で、今後のデータ量の増加、処理量の増加を正確に見積ることは難しく、オンプレミスの環境では柔軟に対応できないという課題がありました。その結果Hadoop環境をよりコスト的にもパフォーマンス的にも効率的に運用するには、従量課金制のクラウド環境が一番適しているという判断に至りました。

このHadoop環境のインフラとして国内外のクラウドベンダーを比較した結果、コストとHadoop等の利用実績で、アマゾン ウェブ サービス(AWS)を採用することを決定しました。

AWS上にデータ集計用のHadoop環境を構築する作業は、従来より使用しているDWH/BI環境の構築ベンダーでもあるジール社の提案をベースに進めました。合計8台のAmazon EC2インスタンス上に、Cloudera CDH4とHiveによるHadoop環境構築となりましたが、Security Group, CloudWatchなどのAWS環境の設定、及びHadoop環境のセットアップを含め、およそ1か月で運用を開始することができました。

jp_diagram_gdo_1024x719

オンプレミスを選択した場合、サーバスペックのサイジングから、発注、納品、設置、各種設定を含めると 2,3 ヶ月はかかる上、運用コストの最適化も難しいため、時間もコストも大幅に削減することができました。また、実際の処理にかかる時間も Hadoop と AWS クラウドの組み合わせにより大幅に短縮され、業務の効率化に貢献しています。最大 63 日分( 3 TB)が保持される大量のアクセスログと購買、会員情報を加工(結合・集計)して、キャンペーンマネージメントシステムへ送信する仕組みで実装されていますが、このデータ抽出から加工、データ配信まで 45 分と短時間での処理できるようになっています。

今回の AWS クラウド上での Hadoop 導入が効果を上げていることから、既存のオンプレミスの DWH 環境を Amazon RedShift に移行することを検討しています。

- 株式会社ゴルフダイジェストオンライン 様