AWS の導入により ETL 基盤の運用性が向上したことで、
システム部門本来の業務であるサービス・プロダクト開発に
より注力できるようになったことは大きなメリットです。
日本のアドテクノロジー業界を牽引する株式会社フリークアウトでは、 DSP(Demand Side Platform)のコアワークロードのひとつである ETL (Extract / Transform / Load)基盤をオンプレミスから AWS へ移行しました。大規模な非構造化データを扱う ETL 基盤を Amazon EMR や Amazon Glue などを用いて構築することで運用性が大幅に向上し、調達のリードタイムやサイジングコストも減少しています。さらに、 ETL で処理したデータからの予測モデルを作成するために Amazon SageMaker を導入するなど、 DSP 基盤のクラウド化を推進しています。
オンライン広告業界において最先端の自社開発技術をベースとした多様な事業を展開する株式会社フリークアウト。2011 年 1 月に DSP(Demand Side Platform)を日本で初めて事業化し、その後もさまざまなマーケティングプラットフォームを提供。日本のアドテクノロジー業界を牽引しています。
DSP は広告主や広告会社からのリクエストにより RTB(Real Time Bidding)で広告の買い付けを行うプラットフォームです。フリークアウトが DSP 基盤で扱う広告枠在庫は月間で約 6,000 億インプレッションに上り、 24 時間リアルタイムで大量のデータを処理することが求められています。インターネット環境の整備が進み、デバイスの種類も増加するなかで、この数字は年々増加の一途を辿っています。それに伴いデータを処理するための基盤についても毎年多くの投資が必要になるとともに運用の負荷も年々高まっています。
フリークアウトでは従来、オンプレミスで DSP 基盤の運用を続けてきましたが、大きな転機が訪れたのは 2017 年のことです。2013 年頃に Hadoop を導入するために購入した多くのハードウェアが老朽化を迎えつつあり、将来の基盤運用について再検討することとなりました。
「ハードウェアはいずれ老朽化を免れません。新しいハードウェアを次々と購入していくとしても調達にコストと時間がかかりますし、古いものとの性能差も生まれてしまいます。そして、大きな課題になっていたのが運用面です。ハードウェアのトラブルシューティングや、システムのバージョンアップなどに大きな工数が取られてしまっていたのです。」と課題を話すのは、株式会社フリークアウト 取締役 CTO の西口次郎氏です。
そこで、フリークアウトが選択したのが、DSP 基盤のクラウド化です。まず DSP のコアワークロードである ETL ( Extract/Transform/Load )の基盤をオンプレミスからクラウドへ移行することとし、机上での検討に加えて実際に AWS Glue を使った検証などを行い、その結果 AWS を利用することを決めました。
「他のクラウドサービスはそれほど意識しませんでした。 AWS は、これまで使い続けてきたなかで安定性が非常に高いことが分かっていましたし、サービスも非常に豊富です。大規模なデータを安定的に処理することを考えると、悩むことはありませんでした。」(西口氏)
フリークアウトが最初に AWS を利用したのは 2012 年、アメリカでの DSP 事業展開にあたってのことでした。 Amazon CloudFront によるコンテンツ配信から始まり、Amazon EC2、 Amazon RDS、 Elastic Load Balancing などを活用して DSP 事業を展開しました。その後、他のサービス基盤でも AWS を使い続けてきました。そうしたなかで、特に AWS の安定性を評価していました。
今回 AWS へ移行することを決めた ETL 基盤は、日々生み出される大量のログデータを加工してアウトプットする役割を担います。入札リクエストやオーディエンスの行動履歴、広告の閲覧履歴など、膨大な非構造化データを処理します。
オンプレミスで生み出されるログはいったんすべて Amazon S3 に集められます。そのデータの ETL 処理に Amazon EMR を、テーブルメタデータに AWS Glue のデータカタログを使用します。 ETL 処理されたデータは S3 に保管され、他のさまざまなジョブで利用されます。
AWS を活用した新たな ETL 基盤は 2018 年 11 月から稼働を開始しています。 AWS の導入により、まず運用面で大きな効果が見られました。ハードウェアのトラブルシューティングの必要がなくなったことに加え、「特に運用性の向上を実感しています。例えば、これまではクラスターを常時起動させながらの Hadoop のバージョンアップでは、 1 ヶ月、 2 ヶ月かけて検証を行い、適用して何かトラブルがあればロールバックしなければなりませんでした。 EMR で Hadoop を使用することでバージョンアップは非常にやりやすくなりました。」というのは、Log 分析基盤チーム Tech Lead の Tim Taschke 氏です。 ETL 処理の Hadoop クラスターは毎時の処理でシャットダウンする運用を行っていますが、万一バージョンアップでトラブルがあっても一回の処理にしか影響を及ぼさず、戻すことも容易です。これはオンプレミスでは実現できなかったメリットです。
現在 5 名の体制で基盤の運用を行っているフリークアウトにとって、本業への集中も効果のひとつです。「 AWS の導入により ETL 基盤の運用性が向上したことで、システム部門本来の業務であるサービス・プロダクト開発により注力できるようになったことは大きなメリットです。」(西口氏)
リードタイムの大幅な減少も目に見える効果です。オンプレミスの場合、ハードウェアなどを購入するための予算策定から始まりますが、 AWS はスモールスタートで使い始めて柔軟に拡張できるため、予算策定やサイジングのコストも下がっています。
大規模な ETL 基盤の AWS への移行を完了したフリークアウト。西口氏は AWS について次のように話します。「設計や運用のベストプラクティス集である AWS Well-Architected などのドキュメントや、多くの事例なども大変参考になります。セキュリティ意識も非常に高く、設計や運用面でとまどうことはありません。」(西口氏)
フリークアウトでは 2018 年から、 ETL で処理したデータからの予測モデルを作成するために Amazon SageMaker を利用しています。 DSP においては、適切な入札価格を決定するために CTR(Click Through Rate)予測を用いており、そのモデル作成に Amazon SageMaker の機械学習が役立っています。これにより大規模に並列で検証が可能になるとともに、リソースを柔軟に調整できることで効率的に検証が行えるようになっています。
このようにフリークアウトでは今後、他の DSP ワークロードについても随時、クラウド化、 AWS の活用を進めていく方針です。
「オンプレミスの運用負荷、調達コストやリードタイムなどを、クラウドならではのアーキテクチャを使って解消していくことが当社の基本的な考え方です。全プロダクトを対象にクラウド化への準備を行っており、AWS のさまざまなプロダクトも随時検証しています。将来的に移行がすべて完了すると、世界がかなり違って見えるはずです。」(西口氏)