AWS は機材調達の手間も長期間の利用を見据えたサイジングも必要ないため、2ヶ月未満という短期間で データ収集分析基盤(Atlas)をフルスクラッチで開発・稼働することができました。
AWS のマネージドサービスを活用することで、データを収集・蓄積するインフラにかかるコストも従来のおよそ 5分の 1 になっています。一方で扱えるデータ量は 10 から 20 倍に増加したことで、ROI は 50 倍以上の効果がありました。さらに、以前よりも可用性が向上した上で、このシステムの運用負荷はほとんどありません。
佐野 玄 氏 株式会社 日本経済新聞社 デジタル事業 BtoC ユニット データチーム

日本経済新聞社(以下 日経)は、新聞発行を軸に、雑誌、電子メディア、データベースサービスなどを展開する複合メディア企業です。同社には『中正公平、わが国民生活の基礎たる経済の平和的民主的発展を期す』との社是があり、冷静かつ客観的なジャーナリズム精神を根幹に据え、情報の力による新たな価値創造を続けています。

日経は、複合メディアとして Web サイトの電子版、および日経電子版アプリなどのデジタルサービスに力を入れています。メディアサイトの多くが広告モデルにより収益化しているのに対し、日経は購読料が売上の多くを占めます。このため、メディアとしての信頼性や情報伝達力を計りサービスの発展に繋げるため、一人一人の読者との関係値を示す『オーディエンスエンゲージメント』が重要であると考えています。オーディエンスエンゲージメントに基づくサービスの改善施策では、旧来のアクセス解析で一般的に用いられてきたページビュー数=記事を開いたという指標ではなく、どの記事をどのように読んだのかを表す読了やアプリでどこをタップしズーム操作をしたかといった個々のインタラクションなど、より細かい利用状況も把握したいというニーズがありました。日経では、エンゲージメントの考え方を取り入れる以前は、サードパーティのアクセス解析ツールを利用していました。

「従来のサードパーティー製ツールでも、ツールを使いこめば詳細な操作やアクセスログの取得も可能でしたが、以下のような制約に直面しました。

1. データの計測から集計までに大きなタイムラグがある

2. 読者や記事に紐付く属性を同時に扱うことが製品仕様上困難

3. 扱えるデータ量に制約がかかる

4. 従量課金制であり計測対象の増加とともにコストが増大する

5. ツール固有の専門知識が要求され、逆に一般的な分析の知識経験が適用しにくい

こうした課題を解消し、より早く、より多くのデータを、少ない投資で無制限に扱える方法を模索していました。」と言うのは、日本経済新聞社 デジタル事業 BtoC ユニット データチームの佐野 玄 氏です。

日経は、既に日経電子版を中心に様々なサービスで AWS を活用しており多数の実績がありました。また、Amazon Redshift をはじめとするAWSのビッグデータを扱うためのサービスや、Amazon Kinesis のようなデータを取り巻く技術の発展性を評価していました。2015 年以来、フィナンシャル・タイムズのデータ部門との連携を開始しており、オーディエンスエンゲージメントの概念やそれに基づく施策のようなビジネス寄りの知見から、クラウドサービスを活用したインフラ構築、オープンソース・ソフトウェアの活用においても両社で技術や知見の交換を活発に行ってきました。そこで日経では、アクセス解析の課題解決策として、フィナンシャル・タイムズの事例を参考にしながら、必要な全てのコンポーネントを独自に内製することを決断しました。「ゼロから自分たちで構築したほうが実現までの期間も短く、コストも抑えながら理想的な環境を実現できるという具体的なイメージが描け、開発のしやすさや運用工数を合理化する様々なサービスの存在を考えたると、インフラとして AWS を選択することが合理的であると判断しました。」(佐野氏)

今回 AWS が採用された理由として、日経社内ですでに AWS の利用実績があり情報が多く得られることや、AWS に精通した技術者が社内外にたくさんいるため開発時間を短縮できる、という点がありました。また、東京リージョンを利用することで大量データを扱う場合にも十分なレスポンスが得られるとも判断されました。

jp_diagrams_nikkei-big-datal_v3

日経では、2016 年 9 月に AWS を利用した新たなアクセス解析ツール『Atlas』の構築を決定、11 月にはプロトタイプが稼働しはじめました。「オンプレミスではハードウェアを用意するだけで半年から 1 年かかるところ、AWS は調達の手間も詳細なサイジングも必要ないため、2ヶ月未満という短期間で Atlas を開発・稼働することができました。すぐに運用を開始できたことで、いち早くデータ分析に着手できサービス開発やマーケティング施策に有益な情報を得ることができており、データドリブンな意思決定の機会が組織内で確実に増えています。」(佐野氏)

Atlas では取得したアクセスログのデータを 以下のように処理しています。

1. データコレクションエンドポイントがデータを Amazon SQS に記録

2. データ拡張を担うワーカーが Amazon SQS からデータを取り出し、Amazon DynamoDB で管理されるセッションデータや属性、記事に紐付くメタデータを個々のレコードに付与した上で Amazon Kinesis に記録

3. AWS Lambda で稼働する Kinesis Consumer が、Amazon Kinesis からレコードを取り出し、Elasticsearch とインメモリーデータベースにそれぞれレコードを書き込む

4. Amazon Redshift へは、AWS Elastic Beanstalk 上で稼働する Kinesis Consumerが、ロード用データを Amazon S3 に格納し、バッチ処理で Amazon Redshift にロードする

5. データの利用者は、Amazon EC2 または AWS Elastic Beanstalk 上で稼働するBusiness Intelligence ツールや、データサイエンス用ツールを通じてデータを分析

他にも、AWS Snowball を利用することで、データセンターの通信帯域を圧迫せず迅速にオンプレミスのデータをクラウドへ移行をしたり、モニタリングに Amazon CloudWatch も活用しています。

Atlas では Amazon SQS や Amazon Kinesis を使うことで、トラフィック変化が予測しにくいニュース記事のアクセス負荷の変動を上手く吸収し、秒間数千〜数万規模のリクエストにも問題なく処理できます。現在はクリックストリームデータは平均 200 ミリ秒で Amazon Kinesis に到着しており、フロントエンドからデータが送信されアナリストの分析クエリーにヒットするまではおよそ 1 秒程度です。限りなくリアルタイムに近いデータ処理が可能となっており、レスポンスの良さはリアルタイムリコメンド機能への貢献も期待されています。「Amazon SQS のような高い信頼性のあるメッセージングの仕組みがあったからこそ Atlas の処理速度は達成できました。また、性能や信頼性の部分は AWS が担保してくれるため、監視やメンテナンスに過剰なリソースを割くことなく安心して運用できています。」と、構築、運用をサポートしている新日鉄住金ソリューションズ株式会社 ソリューション企画・コンサルティングセンターの磯部 俊行 氏は言います。

また、こうした AWS のマネージドサービスを活用することで、開発期間の短縮だけでなくコスト面でも効果が出ています。「AWS のマネージドサービスを活用することで、開発期間の短縮だけでなく、コストも従来の 5 分の 1 になっています。一方で扱えるデータ量は 10 から 20 倍に増え、ROI の改善効果は 50 倍以上です。その上で以前より可用性も向上しています。」(佐野氏)

nikkei-big-data_photo

- 株式会社 日本経済新聞社 デジタル事業 BtoC ユニット データチーム 佐野 玄 氏

- 新日鉄住金ソリューションズ株式会社 ソリューション企画・コンサルティングセンター 磯部 俊行 氏

Atlas では将来的に Amazon EMR、Amazon Redshift Spectrum、Amazon Athena なども導入し、解析環境に非構造化データも取り込みたいと考えています。さらに、Amazon Kinesis Analytics や Sage Maker を活用したストリームデータのリアルタイム処理と予測、AWS SNS をハブとしたリアルタイムマーケティングエンジンの構築も検討しています。

「今後も AWS のマネージドサービスを最大限活用し、集計したデータをリアルタイムで可視化するダッシュボードや、読者行動を把握しリアルタイムで最適なレコメンドを行う機能など、エンゲージメントを軸としたマーケティングの仕組みを作っていきたいと考えています。」(佐野氏)

AWS クラウドがビッグデータの活用や分析にどのように役立つかに関する詳細は、AWS でのビッグデータ分析の詳細ページをご参照ください。