統合データ分析基盤を Amazon Redshift で構築
総データ量 6PB、1 日 50TB のデータを高速に処理し
通信品質の向上やデジタルマーケティングの高度化に活用

2022

携帯通信キャリア大手の株式会社NTTドコモは、2014 年から全社共通の統合データ分析基盤にアマゾン ウェブ サービス(AWS)の Amazon Redshift を採用しています。総データ量は 6PB に上り、事業部の分析担当者 2,600 人以上が各種分析用途で利用しています。2021 年 8 月には、Amazon Redshift の RA3 ノードタイプに移行し、大容量データへの対応とパフォーマンスの強化を実現。統合データ分析基盤は、通信ネットワークの最適化やデジタルマーケティングの高度化等に活用し、同社のビジネスに欠かせない存在となっています。

AWS 導入事例  | 株式会社NTTドコモ
kr_quotemark

ペタバイト級のデータを休みなく処理し、迅速にユーザーに提供することで、通信ネットワークの最適化に貢献しています。さらに、デジタルマーケティングの高度化にも活用しており、統合データ分析基盤は当社のビジネスに欠かせない存在になっています

太田 賢 氏
株式会社NTTドコモ
サービスイノベーション部
部長

セキュリティと拡張性を評価し Amazon Redshift を採用

通信事業を軸に、スマートライフ事業、法人事業、国際事業、R&D の領域で事業を展開する NTTドコモ。通信サービスの品質向上、新規サービスの企画・開発、業務の効率化等、事業におけるあらゆる局面でデータ分析は欠かせません。そこで、同社は全社共通の統合データ分析基盤を構築し、2014 年 10 月より事業部門の分析担当者に提供しています。

統合データ分析基盤には、通信事業における設備データや品質管理データ、スマートライフ事業で提供する各種サービスのデータ等を蓄積。2022 年 4 月現在、総分析者数は約 2,600 人に達し、総データ量は 6PB、データ加工処理の対象となる 1 日のデータ量は 50TB を超えています。「扱うデータは、通信機器の各種ログから、各種サービスの利用に関する顧客関連情報まで多岐にわたります。分析担当者には、ETL 処理によって DB の SQL インターフェースを公開しており、ツールによる可視化だけでなく、Excel、R 言語、Python 等を使って自由に分析することができます」と語るのは、サービスイノベーション部 ビッグデータ担当 担当課長の佐々木純氏です。

統合データ分析基盤を構築する以前は、設備やサービスごとにデータウェアハウス(DWH)がありました。そのため、統合的な分析をする際は部署間で調整が発生し、データが揃うまでに長い時間を要していました。そこで、すぐに分析できる環境を目指して統合データ分析基盤の開発に着手しました。
「AWS は Amazon VPC、AWS Direct Connect、AWS IAM 等のセキュリティサービスが豊富です。第三者認証も取得済みで、オンプレミスを前提とした当社のセキュリティ基準を満たす設計が可能でした。加えて、データの増加に応じてスケールが容易なこと、豊富なマネージドサービスで運用負荷が軽減できることなどもポイントになり、大容量かつ高速な DWH である Amazon Redshift を採用しました」(佐々木氏)

RA3 ノードの自動 WLM により ETL の処理速度が 1.2 ~ 1.4 倍に向上

2014 年に 125 台の Amazon Redshif tで稼働を開始した統合データ分析基盤は、リザーブドインスタンスの更新時期や新ノードタイプ登場に合わせて性能検証を行いながら、最適な構成を採用してきました。2017 年には DS2 ノードの Amazon Redshift を 125 台追加し、2020 年には全体の 125 台分を Amazon S3 上のデータ群に対してクエリーが実行できる Amazon Redshift Spectrum に置き換えて、Amazon Redshift と Amazon Redshift Spectrum のクラスタ構成としました。

2021 年 8 月には 5G によるデータ爆発を見据えて、Amazon Redshift を DS2 ノードから最新の RA3 ノードに移行し、64 台構成(8PB)としました。サービスイノベーション部 ビッグデータ担当の早川裕和氏は「2021 年当時、外部データを利用する Amazon Redshift Spectrum には、クエリー実行速度の低下と従量課金によるコスト増の課題がありました。そこで、大容量データの内部保持が可能な Amazon Redshift の RA3 ノードに統合しました。導入時は AWS のサポートチームの支援を受けて性能検証を実施し、RA3 ノードを効率的に利用する方法をレクチャしていただきながら移行しました」と語ります。

RA3 ノードへの移行により、統合データ分析基盤のパフォーマンスは大幅に強化されました。従来環境では、Amazon Redshift のワークロード管理(WLM)を手動で行わざるを得ず、日中や夜間の時間帯に応じてメモリーや同時並列実行数の割り当てをチューニングしていました。その結果、想定外の負荷上昇で処理の遅延が発生することがありました。RA3 ノードでは自動 WLM を適用し、適切な処理リソースを割り当てることで Amazon Redshift のパフォーマンスを最適化しています。
「1 日 50TB のデータに対する ETL 処理において処理速度は従来の 1.2 ~ 1.4 倍となりました。SQL データを利用者に提供するまでの時間は、従来から 3 時間ほどの短縮となり、より新鮮なデータを分析者に提供することが可能になりました」(早川氏)

その他、RA3 ノードで提供される新機能 Amazon Redshift Data Sharing を用いて、Redshift クラスタ間でセキュアかつ簡単にデータを共有できるようにしました。これにより、データ転送時間の低下、データの重複保持の発生、負荷上昇といった従来環境の課題が解消されています。さらに、Amazon Redshift の利用環境では、ユーザー管理の工夫によって一部ユーザーが大容量データを保持することによる容量の圧迫や、Amazon Redshift のストレージコストの増加等を抑制しています。

一方、新たな統合データ分析基盤では、機械学習に必要なすべてのツールを網羅した Amazon SageMaker Studio の提供を開始しました。その際、プロジェクトごとに AWS IAM の IAM Policy を作成することで、権限を持たないユーザーがデータを共有するリスクを排除してセキュアな運用を実現しています。サービスイノベーション部 ビッグデータ担当の松原侑哉氏は「Amazon SageMaker Studio により、分析者は機械学習の専門知識がなくてもモデルの作成ができるようになりました。大容量のデータ処理でも、ユーザー単位でインスタンスを起動してスケーリングすることができるため、他のユーザーに影響を及ぼすこともなく、快適に利用ができると高く評価されています」と語ります。

通信事業やサービス事業に不可欠な統合データ分析基盤へと進化

初期構築から 8 年以上にわたって進化を遂げてきた統合データ分析基盤は、今や NTTドコモの事業に欠かせない存在となっています。
「通信事業でのネットワーク異常の早期発見のみならず、中長期的な分析による通信品質の改善、基地局設計の最適化等に貢献しています。また、サービスや事業を横断した会員基盤のデータ分析により、デジタルマーケティングの高度化にも役立っています。システム運用の観点でも、コロナ禍で勤務体制が変化する中、ハードウェアのメンテナンスから解放されるメリットは大きく、新しい働き方にも貢献しています」(佐々木氏)

ユーザーがより快適かつ自由に分析できる環境の提供へ

NTTドコモでは、今後も統合データ分析基盤に対して、リアルタイム分析可視化機能の追加による鮮度の高い情報提供、Amazon Redshift Data Sharing を活用した他部門の利用者への開放、Amazon SageMaker Studio による分析環境の拡充等を実現し、ユーザーが快適かつ自由に分析できる環境を目指していく方針です。
「今後は安定性向上に向けた SLA/SLO にも焦点を当て、監視体制を強化しながらデータ提供品質を高めていきます。AWS Lambda や Amazon Redshift Serverless 等のサーバーレスアーキテクチャによる動的なデータ活用も促進し、いち早くAmazon Redshift にデータを格納することで分析者に新鮮な情報を提供していきます」(松原氏)

太田 賢 氏

佐々木 純 氏

早川 裕和 氏

松原 侑哉 氏


カスタマープロフィール:株式会社NTTドコモ

  • 営業開始日: 1992 年 7 月 1 日
  • 資本金: 9,496 億 7900 万円
  • 従業員数: 8,847 名(グループ 46,506 名)(2022 年 3 月 31 日現在)
  • 事業内容:通信事業、スマートライフ事業、その他

AWS 導入後の効果と今後の展開

  • 6PB の大容量データ保持が実現
  • 50TB のデータに対する ETL 処理でパフォーマンスが従来の 1.2 ~ 1.4倍向上
  • データ転送時間の低下、データの重複保持の発生、負荷上昇等の従来課題を解消
  • セキュアかつ安定した分析環境の実現
  • 監視機能の強化、リアルタイム分析可視化機能の導入、他部門連携、分析環境の拡充、サーバーレスの活用等を検討

ご利用中の主なサービス

Amazon Redshift

Redshift では、データウェアハウス、運用データベース、およびデータレイクにあるペタバイト規模の構造化データと半構造化データを、標準的な SQL を使用してクエリすることができます。

詳細はこちら »

Amazon SageMaker Studio

Amazon SageMaker Studio は、すべての ML 開発ステップを実行できる、ウェブベースの単一ビジュアルインターフェイスを提供し、データサイエンスチームの生産性を最大 10 倍向上させます。

詳細はこちら »

AWS Direct Connect

AWS Direct Connect はオンプレミスから AWS への専用ネットワーク接続の構築をシンプルにするクラウドサービスソリューションです。AWS Direct Connect を使用すると、AWS とデータセンター、オフィス、またはコロケーション環境との間にプライベート接続を確立することができます。

詳細はこちら »

AWS IAM

AWS Identity and Access Management (IAM) では、AWS のサービスやリソースへのアクセスを安全に管理できます。IAM を使用すると、AWS のユーザーとグループを作成および管理し、アクセス権を使用して AWS リソースへのアクセスを許可および拒否できます。

詳細はこちら »