Amazon Web Services ブログ
ANA グループ 4 万人に展開するデータマネジメント基盤の裏側
はじめに
本ブログは、全日本空輸株式会社と Amazon Web Services Japan が共同で執筆しました。
みなさん、こんにちは。 AWS ソリューションアーキテクトの三宅です。
全日本空輸株式会社様では、2021 年よりグループ全社を横断したデータマネジメント基盤として「BlueLake」を整備し、社内のデータ活用の推進に取り組まれています。2024 年 6 月 20日 ~ 21 日に開催された AWS Summit Japan では、全日本空輸株式会社 デジタル変革室 イノベーション推進部 データマネジメントチーム の丸山 様にご登壇いただき、データ活用の取り組みで得たナレッジを 14 の秘伝として紹介いただきました。
本記事は、ANA 様のご登壇内容をブログ記事として再構成したものとなります。
私が所属する ANA デジタル変革室 イノベーション推進部 データマネジメントチームでは主に、ANA を中心としたグループのデータ戦略の策定と、それに沿ったデータ基盤の環境整備と開発管理を行っています。データ活用の推進を担う同部のデータデザインチームや、BlueLake のシステム開発や運用を担うグループ会社の ANA システムズ株式会社とも協力して、ANA のデータ活用を進めています。
ANA グループのかかげる「データの民主化」とは
ANA グループのデータの民主化は、グループ 4 万人の従業員一人一人がデータを自由に扱い、価値を生み出すことができる状態を目指しています。これまでの ANA におけるデータ活用は、各システム部門が中心となって、データの収集から加工・集計・分析し、結果を共有するまでを行ってきました。データの民主化を実現するために、データの収集はシステム部門が行い、それ以降はレベルや目的に応じてシステム部門とビジネス部門が共に手を取り合い、協創しながら実行していくことにしました。データ活用の中心はビジネス部門で推進し、システム部門はそうした取り組みを環境とスキルの両面でサポートします。
ANA のデータの民主化の取り組みは大きく「仕組み」「人財」「ガバナンス」に大別することができます。
まずは「仕組み」として、BlueLake 基盤のアーキテクチャ、データ活用ツールである BlueLake Apps に関する秘伝について 8 つ紹介します。
秘伝 1 データを物理的に 1 箇所に集める戦略
ANA グループは主力ブランドの ANA に加えて、Peach や Air Japan を含めた航空事業を展開しています。また、マイルで買い物ができる EC サイトの ANA Mall やモバイル決済サービスの ANA Pay といった 「ノンエア」 と呼ばれる非航空事業にも注力しており、マイルで生活できる世界の実現に向けて、様々なサービスを提供しています。
BlueLake が立ち上がる前から存在しているデータ基盤は、航空事業に特化した業務別のデータ基盤であったため、データの民主化を推進していくためにも、統合的なデータ基盤を再構築する必要がありました。様々なデータの管理方法があるなか、ANA では物理的にデータを 1 箇所に集約させて、一元管理をしています。個別の業務ごとに特化したシステムから生み出されるデータは、データの型や持ち方、キーなどがそれぞれで異なっています。最近は SaaS を利用することも増えてきており、データは複雑性を増しています。
そのなかで、様々な特性のあるデータを時間の断面でコントロールすることがデータを分析する上で重要であると考え、複数の要素を、固定した時間で横断的に収集し、データとして扱いやすい形で保持できるよう一貫性もったコントロールを行っています。
秘伝 2 プライバシーに配慮した 2 層構造
多くの人が自由にデータを扱えるように、BlueLake では、確実なコンプライアンスのもとでデータを管理する必要がありました。BlueLake ではプライバシーを考慮し、生データを扱う層と仮名加工済みデータを扱う層の 2 層構造でデータを管理しています。具体的なアーキテクチャとしては、Amazon S3 を活用した データレイクと、Amazon Redshift と Snowflake を活用したデータウェアハウスから構成されており、この 2 つの構造をそれぞれ別の AWS アカウントで完全に分離することでデータの管理を行っています。4 万人が自由に使えるデータは主に下図の下の段のデータになっており、仮名加工処理が施されていて、個人情報保護法や GDPR などにも対応しています。完全に分離した 2 層構造によってデータをしっかりと守りつつ、柔軟に活用できる環境を実現しています。
秘伝 3 Amazon S3 を中心としたアーキテクチャ
データレイクとして Amazon S3 を採用しています。データ活用に関するトレンドの移り変わりは非常に早いですが、併せて毎回抜本的にアーキテクチャを刷新するのは非常にコストがかかります。そこで私たちは Amazon S3 を中心とすることで、時代や戦略に合わせてサービスの使い分けをしています。Amazon S3 はコネクターも非常に豊富で、DeltaLake や Iceberg といったフォーマットにも対応しています。私たちは AmazonS3 を中心として、様々なサービスを組み合わせながら、目的やスキルレベルに応じたツールを用意しています。
秘伝 4 目的やレベル別に多種なツールを整備
ANA グループの 4 万人の従業員は日々の業務も、データ活用スキルも様々です。こうした人たちが何か 1 つのツールを使ってデータを活用するのは非常に難しいだろうと考え、ANA では現在 6 つの データ活用ツールである BlueLake Apps を整備しています。機微な情報を取り扱う「BlueLake Custo」、データ抽出を行う「BlueLake Exto」、社内基準のレポートを全社に展開する「BlueLake Repo」、セルフ BI ツールの「BlueLake Pivo」、データ実験環境の「BlueLake Labo」、そしてなんでもできる「BlueLake Pro」 の 6 つです。リッチなラインナップにも見えますが、ライセンス課金のツールは利用者を見定めて、従量課金のツールは使いすぎないようにガバナンスを効かせることで、コストを抑えながら運用しています。目的やスキルレベルに応じて使い分けのできるツールを用意することで、データ活用の可能性が広がると考えています。
秘伝 5 4 万人が同じ基準で見られるダッシュボード
データを活用する上で、同じ目線でデータを捉えていくことは非常に重要だと考えています。しかし、部門や部署が多いと、独自の集計や分析が行われるため、基準を合わせて物事を進めるのが難しい場面もあります。
そこで、BlueLake Repo は 4 万人が同じ基準で見られるダッシュボードを目指して、Amazon QuickSight を用いて展開しています。展開にあたって工夫したポイントが 2 つあります。1 つは、アカウント作成の部分で、社内が使っているグループウェアの IdP と Amazon Cognito と AWS Lambda を組み合わせて、自動でアカウントが作成される仕組みを構築しました。
2 つ目は、Amazon QuickSight の埋め込み機能を使い、“BlueLake Repo” の名称で社内向けのサービスとして展開したことです。BlueLake Repo では、ユーザーが高度の分析を行うことはありません。そのため、データ活用の第一歩として、利用するハードルをできる限り下げて、誰でも気軽に BlueLake に飛び込んでこれるように工夫しています。
秘伝 6 抽出ツールは必要(現在の答え)
データ活用ツールを整理していく中で、データ抽出が分析の目的になることはないため、業務整理を行ってデータ抽出をなくすべきだ、というアドバイスを何度か伺ったことがありました。私自身、もしアドバイスをする立場なら同じことを言うかもしれませんが、実際、データ抽出を無くすのはそう簡単ではありません。これまでの社内のデータ活用の状況を踏まえて、データ抽出をなくすのはまだ早いと判断しました。しかしながら、意外にも抽出に特化したツールというのは世の中にあまりありませんでした。
そこで、AWS のサービスを駆使して、ドラッグ&ドロップで使える SQL ツールである BlueLake Exto 開発しました。まだこのツールはリリースして間もないため機能も潤沢には備わっていないのですが、 GUI で作成した SQL をレシピとして保存できる機能や、社員同士でレシピを共有できる機能などを開発する予定です。会社ごとに文化や置かれた環境が異なるため、必ずしもデータマネジメント一般論に従う必要はないと考えています。
秘伝 7 ユーザーフレンドリーな”ナレッジの宝庫”
基盤である BlueLake と データ活用ツールの BlueLake Apps 、これらを整備しただけでは、データの民主化はなかなか進みません。BlueLake と BlueLake Apps の橋渡しをするのがデータカタログです。
ANA のデータを活用する 4 万人の従業員が利用することを考えると、データカタログには、とにかくデータも UI も分かりやすいこと、データに関する質問やナレッジを共有できること、そして 4 万人が使えるコストであることが求められました。当時、世の中にはいわゆるデータをよく知る人たちが利用するデータカタログはありましたが、どれも高機能で、私たちの利用目的に合っていませんでした。
そのため、データカタログも AWS のサービスを活用して内製で開発することにしました。それがANA のデータカタログ「Moana」です。無駄な情報は省き、分かりやすい UI にし、南国リゾートを彷彿させる可愛らしい名前にしています。カタログ機能に加えて、社内用語をまとめたディクショナリー機能や社員同士の SNS 機能を搭載し、ANA のデータの民主化を推進する上で欠かせないツールに成長しています。世の中にないものを自分たちで作ることができるのが、AWS の良いところだと思います。
秘伝 8 AWS は自社の世界観を表現できる
データの民主化を社内に広めていくことは、マーケティング活動そのものであると考えています。とにかく多くの人に BlueLake を知ってもらう、そして、BlueLake と聞けば、データを便利に使えるプラットフォームであるとイメージしてもらえるようになることが、非常に重要であると考えています。
社内では常に Apps 名でコミュニケーションを行っているため、Apps を製品名で呼ぶ人たちはほとんどいません。レベルに合わせた自分たちの世界観を表現する上でも、AWS のカスタマイズ性の高さは非常に有効であると考えています。
ここからは、データを活用する人「人財」に関する秘伝を 2 つ紹介します。
秘伝 9 多様なチャネルを駆使したコミュニティ
ANA ではデータコミュニティを BlueLake DataCircle と名付けて、様々な取り組みを行っています。
コミュニティの特徴として、多様なチャネルを使ってコミュニティ活動を形成していることが挙げられます。具体的には、BlueLake の紹介イベントや、初級者向けにデータの重要性や危険性を伝えるイベントを開催したり、もう少し具体的に興味を持ってもらうために、社内外のデータ活用を行っている人との対談イベントも開催しています。
少し変わった取り組みとして、データドリブン通信というものがあります。データに特化した社内報を我々で作成し、データ活用で知っておいてほしい情報や、社内のデータ活用事例を読みやすくまとめて、グループ全体のポータルサイトで発信しています。
秘伝 10 100 時間を超える内製のデータ教育プログラム
全社に向けた啓発と文化の醸成を目的にしたコミュニティ活動以外にも、実際にデータを扱える人を養成するための活動を内製で行っています。参加希望者はこちらから選ぶのではなく募集し、それぞれが業務での課題やデータ活用の可能性を感じながら教育に取り組みます。そして、その講師は私と同様グランドスタッフ経験者や元整備士で現在データサイエンティストとして社内で活躍しているメンバーが行います。100 時間を超える研修を通じて、データ活用ってこういうことかという勘所と基礎的なスキルを身につけ、業務を理解したデータの専門家となり、各部門で活躍しています。
最後に、「ガバナンス」に関する秘伝を 4 つ紹介します。
秘伝 11 ANA が着目した八つの項目
まず最初にガバナンスに着手した際、DMBOK の輪読から始めました。内容をメンバーで分担しながら理解するところまでは良かったのですが、いざ ANA のガバナンスをまとめるときに困ったのが項目の選定でした。最初からあれもこれもで、絵に描いた餅になってしまっては、ガバナンスをまとめる意味がありません。悩んだ挙句、私たちは 8 つの項目を採用しました。今回は、工夫したガバナンスの一部を紹介します。
秘伝 12 ANA のデータスチュワードは 2 種類
例えば、上記の項目 2 の「体制と役割」の中では、データスチュワードを定義しています。データスチュワードにも様々なものがありますが、ANA ではまず、BlueLake データスチュワードと、業務データスチュワードの 2 つを定義するところから始めています。BlueLake データスチュワードはデータガバナンス・データマネジメントの視点で、開発・運用を統制しています。業務データスチュワードは社内のデータ利用者からの開発・活用案件を集約し、優先度決め等を行います。双方がデータスチュワードシップ会議にて定期的にコミュニケーションをとることで、ANAのデータのありたい姿を実現させています。
秘伝 13 安全に価値を創出するためのルール
グループ 4 万人がデータを活用していく上で欠かせないのが、グループ会社横断でのルールです。「利用料及び契約」の項目では、グループ会社とのデータやツールの利用に関する規定や、個人情報に関する国内外の法令への対応方針を定めています。また、セキュリティやプライバシーに関する教育や啓発にも取り組んでいます。契約や利用料の調整は非常に大変です。しかし、グループ全体でデータによって安全に価値を生み出す上では必要不可欠だと考えています。
秘伝 14 BlueLake DataManagement
最後の秘伝として、ここまでお話しした全ての秘伝は、データ戦略、データマネジメントポリシー、データ利活用ガイドラインの3 部構成で、BlueLake Data Management として、体系的に文書化してまとめています。ANA ではこの BlueLake データマネジメントに沿って、データの基盤をデザインし、データから価値を生み出す土壌を整備しています。
最後に
これら 14 の秘伝は、データの民主化のための手段に過ぎません。そしてデータの民主化自体もまた、目的ではありません。
デジタルとデータを活用したビジネスの変革を通して、ANA をご利用になるお客様の体験価値を向上させ、4 万人の従業員の働き方に変化をもたらし、そして、企業の持続性と ESG を両立した価値創造を推進していきたいと考えています。お客様、従業員、環境、この 3 つにプラスの価値をもたらすために、今後もデータの活用に取り組んでいきます。