Amazon Web Services ブログ
【開催報告】データガバナンス事例祭り 〜AWS で実現するモダンな取り組み〜
シニア GTM アナリティクススペシャリストソリューションアーキテクトの大薗です。
2024 年 11 月 7 日に「データガバナンス事例祭り〜AWSで実現するモダンな取り組み〜」を開催しました。今回の事例祭りでは AWS の Analytics サービスを活用してデータガバナンスの取り組みを実現している富士通株式会社様、株式会社日本経済新聞社様、 LINEヤフー株式会社様、全日本空輸株式会社様にご登壇いただき、AWS からもデータガバナンスを実現する AWS サービスを紹介しました。本ブログでは当日の各発表内容について紹介します。
データガバナンスを実現する AWS サービスのご紹介
アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 神部 洋介
データガバナンスの重要性と AWS データガバナンスフレームワークのご紹介
AWS の神部からは、オープニングセッションとして、データガバナンスを実現するための様々な AWS サービスについてご紹介しました。
昨今の様々な調査結果も示すように、データガバナンスは企業にとって重要な取り組みとなっています。データガバナンスの目的にはデータを保護する守りの側面と、データを活用してイノベーションを推進する攻めの側面の 2 つがありますが、データの増加、データソースの増加、データ活用者の増加といった課題から推進を難しくさせている点に触れ、AWS で提唱しているデータガバナンスフレームワークについてご紹介しました。データを取得してから活用するまでのフローにおいて、重要な 3 つの領域として Curate、Understand、Protect の 3つがあり、AWS ではこのフレームワークに基づいて様々なサービスを提供しデータガバナンスを支援している点を説明し、各領域における代表的なサービスを紹介していきました。
フレームワークの 3 領域における AWS の代表的なサービス
まず Curate の領域では、AWS Glue (Glue) の機密データ検知やデータ品質管理の機能が紹介されました。Glue を使うことで信頼性の高いデータを作り出し、品質を維持できるためのデータガバナンスの第一歩となります。次に Understand の領域では、Amazon DataZone (DataZone) のデータポータル、メタデータ、データリネージの機能が紹介されました。DataZone を利用することで、どのようなデータがあるかを簡単に検索でき、メタデータから詳細を理解できるほか、生成 AI によりメタデータを自動生成することも可能です。またデータリネージ機能によりデータのルートや変更履歴を追跡できます。最後の Protect の領域では、Amazon Redshift (Redshift) のダイナミックデータマスキングと Apache Iceberg が取り上げられました。Redshift のダイナミックデータマスキングを活用することにより、ユーザーごとにデータの表示内容を動的に制御でき、データのセキュア化とデータ活用の両立を図れます。Apache Iceberg はタイムトラベル機能やスキーマ進化機能を持ち、データ変更の追跡や監査要件への対応が容易になります。
このように AWS のサービスや最新のテクノロジーを活用することで、データガバナンスの実現が加速できることを強調し、セッションを締めくくりました。
富士通のデータ利活用プラットフォーム OneData におけるデータガバナンスの取り組み
富士通株式会社 デジタルシステムプラットフォーム本部 Enabling Technologies 統括部 マネージャー 久下 泰明 氏
データセキュリティの確保とデータ利活用の促進の両立
富士通株式会社 (以下、富士通) では全社を挙げたデジタルトランスフォーメーションの中核に、データドリブン経営の実現を掲げています。それに向けた経営プロジェクト「OneFujitsu」の一環として、全社データ利活用プラットフォーム「OneData」の整備が始まりました。「OneData」ではデータの提供者、利用者、データ利活用推進者の 3 つの役割を定義し、適切なデータガバナンスの下でデータ利活用を促進するサービスが提供されています。しかし、データ利活用を進める上では、データセキュリティの確保とデータ利活用の促進という 2 つの側面を両立させることが、データガバナンスの大きな課題となります。守りと攻めの両立は容易ではありません。そこで富士通では具体的に 2 つの取り組みを実施し、このデータガバナンスの課題解決を目指しました。
ビジネスデータカタログの導入
1 つ目は AWS のデータガバナンスサービス DataZone を活用したビジネスデータカタログです。DataZone の導入により、データ検索、理解、利用許可の一連の流れをデータガバナンスの下で一元的に実現できるよう構築を進めています。業務コンテキストに基づきデータを発見し価値を理解した上で、メタデータを参照しながらデータの利用許可を 1つの Web ポータルから申請できるようにします。これまで外部ワークフローを経る必要があった利用許可プロセスも DataZone 上で完結し、データガバナンスに基づくデータ利活用のアジリティの大幅な向上を目指しています。
データ品質管理の導入
2 つ目はデータ品質管理の取り組みです。DataZone と Glue Data Quality を組み合わせ、提供側と利用側の双方でデータガバナンスに基づくデータ品質の可視化を進めています。提供側ではデータの業務ルール適合性をチェックし、問題があれば上流システムの改善に役立てます。利用側では分析要件に基づきデータ品質を確認の上、データアセットをサブスクライブすべきかを判断することで、データガバナンスに基づく精度の高いデータ活用の実現を目指しています。
このようにデータガバナンスの観点から、富士通では AWS サービスを活用しながらデータ利活用の促進とセキュリティ確保の両立を実践しています。今後も AWS の機能拡充に期待を寄せつつ、「OneData」におけるデータガバナンスの取り組みを進化させていく考えだと述べられていました。
Apache Icebergで実現する次世代データガバナンス:日経リスク&コンプライアンスの挑戦
株式会社日本経済新聞社 情報サービスユニット ソフトウェアエンジニア 大塚 恭平 氏
データドリブンサービス開発に取り組む日本経済新聞社が直面した課題
株式会社日本経済新聞社 (以下、日本経済新聞社) が提供する法人向けサービス「日経リスク&コンプライアンス」において、Apache Iceberg を活用した次世代のデータガバナンス基盤について紹介されました。日本経済新聞社は、取引先のリスク評価を行うための法人向けサービス開発において、金融庁のガイドラインに準拠するための新機能を追加する必要に迫られていました。具体的には、サービスを利用して取引先のリスク評価を行った際の操作記録を保管し、必要に応じて提示できるようにする必要がありました。年間数億レコードの操作記録を扱う見込みだったため、堅牢でスケーラブルかつ低コストなストレージ基盤が求められました。様々なアーキテクチャを検討した結果、データレイクを支えるオープンソース技術である Apache Iceberg を活用する方針を決めました。
Apache Iceberg の特長を生かしたアーキテクチャ
日本経済新聞社が Apache Iceberg を選んだ理由は、Amazon Athena (Athena) を含む多くのコンピュートエンジンが Apache Iceberg をサポートしていること、Amazon S3 (S3) に操作レコードを低コストで保存できること、トランザクション性や スキーマ進化、データの論理削除などの高度な機能に対応できることにありました。実際に構築したアーキテクチャでは、アプリケーションから Amazon Kinesis Data Streams に操作レコードをストリーミングで書き込み、Glue で Apache Iceberg 形式に変換して S3 へ保存しています。ユーザーがアプリで操作履歴を参照する際は、Athena を使って S3 上のデータをクエリします。
Apache Iceberg を用いることで、低コストでありながら高い可用性とデータ整合性を実現。また日付やテナント ID で パーティショニングを行うことで、クエリの高速化とコスト最適化も図れたとのことです。さらに定期的に AWS Step Functions (Step Functions) を使ったメンテナンスジョブを実行し、スモールファイル化の解消やレコード削除などのテーブル最適化を行なっています。
日本経済新聞社では、本プロジェクトを通じて大量データを安全に低コストで保持し、高速なクエリとセキュアな消去を実現
するシステムの構築ノウハウを得ることができました。今後は Apache Iceberg エコシステムの進化に追付することで、よりシンプルかつ低コストなアーキテクチャを実現し、他サービスへのアーキテクチャ横展開を検討しているとのことでした。
LINEヤフー社での DWH としての AWS 導入背景と安全管理のための取り組み
LINEヤフー株式会社 データエンジニアリング部 データマネジメントチーム リーダー 尾尻 恒 氏
金融データを取り扱う堅牢なオンプレミスデータレイクを Amazon Redshift Serverless に移行
LINEヤフー株式会社 (以下、LINEヤフー) では、金融データを取り扱う既存の Hadoop ベースのオンプレミスデータレイクシステムが EOL を迎えたことから、新たなデータウェアハウス (DWH) の導入を進めました。既存システムではメンテナンスコスト増加やエンジニア採用の難しさ、データ利活用の課題があったため、FISC 要件を満たしセキュリティを強化しつつ、効率的な運用とデータ活用の促進を実現できるクラウドベースの DWH が求められていました。
LINEヤフーではセキュリティ、管理・運用、スケーラビリティ、データ活用の 4 つの観点を重要な要件として捉え、これらの要件を満たすプラットフォームとして Amazon Redshift Serverless (Redshift Serverless) を中心とした AWS のサービス群を選定しました。セキュリティ面では AWS IAM Identity Center と既存 Identity Provider (IdP) の連携によりユーザー認証と権限の一元管理を実現し、運用面ではオンプレミスと連携した既存 Notebook の流用と AWS マネージドサービスの活用により容易な運用が実現できる見込みが立ちました。スケーラビリティでは Redshift Serverless や Glue などのサーバーレスサービスを活用することにより、データ量に応じた柔軟なスケーリングが可能となり、データ活用面では非開発職でも利用可能な BI /分析ツールと連携してデータ活用を促進できると判断されました。
データ収集と活用のアーキテクチャ
実際に構築したアーキテクチャでは、オンプレミスのデータを AWS Direct Connect で転送し、Glue や Step Functions などのサービスで機密データのハッシュ化など、適切な ETL 処理を行った上で Redshift Serverless に取り込んでいます。ユーザー認証には IdP を活用した Single Sign On (SSO) で AWS マネージメントコンソールでログインし、Redshift Serverless が提供する機能であるロールベースのアクセスコントロールを行なっています。そのうえで利用者は、汎用的な分析のために Redshift Query Editor v2.0、可視化に Amazon QuickSight (QuickSight)、高度な分析の用途として Amazon SageMaker (SageMaker) などのサービスを使ってデータ活用を行なっているとのことです。
オンプレミスデータレイクを運用していた尾尻氏は、この DWH 導入プロジェクトを通じて、少人数チームでもクラウドであれば迅速なシステム構築が可能であることを実感されました。一方で、予期せぬ制限にも直面し、運用での工夫が必要になるケースもあったといいます。しかし、AWS の豊富なサービスを組み合わせることで、こうした課題を乗り越えることができたと述べています。今後は、この導入した基盤を生かしてデータカタログソリューションの導入やデータマスキングの実施など、更にデータガバナンスの取り組みを強化していき、組織全体のデータ活用の成熟度を高めていくとのことでした。
ANAグループで実践するデータマネジメントと私たちが大切にしていること
全日本空輸株式会社 デジタル変革室 イノベーション推進部 データマネジメントチーム 丸山 雄大 氏
グループ内外のデータを一元集約する BlueLake
全日本空輸株式会社 (以下、ANA) は、グループ横断でデータの活用を推進するため、データ基盤「BlueLake」の整備を進めてきました。事業の拡大に伴いデータ量やそのバリエーションが増加するなど課題が増えてきたため、2021 年にデータマネジメント構想を掲げ、人材育成支援、プロセスの整備、システムの進化の 3 本柱で取り組みを開始しました。その中核となるのが BlueLake です。BlueLake では ANA グループ内外のデータを一元集約し、スキルレベルに応じたツールで活用できる環境を整備しています。ガバナンスを重視し、データの蓄積から価値創出までの一貫したプロセスを設計しています。
BlueLake において大切にしている 3 つのこと
BlueLakeには 3 つの特徴があります。1 つ目は「安心で安全なデータ基盤」であることです。S3 をデータレイクとして活用し、生データを分析可能な Redshift、匿名加工データのみを扱う Snowflake などを組み合わせた 2 層構造となっています。個人情報や機密データは Redshift 側で適切に加工し、Snowflake 側には公開データのみを置くことで、セキュリティを確保しつつ社員の自由な活用を可能にしているとのことです。2 つ目の特徴は、「ワクワクするデータ分析ツール」の提供です。ANA グループには 4 万人の従業員がおり、データリテラシーは様々です。そこで QuickSight、Amazon WorkSpaces、Tableau など、目的やスキルに合わせて使い分けられる多様なツールを用意しています。ツール名も製品名ではなく”BlueLake XXX”というキャッチーな呼称を用いるなど、データ活用への親しみやすさを意識しているとのことです。3 つ目は、「二つの Single Source of Truth (SSoT)」の実現です。SSoT には 2 つの側面があり、1 つ目は「データの民主化のための SSoT」で、BlueLake 内でデータの標準化を行い、異なるソースのデータを結合できるよう環境を整えています。レイヤー化やデータモデリングにも取り組んでいます。2 つ目は「データ基盤としての SSoT」で、S3 にデータをファイルとして集約し、基盤アーキテクチャを単純化することで、時代の変化 (技術の進化のスピード) に柔軟に対応できるよう心がけています。現在、新たに Open Table Format 導入を見据え、Apache Iceberg の検証も進めているとのことでした。
データ戦略、データマネジメントポリシー、データ利活用ガイドラインの文書化
また ANA では、データマネジメントに関して、データ戦略、データマネジメントポリシー、データ利活用ガイドラインの 3 部構成で体系的な文書化を行っています。その中核となるのがデータマネジメントポリシーで、その中で上述したような BlueLake のデータ基盤に関する方針やルール、体制などを定義しています。しかし丸山氏は、データマネジメントの考え方を文書化するだけでは実行に移すことは容易ではなく、組織全体でデータマネジメントを理解し取り組んでいく必要があると強調しました。そのため ANA では、データ活用推進体制を戦略、実行、監督の 3 つに分けた三権分立の体制を検討中です。戦略は BlueLake の全社横断推進、実行はデータエンジニアなどによる開発、監督ではリスクマネジメントやガバナンスの観点での役割を想定しているとのことです。
データガバナンスでは最終的に人が最も重要です。優れたポリシーがあってもそれを実行する人がいなければ絵に描いた餅となってしまいます。ANA では従業員の力を結集し、データ活用を通じた事業や社会への貢献を目指していくと宣言され、セッションを締めくくりました。
まとめ
「データガバナンス事例祭り」と題した本セミナーでは、近年注目されているデータガバナンスというテーマに関連する、多様な観点を含む事例が盛り沢山となりました。各社よりご発表いただいたセッションにて紹介された AWS サービスにご興味ある場合は無料で個別相談会を開催しております。皆様からのお申込みをお待ちしております。お申込みリンク
本ブログは、ソリューションアーキテクトの大薗が作成しました。