Amazon Web Services ブログ

データファブリックの実現を目指すパイオニアが AWS を活用したデータカタログサイトを構築した方法

こんにちは。ソリューションアーキテクトの加藤です。パイオニア株式会社(以下、パイオニア) は、「より多くの人と、感動を」 をミッションに掲げ、モノ×コト(プロダクト & ソリューションサービス)の両輪で、新しい移動体験の価値を創造しています。本ブログでは、パイオニアが AWS を活用し、どのようにデータカタログサイトを実現したかについて、パイオニア Piomatix 情報サービス部 櫛引 翔太 氏よりご紹介します。

1. イントロダクション

これまでパイオニアは、カーナビ、カーオーディオなどを中心としたハードウェア主体で新しい価値を提供してきました。今でもハードウェアがパイオニアの主力の事業であることは変わりませんが、カーナビやドライブレコーダーといった車載機器から走行速度や自車位置など様々なプローブ情報を収集しており、それら多くのデータから新たな価値を生み出すことにも注力し、徐々にサービスビジネスを拡大しています。

その一環として、2019 年より、収集したデータの分析や活用を進めるため、データを 1 か所に集約するデータレイクの構築を行いました。データレイクの構築により、データサイエンスによるデータ分析が効率化され、新価値の早期検証が可能になりました。一方で、データサイエンスにより分析したデータを他のサービスへ活用する際に、ガバナンスやコンプライアンスを保つためにデータの管理者へ連絡する仕組みがシステム化されてないことや、データを蓄積する際のデータコピーにコストや時間がかかってしまうという課題も見つかりました。

また、”モノ×コト” ビジネスを実現するために、収集したデータからドライバーの走行の状況を把握し、適切なタイミングで必要な情報やナビゲーションを提供する独自のモビリティ AI プラットフォーム「Piomatix」を開発しました。その成果の 1 つとして、AI搭載通信型オールインワン車載器「NP1」を 2022 年 3 月に発売しました。このように、パイオニアでは、今まで以上にデータ活用を推進しており、同社内のデータレイクが抱える課題への対応が急務になってきました。

これらの課題を解決するために、AWS Lake Formation と Microsoft Teams の承認アプリを組み合わせて、データ仮想化を実現するデータカタログサイトを開発しました。ここでは、本開発において工夫した点、すなわち、AWS Lake Formation を利用した自動アクセス制御や Microsoft Teams アプリとの連携によるデータ登録 / 利用の承認フロー (以下、社内承認フロー) の自動化、データカタログサイトに登録されたデータのバージョン更新後の後方互換性の確保のために実施した Amazon S3 データ配置ルールについてご紹介します。

2. ソリューション概要

データカタログサイトは AWS Lake Formation を中心としたアーキテクチャで構成しました。データカタログサイトに登録したいデータの基本情報を入力すると、自動で AWS Glueのテーブルを作成し、AWS Lake Formation でアクセス管理できる状態にしました。これにより、サイロ化されていた社内の Amazon S3 のデータを 1 か所に集約させることなく、コストを抑えてデータを一元管理できるようになりました。

また、社内承認フローは Amazon SES と Microsoft Power Automate を連携させ、社内コミュニケーションツールである Microsoft Teams 上で操作を行えるようにしました。

データの利用承認を得る際は、データの利用者自身の情報をデータカタログサイト上で入力すると、データ登録者の Microsoft Teams に通知が届きます。承認された場合、自動で利用者に対してデータへのアクセス権限を付与し、利用者が Amazon Athenaなどのサービスからそのデータをクエリできるようになります。加えて、登録されたデータのバージョン管理も行えるように、登録されるデータの Amazon S3 のプレフィックスルールを整備することで、後方互換性を確保しました。

データカタログサイトの開発によって、社内のサイロ化しているデータを動かすことなく一元化して可視化できるサイトが構築できました。また、データの登録 / 利用時の処理には、社内承認フローが組み込まれているため、ガバナンスやコンプライアンスなども考慮したセキュアなデータ利用が可能になりました。

3. ソリューション

データカタログサイトで工夫した点は以下の 3 点です。

  1. データ登録者は S3 へデータ配置するだけでよく、データカタログサイト上から AWS Glue と AWS Lake Formation の処理を自動で行えるようにしたことで、利用のハードルを下げたこと
  2. Microsoft Teams アプリ連携により社内承認フローをシステムに組み込んだことで、簡単で安全
    なデータ活用を実現できたこと
  3. 社内の Amazon S3 のプレフィックスルールを整備したことにより、登録されたデータのバージョン更新時の後方互換性を確保したこと

以下が今回のソリューションのアーキテクチャです。どのようにこれらを実現したかを説明します。

3.1 AWS Glue + AWS Lake Formation で実現するデータアクセス制御

データカタログサイトの開発を任された私たちのチームは、API で素早く実装でき、かつ、社内で管理している各アカウント間のアクセス権を容易かつ安全に設定できるサービスを探していました。

検討した結果、登録したいデータを AWS Glue でテーブル化し、AWS Lake Formation API でテーブルへのアクセス権の操作を行うことにより、実現できることが分かりました。そして、API を起動する GUI が用意された Web ページをデータカタログサイトとして社員限定で公開しました。AWS Glue でテーブル化したことにより、データカタログサイトに登録するデータは Amazon Athena や Amazon EMR などからのクエリを利用できるようになり、分析が容易になります。さらに AWS Lake Formation では、データベースやテーブルを含むデータリソースの権限管理を一元化することができ、Tag-based access control 方式で複雑なクロスアカウントでのアクセス権の制御も容易になりました。これらによって複数ある AWS アカウント上の Amazon S3 のデータを、活用しやすい形で安全にアクセス管理できるようになりました。

3.2 Amazon SES を利用した Microsoft Teams アプリ連携

データ活用を促進するために社内でデータを公開 / 利用するといっても、ほとんどの場合、社内の承認フローが必要です。

この承認作業も、確認漏れなどが発生せず、誰でも使いやすい形を検討した結果、社内のコミュニケーションツールである Microsoft Teams と連携させることにしました。

データカタログサイトに登録する Amazon S3 のデータの、AWS Glue によるテーブル化処理が完了すると、Microsoft Power Automate を起動させ、登録時に設定した承認者のメールアドレスを利用して、承認アプリを起動します。Microsoft Teams アプリ上で承認フローが実行され、承認者から結果が返却されると、再び Amazon SES で設定したドメイン宛にメールが送信され、承認結果が Amazon S3 に自動的に保存されます。承認結果が保存されると、登録申請したデータがデータカタログサイトに反映され、社内で公開される形になります。

利用時は、データカタログサイトで公開されているデータに対して利用承認の申請をすると、そのデータの登録者の Microsoft Teams に通知が届きます。Microsoft Teams 上で利用承認のフローを完了することで、システムで自動的に利用者にアクセス権が付与され、利用できる仕組みになっています。

3.3 バージョン管理のための整備

以前社内で構築していたデータレイクでは、バージョン管理に課題がありました。データを利用したい理由は様々です。ただ最新のバージョンを分析できればいいというわけではありません。分析内容によっては、旧バージョンのデータ分析が必要といったニーズもあります。

それを解決するために 登録時の Amazon S3 へのデータ配置のルールを整備し、S3 のプレフィックスの構成をメジャー / マイナー / パッチバージョンという形式にしました。これによって、最新バージョンだけでなく、旧バージョンへのクエリもいつでも行えるようになりました。また、データ登録者が新バージョンにアップデートする際に、バージョン間の差異によって、今まで利用していたバージョンが急に使えなくなるといった混乱を防ぐこともできます。非常にシンプルな対応策ですが、このルール整備でそのようなバージョンに関するそれらの課題に対応できるようになりました。

3.4 まとめ

このようにして私たちは、データカタログサイトを構築しました。データカタログサイトによって、データ登録者は、セキュリティや権限が自動で付与されることで、自ら利用者に対して複雑な管理をすることなく、データを迅速に提供できるようになりました。また、データ利用者は、必要な時に必要な情報をすぐ取得できるようになりました。データ登録者、利用者それぞれのニーズに対応しつつ、同時に従来の社内データレイクの課題を解決することができました。

4. 結論と今後の展望

AWS Glue や AWS Lake Formation によって安全で簡単なデータアクセス管理を実現し、 Amazon SES で E メールを AWS 上で受信することで Microsoft Teams のような外部サービスとの連携も円滑になり、社内で活用しやすいデータカタログサイトを構築することができました。

「Piomatix」が生かされたAI搭載通信型オールインワン車載器「NP1」には、ドライブ中に音声で近隣のお出かけ先候補を提案するサービスがあります。このサービスにおけるユーザーの行動データ分析に、今回開発したデータカタログサイトが活用されています。ここで分析された結果は、提携事業者へフィードバックされ、マーケティングに活かされています。このように、すでにリリースされている商品にも、円滑なデータ分析で貢献しています。

また、AWS は、私たちが今回作成したようなデータカタログサイトをすぐに構築できる Amazon DataZone のプレビューを 2023 年 3 月 29 日に公開しています。私たちもすぐに体験してみました。Amazon DataZone は、AWS Glue、AWS Lake Formation、Amazon Athena のそれぞれの良いところを兼ね備えた上に、非技術者でも利用しやすいようにデザインされた GUI、プロジェクトの管理機能、利用者間のデータ共有時に関する承認機能まで加わったサービスになっていました。まさに今回開発した内容が、非技術者にも使いやすい状態で実現されている非常に魅力的なサービスだと感じました。2023 年 10 月 4 日に、Amazon DataZone が一般公開されました。非技術者が使いづらいというのは現在のデータカタログサイトの課題でもあったので、今後 Amazon DataZone への移行も検討したいと思っています。このような新しい AWS サービスも取り入れながら、さらに社内のデータ活用が進むように常にアップデートを続けていきます。

参考リンク

Amazon DataZone is now generally available

Amazon DataZone Now Generally Available – Collaborate on Data Projects across Organizational Boundaries