Amazon Web Services ブログ

Part 1: NatWest Groupにおけるスケーラブル、セキュア、かつサステナブルなMLOps基盤の構築

このブログ記事は Part 1: How NatWest Group built a scalable, secure, and sustainable MLOps platform を翻訳したものです。

本ブログ記事は、英国のメジャーな金融機関・NatWest Group がAWSとの協業を通じて実現した、スケーラブル、セキュア、かつサステナブルなMLOps基盤プロジェクトについて解説した4つの記事からなるシリーズの1本目の記事です。

この記事では、AWSとNatWest Groupの合同チームが Amazon SageMaker Studio を活用し、わずか9か月でデータサイエンス環境の標準化を実現した取り組みの概要について紹介します。本記事の想定読者は、自社における機械学習(ML)ワークフローの標準化を推し進めたい意思決定者、たとえばCDAO、CDO、CTO、イノベーションチームのリーダー、およびリードデータサイエンティストです。本シリーズの後続の記事では、本ソリューションの技術的な実装方法について詳しく解説します。

シリーズ全体の記事はこちら:

MLOps

NatWest Groupでは、MLOpsを、DevOpsおよびエンジニアリングベストプラクティスに基づくあらゆるデータサイエンス関連活動により、MLを核としたソリューションやプロダクトからビジネス価値を創出するためのプロセスとして捉えています。MLOpsは、データサイエンスチームが自身のアイデアを具現化し、タイムリーかつ安全に、追跡可能性と再現可能性のある方法で実用化するための標準、ツール、およびフレームワークを提供します。

NatWest GroupとAWSとの戦略的協業

NatWest Groupは、英国最大のビジネス・商業銀行グループであり、リテール事業も展開しています。同グループは、デジタル社会におけるリレーションシップバンクとして活動することで、英国およびアイルランド全域の1,900万人の個人、家族、企業の顧客の繁栄を支援し、その可能性を広げています。

NatWest Groupは、エンタープライズにおける先進的なアナリティクスのスケール化を試みるにあたり、MLモデルやソリューションの開発と実用化に多くの時間を要していることを重要な課題と認識しました。そこで、NatWest Groupでは、自社のビジネスと顧客を支援するML活用サービスの開発と実用化のための、モダンかつ安全な、スケーラブルかつサステナブルなセルフサービス型のML基盤の設計、構築、およびローンチのため、AWSと協業することを決断しました。

NatWest GroupとAWSとの協業の目的は以下の通りです:

  • 統合されたセルフサービス型かつDevOpsドリブンなアプローチによるインフラとアプリケーションコードにより、本番化までの明確な道筋を有し、それまでは週単位の時間を要していたデプロイメントを分単位に短縮する(参考:現状の平均所要時間は60分)
  • 業界のベストプラクティスと銀行全体で共有されたアーティファクトを使用して、MLモデルとインサイトによるイノベーションを加速するための安全で管理されたテンプレート化された環境
  • 全社にわたり、データへのアクセスと共有をより簡易かつ安定的に実現
  • オンデマンド型のマネージドアーキテクチャに基づくモダンなツールセットによるコンピュート環境の最小化、コスト削減、およびサステナブルなML開発とオペレーション。このツールは、日々変化するユースケースとコンプライアンス要件を満たすため、AWSの新たなプロダクトやサービスの活用を許容する柔軟性を備える。
  • 社内のデータサイエンスおよびエンジニアリングチームに対するML基盤の導入、エンゲージメント、およびトレーニングの支援

銀行におけるセキュリティ要件を満たすため、NatWestの環境では公衆インターネットへのアクセスが遮断されており、全てのデータはカスタムキーにより暗号化されます。本シリーズの Part 2 で解説する通り、SageMaker Studioのセキュアなインスタンスは、開発用アカウントに60分でデプロイすることができます。アカウントのセットアップ完了後、新しいユースケースのテンプレートは、SageMaker StudioのSageMakerプロジェクトを経由してデータサイエンティストからリクエストされます。このプロセスにより、CI/CDパイプライン、ユニットテスト、モデルテストおよびモニタリングなどを含むMLOpsの機能のために必要なインフラの開発アカウントへのデプロイが(オペレーションチームからの最低限のサポートで)実施されます。

これらの機能は、下記の図に示すケイパビリティの共通レイヤー(common layer of capability)の中で提供されます。

common layer of capability

全体プロセス

NatWest Group と AWS の合同チームは、下記の5つのステップからなるアジャイルなプロセスにより、新しいプラットフォームの発見、設計、構築、テスト、およびローンチを9か月間で実現しました。

  • 発見 – MLライフサイクルの中のペインポイントを特定するため、複数回の情報収集セッションを実施しました。これらのセッションで見つかったペインポイントには、データの発見、インフラのセットアップとコンフィグレーション、モデル構築、ガバナンス、実用化までの道筋、およびオペレーションモデルにまつわる課題が含まれていました。AWSとNatWest Groupは、Working Backwardsの考えに基づき、MLOps基盤に関する共通のビジョン、成功のクライテリア、実行プランの創造に必要なコア要件、プライオリティ、および依存関係を理解することができました。
  • 設計 – 発見フェーズからのアウトプットに基づき、合同チームはMLOps基盤の最終設計を行いました。本設計は、AWSにおけるベストプラクティスやアドバイス、そしてNatWest Group内でのクラウドサービス利用の経験を組み合わせて行われました。特に、金融サービス領域において典型的に求められるセキュリティやガバナンスの要件を満たすことを重要視しました。
  • 構築 – チームの協業により、MLOps基盤のインフラストラクチャーのためのTerraformAWS CloudFormationのテンプレートを構築しました。本プラットフォームに対するフィードバックをエンドユーザ(データサイエンティスト、ML・データエンジニア、プラットフォームサポートチーム、セキュリティ・ガバナンス、およびシニアステークホルダー)から継続的に収集することにより、成果物が元々設定したゴールに合っていることを確認しました。
  • テスト – 実際のビジネスアナリティクスやMLユースケースにおいてプラットフォームが実際に活用できることは、本プロジェクトにおいて決定的に重要な要素です。NatWestは、プラットフォームのスケーラビリティ、フレキシビリティ、およびアクセサビリティなどを検証するため、幅広いビジネス課題とデータサイエンスの複雑性を有する3つのプロジェクトを選定しました。これらのユースケースに基づき、AWSとNatWestのデータサイエンティストとエンジニアは、ベースラインとなる環境のテンプレートとSageMakerパイプラインを共同で開発しました。
  • ローンチ – 有用性の検証後、合同チームは新しい基盤を組織内にローンチしました。本ローンチに際し、各チームがそれぞれのユースケースを実現し、ユーザを巻き込めるよう、カスタマイズされたトレーニングプランと導入・エンゲージメントサポートを提供しました。

スケーラブルなMLフレームワーク

何百万人もの顧客が複数のプロセスに関わっているビジネス領域において、MLワークフローがビジネス価値を生み出すためには、サイロ化されたチームがそれぞれのツールで管理しているデータを統合する必要があります。特に、NatWest Groupでは顧客データの保護に強くコミットしているため、MLモデル開発インフラには厳しいセキュリティ規程が定められています。これは、新たなMLモデル構築の複雑さを増加させ、価値を生み出すまでに必要な時間にも影響を与えます。スケーラブルなMLフレームワークには、異なるツールの活用にともなう労力を削減し、新たなMLモデルの実用化までの道筋を簡素化するためのツールセットのモダナイゼーションと標準化が不可欠です。

AWSとのエンゲージメントを始める前、データサイエンス関連のアクティビティは、集中管理型のプラットフォームチームによってサポートされていました。プラットフォームチームは、組織内のデータチームからの要件を集め、各チームに必要なインフラのプロビジョニングと管理を行っていました。NatWestは、組織内のあらゆるチームでのML活用を急速に拡大したいという思いを抱いており、そのためには、新たに開発されたMLモデルやパイプラインを、事前承認済の標準仕様を有するモダンかつ安全なインフラ上にセルフサービスでデプロイ可能な、スケーラブルなMLフレームワークを必要としていました。このフレームワークが実現できれば、プラットフォームを集中管理しているチームへの依存度が下がり、MLモデルがバリューを生み出すまでの時間を短縮することができます。

本フレームワークは、データの消費者(データサイエンティスト、MLエンジニア)がMLモデルの学習のために必要な承認済のデータを自由に閲覧・発見し、迅速かつシンプルな方法でそのデータにアクセスし、そのデータを利用してMLモデルの有用性を検証し、他のユーザが利用可能な形でそのモデルをプロダクション環境にリリースすることができます。これにより、MLモデルによるビジネス価値を開放することができます。

以下の図に、上記のフロー、および本フレームワークがもたらすベネフィットを示します。これらのベネフィットには、マネージドかつオンデマンド型のインフラによる計算コストの削減、セルフサービス型のテンプレートによるオペレーション業務の削減、セキュリティコンプライアンスを満たしたML環境の立ち上げと停止にかかる時間の効率化(AWS Service Catalog プロダクトを活用)、そして実用化までの道筋の簡素化が含まれます。

MLOps flow and framework benefits

スケーラブルなMLフレームワークは、下位層では以下のように構成されています:

  • セルフサービス型インフラデプロイメント – 集中管理型のチームへの依存度を削減
  • Pythonパッケージの集中管理システム – モデル開発に必要な承認済みのPythonパッケージを提供
  • モデル開発と本番化のためのCI/CDパイプライン – CI/CDパイプラインをインフラストラクチャーの一部となるInfrastructure as Code (IaC) テンプレートとして提供することにより本番化までの時間を削減
  • モデルテスト機能 – 新しいモデルに対するユニットテスト、モデルテスト、統合テスト、end-to-endテストの機能を自動的に提供
  • モデルデカップリングとオーケストレーション – 計算リソースの要件に応じてモデルステップをデカップリングし、各ステップのオーケストレーションをAmazon SageMaker Pipelinesで実施。これにより、不要な計算を削減し、デプロイメントの堅牢性を向上。
  • コード標準化 – CI/CDパイプラインへの統合により、Python Enhancement Proposal (PEP8) 標準検証に基づくコード品質を標準化
  • クイックスタート汎用MLテンプレート – AWS Service Catalog テンプレートにより、クリック一つでMLモデル環境(開発、プリプロダクション、プロダクション)と関連するパイプラインをインスタンス化。本機能は、Amazon SageMaker Projects のデプロイメントにより実現。
  • データおよびモデルの品質モニタリングAmazon SageMaker Model Monitor により、データとモデル品質のドリフトをモニタリング。これにより、モデルがオペレーションの要件に合ったパフォーマンスを想定するリスクの範囲内で実現していることを保証。
  • バイアスモニタリング – データの中のアンバランス、および外的変化によるモデルのバイアスの発生を自動的にチェック。これにより、モデルのオーナーが公平で公正な判断が行えることを保証。

データ処理からMLアーキテクチャーまでの幅広い範囲にわたるSageMakerの有用性を実証するため、NatWestの銀行グループ内の複数の部署から3つのユースケースが選定されました。検証フェーズでは、各ユースケースに関連するデータを難読化した上で、ユースケース検証用アカウント内のローカルの Amazon Simple Storage Service (Amazon S3) のデータバケットに格納しました。モデルのマイグレーション完了後、そのデータはクラウドにホストされたNatWestのデータレイクに置かれ、プロダクションモデルによって読み込まれます。各プロダクションモデルが出力する予測結果は、同じデータレイクに書き込まれます。将来のユースケースでは、Cloud Data Explorerという、NatWestで事前承認済のデータカタログの検索・閲覧を可能にするアクセラレーターの利用が予定されており、データ発見プロセスのさらなる加速が期待されています。

AWSのベストプラクティスで定義されている通り、各ユースケースに対し、3つのアカウント(開発、テスト、プロダクション)がプロビジョニングされます。セキュリティ要件に対応するため、公衆インターネットへのアクセスは無効化され、全てのデータはカスタムキーによって暗号化されます。こちらのブログ記事で説明されている通り、SageMaker Studioのセキュアなインスタンスはものの数分で開発用アカウントにデプロイすることができます。アカウントのセットアップの完了後、データサイエンティストはStudioのSageMaker Projects経由で新しいユースケースのテンプレートをリクエストします。このプロセスにより、CI/CDパイプライン、ユニットテスト、モデルテストおよびモニタリングなど、MLOps機能の確保に必要なインフラが開発アカウントにデプロイされます(オペレーションチームからの支援は必要最低限)。

各ユースケースの開発(既存のアプリケーションコードベースの場合はリファクタリング)により、ユースケースはSageMaker環境で実行可能となります。こちらのブログ記事で説明する通り、ここでは、実験のトラッキング、モデル説明性、バイアス検知、データ品質モニタリングなどのSageMakerの機能が活用されています。これらの機能は、こちらのブログ記事で紹介する方法により、それぞれのユースケースのパイプラインに追加されます。

クラウドファースト:サステナブルなMLモデル開発とデプロイメントのソリューション

大規模なデータセットに基づくMLモデルの学習は膨大な計算リソースを必要とします。しかし、この学習ワークフローで消費するエネルギーはAWSの利用により最適化が可能です。AWSを活用することにより、標準的な欧州エンタープライズのデータセンターと比べてCO2の排出量を80%近く削減し、エネルギー効率を5倍になることを示唆する研究レポートが発表されています。さらに、この協業プロジェクトが実現したような、MLワークフローのためのオンデマンド型のマネージドインフラの適用により、NatWest Groupでは実業務に最低必要なリソースのみをプロビジョニングすることが可能になりました。

たとえば、膨大なデータセットのうち、MLモデルの学習に必要な情報が10%のカラムに含まれるユースケースに対し、SageMaker Pipelines のオンデマンド型アーキテクチャーは、データの前処理プロセスを、データの読み込みとフィルタリング、および特徴量エンジニアリングの2つに分割することができます。この方法により、より多くの計算リソースを必要とする最初のプロセス(データの読み込みとフィルタリング)では大きなコンピュートインスタンスを利用し、全データの10%を対象とした2番目のプロセス(特徴量エンジニアリング)では、より小さなインスタンスを利用することが可能です。さらに、Model Monitor や Pipelines といった SageMaker のサービスでデータ品質の継続的なモニタリングを行い、データやモデルの品質がドリフトしたモデルを用いた推論を避けることができます。これにより、ビジネスバリューをもたらさない計算ジョブが削減され、実行に必要なのエネルギーと計算リソースが効率化できます。

今回の協業では、NatWestのモデル開発とデプロイメント戦略に対し、効率的なオンデマンド型マネージドアーキテクチャの選択や、効率的なファイルフォーマットへのデータの圧縮などを含む複数のサステナビリティ最適化技術が導入されました。初期の概算では、他のクラウドアーキテクチャーと比較して顕著なCO2排出量の削減が見込まれるなど、NatWest Groupが掲げる2050年までのCO2排出量ネットゼロの目標を支援しています。

成果

9か月間にわたり、NatWestとAWSは一つのチームとして、組織全体へのMLOpsのケイパビリティの構築とスケール化を実現しました。本協業によって得られた主な成果は以下の通りです:

  • NatWest全体にMLOpsの機能をスケールさせ、300人以上のデータサイエンティストやデータエンジニアに開発したプラットフォーム上で作業を行うためのトレーニングを実施
  • オンデマンド型のマネージドなSageMakerインフラ構築のため、AWS Service Catalog を用いたスケーラブルかつ安全でコスト効率的なサステナブルインフラのデプロイ
  • 複数のチームにわたり、MLモデル開発とデプロイメントのプロセスを標準化
  • 既存モデルによる技術負債の削減と再利用可能なアーティファクト作成をそれぞれ実現し、将来のモデル開発を効率化
  • データアナリティクスユースケースのアイデア創出から実用化までの所要期間を40週から16週に短縮
  • MLユースケースの環境構築に必要な期間を(社内規程で要求される複数回の検証を含めて)35~40日から1~2日に短縮

結論

本記事では、AWSとNatWest Groupによる協業プロジェクトの成果の概要を紹介しました。本プロジェクトにより、NatWest Group内でのスケーラブルなMLフレームワークが実現され、MLモデルの実用化に至るまでの時間の短縮に成功しています。

この共同の取り組みにより、AWSとNatWestは組織全体にわたり、MLワークフローのスケーラビリティ、セキュリティ、そしてサステナビリティのための基準を作りました。本シリーズで続く以降のブログ記事では、実現したソリューションの詳細について紹介します:

  • Part 2では、NatWest GroupとAWSがAWS Service CatalogとSageMakerを活用し、セキュアかつコンプライアンス要件を満たすセルフサービス型のMLOps基盤を構築した方法について解説します。DevOps、プラットフォームエンジニア、セキュリティ、およびITチームなどプラットフォーム開発者に向けた内容です。
  • Part 3では、NatWest GroupがSageMakerのサービスを利用し、監査可能性、再現可能性、および説明可能性を有するMLモデルを構築した方法を紹介します。データサイエンティスト、MLエンジニア、データエンジニアを意図した内容です。
  • Part 4では、NatWestのデータサイエンスチームが既存のモデルをSageMakerアーキテクチャにマイグレーションした方法について解説します。データサイエンティスト、データエンジニアやMLエンジニアなどのモデル開発者に対し、既存のモデルをマイグレーションする方法を紹介します。

AWSのProfessional Serivcesは、AWS上でのスケーラブルかつ実用化可能なMLプロジェクトの実現を支援します。詳細は、AWS Professional Services の情報、および貴社のアカウントマネージャー経由でご連絡をお願いします。