AWS JAPAN APN ブログ

安全なデータ連携を実現するための AWS PrivateLink と trocco® の活用法

この記事は アマゾン ウェブ サービス ジャパン合同会社 パートナーソリューションアーキテクト 櫻谷と、株式会社 primeNumber コンテンツマーケター 山本氏による共著です。

ビジネスの成長にデータの活用は不可欠です。様々なソースからデータを収集し、分析、可視化、機械学習を使用した予測などを実行して、データに基づくビジネス上の意思決定を行なうことができる会社は、市場において大きな競争力を持ち得ます。

しかし、セキュアでスケーラブルなデータ分析環境の構築は、一朝一夕に実現できるものではありません。データ活用の道のりは、データの収集、加工、分析、可視化など複数のステップに分けることができますが、まず最初に課題として現れてくるのが、点在するデータソースから効率的にデータを集めてくる収集のステップです。特に昨今のような多くのマイクロサービスから構成される大規模分散システム、多種多様なデータ、ペタバイト/エクサバイト級の大規模データを取り扱うシステムが対象となると、データ連携の複雑性や難易度は倍増します。

また、機密性の高いデータを取り扱う場合は、データの転送経路にも注意する必要があります。転送中のデータの暗号化はもちろん、要件によってはインターネットを利用しない通信経路が求められる場合もあります。これは、同一ネットワーク内にすべてのデータおよび分析環境がある場合は問題になりませんが、オンプレミスやクラウド、サードパーティの SaaS などにデータが点在しているハイブリッドな環境においては、セキュアな通信経路の確立は不可欠です。

このブログでは、AWS ソフトウェアパートナーである primeNumbertrocco®︎ というソリューションを活用した、セキュアなデータ連携の方法について解説します。

AWS が提供するプライベート接続サービス

AWS PrivateLink

AWS は、プライベートな接続を実現することができる AWS PrivateLink という機能を提供しています。PrivateLink を経由した通信は、AWS のプライベートなネットワークに留まるため、インターネットを利用することができない環境でもセキュアに AWS サービスや AWS 上で稼働するアプリケーションにアクセスすることができます。

AWS Direct Connect

データソースまたはターゲットがオンプレミスにある場合は、AWS Direct Connect を利用することで、同様の閉域網を構築することができます。これは、自社の拠点やデータセンターを Direct Connect ロケーションを介して専用線で接続することによって、インターネットを介さずに AWS と拠点間の通信を可能にするサービスです。上述の PrivateLink と併用することで、AWS 上で稼働するサードパーティが提供する SaaS へオンプレミスからエンドツーエンドでプライベートに接続するような構成を作ることもできます。

ユースケース

​​これらの機能は、通信経路のプライベート化によるセキュリティの向上だけでなく、高速で安定した AWS のネットワークを活用することによる通信効率の向上や、VPC エンドポイントポリシーによる細かなアクセス制御、不要になった NAT Gateway の削除によるコスト削減といった様々な利点をもたらします。また、CIDR の重複したネットワーク同士でも利用できるため、大規模なマルチテナント SaaS のプライベート接続機能の提供にも利用されています。具体的な事例についてはこちらのブログをご覧ください。

trocco® を活用したデータ連携とは

trocco® を利用すれば、低コストかつスピーディーに、また、スモールスタートでセキュアなデータパイプラインを構築できます。ここでは、trocco® の概要とその基本的な機能と、trocco® がどのようなセキュリティ対策を行っているかを紹介します。

trocco® の概要と基本的な機能

trocco® は、データを分析・活用するためのデータ分析基盤の構築や、データを使うための技術を提供するサービスです。ETL・ELT の機能を中心に、データマネジメントに必要なさまざまなプロセスを支援します。trocco® が提供する機能は、主に「データ転送 (ETL)・マネージドデータ転送」、「データマート生成 (ELT)」、「ワークフロー (ジョブ管理)」、「データカタログ・データディスカバリー」があります。

データ転送 (ETL)・マネージドデータ転送

データ転送は ETL 処理を行う機能です。基本的な ETL は GUI 上で簡単に設定でき、データソース側の列の追加・削除・変更の検知・追従が可能です。trocco® が対応するコネクタ間でデータの転送ができます。

マネージドデータ転送では、MySQL のテーブルや Salesforce のオブジェクトなどの転送元にあるデータソースを一括で取り込み、紐づく転送設定を一元作成・一括管理できます。転送設定を 1 つずつ手動で作る必要はなくなり、作業時間の短縮が期待できます。また、マネージドデータ転送は、転送元のデータソースの増減を検知できます。検知したデータソースの増減は、既存のマネージド転送設定に反映したり Slack へ通知したりすることも可能です。

データ統合は工程が多く手間のかかる作業ですが、trocco® はデータ統合にかかる時間の 90% 以上を削減します。GUI で簡単に設定できる点も手間を減らせるポイントです。

データマート生成 (ELT)

SQL エディタで変換処理を書くだけで、DWH 上のログをビジネス活用しやすい状態に整備することができます。また、後述のワークフロー機能と併用することで、trocco® を使ってデータ転送をした後に集計を実行するような依存関係を構築できます。

ワークフロー (ジョブ管理)

ワークフロー機能を使えば、複雑なパイプラインも GUI で定義できます。データ転送と SQL の発行を一連の処理にして定期的に実行することが容易になります。データ分析に必要な接続先をカバーしており、たとえば、Tableau データ抽出や BigQuery データバリデーション、Slack 通知に対応しています。

trocco® が提供するデータ転送のセキュリティ体制

trocco® では、セキュリティを担保する標準機能として、通信の暗号化やログイン IP の制限、踏み台経由の SSH 接続機能 (※一部データソースに限る) などの機能を搭載し、セキュリティ対策を行っています。

同時に、転送時のデータは暗号化通信で保護されています。接続パスワードなどの機密情報も AWS Key Management Service (AWS KMS) により暗号化され、インターネットから隔離されたネットワーク内のデータベースに保存されます。

また、trocco® ではデータ転送が行われるたびに新しいコンテナを起動します。そのため trocco® に登録されているアカウントは互いに完全に隔離されており、リソースの共有はされません。ユーザーのデータを預かる時間が短くなるよう設計されているため、転送が完了するとコンテナは破棄されます。

そのほか、サービスログインへの二段階認証やソース IP 制限、基盤へのアクセス制限もできます。

AWS PrivateLink と trocco® を活用してデータ分析基盤を構築するメリット

インターネット経由でもデータ連携は可能ですが、PrivateLink を利用することでセキュリティを向上することができます。PrivateLink を介した通信はプライベートな AWS のバックボーンを経由するため、インターネットにデータが公開される心配はありません。また、HIPAA や PCI DSS といったコンプライアンス基準への準拠が必要なケースでも安心してご利用いただけます。

一般的に、パブリックアクセスが不要なデータベースなどは、インターネットから隔離されたプライベートなネットワーク環境に置くケースが多いかと思います。このような環境下でも、特に踏み台のインスタンスなどを用意することなくデータ連携を開始することができるのが、PrivateLink と trocco® を活用するメリットの一つと言えます。

AWS PrivateLink と trocco® の活用例

セキュアな通信環境でデータ転送をしたいという企業には、AWS PrivateLink と trocco® の活用がおすすめです。特に、秘匿性の高い情報を扱っている企業での活用が適しているでしょう。

たとえば、実際に AWS PrivateLink 接続オプションを利用して Amazon Virtual Private Cloud (Amazon VPC) 上の Amazon Relational Database Service (Amazon RDS) からセキュアにデータを転送し、製品の販売管理や EC サイトの購買情報の可視化に活用しているケースがあります。こうしたデータを売上データと紐づけ、売上予測や経営戦略に役立てることもできます。

また、Direct Connect を介して自社のオンプレミス環境からインターネットを経由することなくデータ連携することも可能です。オンプレミスの Amazon RDS 上の、顧客情報や仕入原価、販売価格、売上といった秘匿性の高い情報を、Amazon Redshift などのクラウド DWH での分析に活用されているケースもあります。

※AWS PrivateLink 接続オプションが対応しているコネクタは随時開発中となっております。最新の対応状況につきましては、primeNumber までお問い合わせください。

また、現在下記データソースに対応しています。対応データソースは順次拡張予定です。

転送元 Amazon Redshift, Snowflake, SQL Server, Oracle, SFTP, Amazon Simple Storage Service (Amazon S3)
転送先 Amazon Redshift, Snowflake, SQL Server, Amazon S3
データマート定義 Amazon Redshift, Snowflake

trocco® の AWS PrivateLink 接続オプションの設定方法

ここでは、AWS Privatelink 接続オプションをお申込みいただいた後、利用を始めるための設定方法を紹介します。本記事では、trocco® の PrivateLink オプション機能に対応している Amazon Redshift、Snowflake との接続方法を取り上げます。AWS PrivateLink のセキュリティや技術の特性上、申込者及び primeNumber の双方で作業が発生しますが、ここでは申込された企業のご担当者に対応いただく内容を記載いたします。相談やお申込みをご希望の方、設定方法の詳細を知りたい方は、primeNumber までお問い合わせください。

※AWS PrivateLink 接続オプションは有料プランを契約をしている企業のみご利用いただけます。
※本記事に記載の AWS PrivateLink 接続の手順は構築時期により変更点が生じることがございます。予めご了承ください。

Amazon VPC との接続

Amazon VPC との接続に必要な手順は以下です。

  • 接続先 (データ抽出元/転送先) に関する、プライベート IP アドレス及び、通信ポート番号を控える
  • ネットワークロードバランサーの作成と必要に応じた、ターゲットグループを作成する
  • エンドポイントサービスの作成とネットワークロードバランサ―へのアタッチメントをする
  • プリンシパルの許可設定を行う
  • 転送設定の作成をする

ネットワークは、ユーザー側で構築した Network Load Balancer (NLB) 側の IP がソース元となります。ソース IP の調査が必要な場合は、Amazon VPC 内部にて名前解決をしてください。

また、Amazon Redshift を利用する場合は、データ転送時に一時的にデータを保存するための S3 バケット名を指定します。こちらで指定したバケットのみ、PrivateLink にて接続できます。

なお、NLB を返さない通信の場合は、PrivateLink 接続ではログとして指定のプライベート IP からのアクセスが残ります。そのため、trocco と接続の際は、指定のプライベートアドレスの許可が必要になります。

Snowflake on AWS との接続

ご利用されている Snowflake との接続に必要な手順は以下です。

  • Snowflake が「Business Critical」で契約できているか確認する
  • Snowflake のワークシートより、PrivateLink を有効化するコマンドを入力する
  • Snowflake のワークシートより、Snowflake 側の接続情報を取得するコマンドを入力する
  • Snowflake への接続情報を primeNumber へ共有する
  • お客様側にて Snowflake への接続情報・転送設定を作成する

なお、Snowflake ではアクセス制御を実施することができます。PrivateLink 接続の場合は、プライベート IP からのアクセスとなり、その他通信を遮断できます。trocco® と接続の際は、指定のプライベートアドレスの許可が必要になります。

まとめ

AWS PrivateLink と trocco® を併せて利用すると、手軽かつ安全にデータパイプラインを構築することができます。

オンプレミスのデータをセキュアに通信したい、インターネットを経由しないセキュアな環境でデータ加工までを行いたい、という場合は、ぜひ AWS PrivateLink と trocco® の併用を検討してはいかがでしょうか。

株式会社 primeNumber は、AWS PrivateLink Ready パートナーとして認定されています。そのため、AWS PrivateLink と trocco® の組み合わせにおいて、お客様に手軽かつ安全なデータパイプライン構築を支援することが可能です。ご関心をお持ちの方は、まずは株式会社 primeNumber へご相談ください。

※なお、AWS Privatelink 接続オプションはフリープランではご利用いただけません。有料プランをご契約の方に提供しております。

また、AWS PrivateLink と trocco® の活用法について解説した動画、「機密データを安全にクラウド連携する方法 〜ETL SaaS と AWS PrivateLink で実現するセキュアなデータパイプライン〜」も用意しております。セキュアなデータ活用を実現したいとお考えの方はぜひご覧ください。