AWS クイックスタート – 顧客対応ソリューション

Talend Big Data Platform を使用したデータレイク

Talend Big Data Platform、AWS のサービス、Cognizant のベストプラクティスを使用

このクイックスタートでは、アマゾン ウェブ サービス (AWS) クラウドにデータレイク環境を構築します。そのために Talend Big Data Platform コンポーネントと、Amazon EMR、Amazon Redshift、Amazon Simple Storage Service (Amazon S3)、Amazon Relational Database Service (Amazon RDS) などの AWS のサービスをデプロイします。

また、このクイックスタートでは、オプションのサンプルデータセットと、Cognizant Technology Solutions によって開発された Talend ジョブを提供し、Apache Spark、Apache Hadoop、Amazon EMR、Amazon Redshift、Amazon S3 のテクノロジーをデータレイクの実装に統合するためのビッグデータ手法を示します。

このクイックスタートは、クラウド上のビッグデータを検討中のユーザーや、ビッグデータ統合のベストプラクティスの採用を通じてビッグデータへの取り組みを加速しようと考えているユーザーを対象としています。

セキュリティ、スケーラビリティ、高可用性向けに設定された、新規の Virtual Private Cloud (VPC) インフラストラクチャを構築するか、データレイク用に既存の VPC インフラストラクチャを使用するかのいずれかを選択できます。

datalake_icon_crs_talend

このクイックスタートは、Cognizant Technology Solutions と Talend Inc. が AWS と提携して開発したものです。Cognizant と Talend は、
APN パートナーです。

  •  構築するもの
  •  デプロイ方法
  •  コストとライセンス
  •  リソース
  •  構築するもの
  • データレイクのクイックスタートアーキテクチャには、以下の要素が含まれます。

    • 2 つのアベイラビリティーゾーンにまたがる VPC。各アベイラビリティーゾーンには 2 つのサブネットが含まれています。1 つはインターネット接続を可能にするパブリックサブネット、もう 1 つは Talend ジョブサーバー、Amazon Redshift、Amazon RDS、Amazon EMR 用のプライベートサブネットです。(2 つ目のアベイラビリティーゾーンのプライベートサブネットには、ジョブサーバーしか含まれません)*
    • インターネットへのアクセスを可能にするインターネットゲートウェイ。このゲートウェイは、踏み台ホストがトラフィックを送受信するために使用されます。*
    • パブリックサブネット内のマネージドネットワークアドレス変換 (NAT) ゲートウェイ。プライベートサブネット内のリソースへのアウトバウンドのインターネットアクセスを提供します。*
    • 1 つまたは両方のパブリックサブネットにおける、プライベートサブネット内のリソースへのインバウンドのセキュアシェル (SSH) アクセスを許可する Linux 踏み台ホスト。踏み台ホストの数は、クイックスタートの起動時に選択できます。*
    • 1 つ目のアベイラビリティーゾーンのパブリックサブネット内に含まれる以下の要素。
      • Talend ジョブをブラウザで管理するための Talend Administration Center (TAC) をホストする Talend パブリックサーバー。
      • Talend Studio を自分のラップトップで実行しないユーザー向けに、X2Go クライアントで利用可能な Talend Studio リモートデスクトップインスタンス。
      • バイナリとソース構成管理のための Nexus アーティファクトリポジトリおよび Git サーバー。
      • Amazon Elasticsearch Service (Amazon ES)、Logstash、Kibana を使用する Talend ログサーバー。
    • 1 つ目のアベイラビリティーゾーンのプライベートサブネット内に含まれる以下の要素。
      • Talend メタデータをホストする Amazon RDS MySQL DB インスタンス。
      • Pig、Hive、Spark を利用した Amazon EMR クラスター。Talend Big Data Platform と緊密に連携し、データレイクに Hadoop 機能を提供します。
      • データウェアハウスまたはデータマートとして使用する Amazon Redshift クラスター。
    • プライベートサブネットにおける、TAC によってスケジュールされた Talend ジョブを実行する Talend ジョブサーバーインスタンス (Auto Scaling グループ内)。Auto Scaling により、EC2 インスタンスは自動でスピンアップまたはスピンダウンして、Talend ジョブサーバーの要求に対応します。デプロイ中に、必要なインスタンスの最大数を設定できます。
    • パブリックサブネットにおける、Talend Studio ユーザーに代わって Talend ジョブを実行する Talend 遠隔実行ジョブサーバー (Auto Scaling グループ内)。Talend ジョブは、Talend Studio またはこれらのサーバー上でローカルに実行できます。Auto Scaling グループにより、EC2 インスタンスは自動でスピンアップまたはスピンダウンして、Talend ジョブサーバーの要求に対応します。デプロイ中に、必要なインスタンスの最大数を設定できます。
    • データレイク用にデータを取り込む Amazon S3。

     

    *  クイックスタートを既存の VPC にデブロイするテンプレートでは、アスタリスクが付けられたタスクがスキップされ、既存の VPC 設定に誘導します。

  •  デプロイ方法
  • 以下の簡単なステップにより、AWS でのデータレイク環境を約 1 時間で構築できます。

    1. AWS アカウントをお持ちでない場合は、https://aws.amazon.com でサインアップしてください。
    2. Talend Big Data Platform ライセンスをプライベート S3 バケットにアップロードします。Talend のウェブサイトで、30 日間無料トライアルライセンスにサインアップできます。
    3. クイックスタートを起動します。以下の 2 つのオプションから選択できます。
    4. Talend Administration Center (TAC) を開き、クイックスタートでデプロイしたサーバーをチェックして、デプロイ環境をテストします。Talend と Cognizant により提供されているユーザーガイドのステップに従って、オプションの Talend ジョブを実行し、エンドツーエンドのデータ統合をテストすることもできます。 

    クイックスタートにはカスタマイズ可能なパラメータが用意されています。例えば、ネットワークを設定したり、TAC、Amazon Redshift、Nexus、Git サーバーの設定をカスタマイズしたりできます。

  •  コストとライセンス
  • このクイックスタートリファレンスデプロイの実行中に使用した AWS のサービスのコストは、お客様が負担します。クイックスタートを使用しても追加コストは発生しません。

    このクイックスタートの AWS CloudFormation テンプレートには、カスタマイズ可能な設定パラメータが含まれています。インスタンスタイプなどの設定の一部は、デプロイにかかるコストに影響を与えます。コストの見積もりについては、使用する AWS の各サービスの料金ページをご覧ください。

    Talend Big Data Platform ライセンスの提示が必要となります。30 日間無料トライアルライセンスをリクエストするには、Talend のウェブサイトで登録フォームに必要事項を記入してください。Talend から一意のライセンスキーが届きます。クイックスタートデプロイプロセスでは、このキーを使用します。

    このクイックスタートに含まれるすべての Talend ジョブのコードは、Apache ライセンスのもとでリリースされています。

  •  リソース
  • このクイックスタートリファレンスデプロイは、ソリューションスペースで紹介されているソリューションと関連しています。これにはソリューション概要、AWS コンピテンシーパートナーが作成したコンサルティングオファーのオプション、概念実証 (PoC) プロジェクトでの AWS の共同投資が含まれます。これらのリソースの詳細については、ソリューションスペースをご覧ください。