AWS Quick Starts — 고객 레디 솔루션

Talend Big Data Platform을 갖춘 데이터 레이크

Talend Big Data Platform, AWS 서비스 및 Cognizant 모범 사례 활용

이 Quick Start는 Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) 및 Amazon Relational Database Service (Amazon RDS) 등 AWS 서비스와 Talend Big Data Platform 구성 요소를 배포하여 Amazon Web Services (AWS) 클라우드에 데이터 레이크 환경을 구축합니다.

또한, 이 Quick Start는 Apache Spark, Apache Hadoop, Amazon EMR, Amazon Redshift, Amazon S3를 데이터 레이크에 통합 구현하는 데 도움을 주는 빅 데이터 사례를 설명하기 위해, Cognizant Technology Solutions가 개발한 Talend 작업과 샘플 데이터세트를 옵션으로 제공합니다.

그리고 빅 데이터 통합에 대한 모범 사례를 도입해 빅 데이터 이니셔티브를 가속화하고, 클라우드에서 빅 데이터를 평가하고 싶어하는 사용자를 지원합니다.

보안, 확장성 및 고가용성을 위해 구성된 새 가상 프라이빗 클라우드 (VPC) 인프라를 구축하거나 기존 VPC 인프라를 데이터 레이크용으로 활용할 수 있습니다.

datalake_icon_crs_talend

이 Quick Start는 Cognizant Technology Solutions와 Talend Inc.가 AWS와 협력하여 개발하였습니다. Cognizant 및 Talend는
APN 파트너입니다.

  •  구축할 내용
  •  배포 방법
  •  비용 및 라이선스
  •  리소스
  •  구축할 내용
  • 데이터 레이크용 Quick Start 아키텍처는 다음을 포함합니다.

    • 두 가용 영역에 걸쳐 있는 VPC. 각 가용 영역에는 인터넷을 통한 연결을 허용하는 퍼블릿 서브넷 1개 및 Talend 작업 서버, Amazon Redshift, Amazon RDS 및 Amazon EMR용 프라이빗 서브넷 1개의 총 2개 서브넷이 포함됩니다. (두 번째 가용성 영역의 프라이빗 서브넷에는 작업 서버만 포함됨.)*
    • 인터넷 액세스를 제공하는 인터넷 게이트웨이. 트래픽 송수신을 위해 이 게이트웨이를 사용하는 배스천 호스트.*
    • 퍼블릿 서브넷에서, 프라이빗 서브넷의 리소스에 대한 아웃바운드 인터넷 액세스를 허용하기 위한 관리형 NAT (network address translation) 게이트웨이.*
    • 하나 또는 두 퍼블릿 서브넷에서, 프라이빗 서브넷의 리소스로 인바운드 보안 셸 (SSH) 액세스를 허용하는 Linux 배스천 호스트. Quick Start 시작 시 배스천 호스트의 개수를 선택할 수 있습니다.*
    • 첫 번째 가용 영역의 퍼블릭 서브넷에서:
      • 브라우저를 통해 Talend 작업을 관리하기 위한 Talend Administration Center (TAC)를 호스팅하는 Talend 퍼블릭 서버.
      • 노트북에서 Talend Studio를 실행하지 않기를 원하는 사용자를 위해 X2Go 클라이언트를 통해 사용할 수 있는 Talend Studio 원격 데스크톱 인스턴스.
      • 바이너리 및 소스 구성 관리를 위한 Nexus 아티팩트 리포지토리 및 Git 서버.
      • Amazon Elasticsearch Service (Amazon ES), Logstash 및 Kibana를 사용하는 Talend 로그 서버.
    • 첫 번째 가용 영역의 프라이빗 서브넷에서:
      • Talend 메타데이터를 호스팅하기 위한 Amazon RDS MySQL DB 인스턴스.
      • 데이터 레이크에서 Talend Big Data Platform과 밀접하게 통합되고 Hadoop 기능을 제공하는 Pig, Hive 및 Spark 포함 Amazon EMR 클러스터.
      • 데이터 웨어하우스 또는 데이터 마트로 사용되기 위한 Amazon Redshift 클러스터.
    • 프라이빗 서브넷에서, TAC에 의해 예약된 Talend 작업을 Auto Scaling 그룹에서 실행하는 Talend 작업 서버 인스턴스. Auto Scaling을 사용하면 EC2 인스턴스를 자동으로 스핀 업 또는 스핀 다운하여 Talend 작업 서버의 수요에 대응할 수 있습니다. 배포 동안 원하는 최대 인스턴스 개수를 구성할 수 있습니다.
    • 퍼블릭 서브넷에서, Talend Studio 사용자를 대신하여 Talend 작업을 Auto Scaling 그룹에서 실행하는 Talend 원거리 실행 작업 서버 인스턴스. Talend 작업을 Talend Studio에서 로컬로 또는 이러한 서버에서 실행할 수 있습니다. Auto Scaling 그룹을 사용하면 EC2 인스턴스가 자동으로 스핀 업 또는 스핀 다운되어 Talend 작업 서버에서 수요에 대응할 수 있습니다. 배포 동안 원하는 최대 인스턴스 개수를 설정할 수 있습니다.
    • 데이터 레이크를 위해 데이터를 수집하는 Amazon S3.

     

    * Quick Start를 기존 VPC에 배포하는 템플릿은 별표가 표시된 작업을 건너뛰고 기존의 VPC 구성을 시작합니다.

  •  배포 방법
  • 다음의 간단한 단계를 통해 데이터 레이크 환경을 AWS에 1시간 이내에 구축할 수 있습니다.

    1. 아직 AWS 계정이 없다면 https://aws.amazon.com에서 가입합니다.
    2. Talend Big Data Platform 라이선스를 프라이빗 S3 버킷으로 업로드합니다. Talend 웹 사이트에서 가입하면 30일 무료 평가판 라이선스를 이용할 수 있습니다.
    3. Quick Start를 시작합니다. 다음 2가지 옵션 중에서 선택할 수 있습니다.
    4. Talend Administration Center (TAC)를 열고 Quick Start에서 배포된 서버를 확인하여 배포를 테스트합니다. Talend 및 Cognizant가 제공하는 사용 안내서의 단계를 따라 선택 사항으로 Talend 작업을 실행하여 엔드 투 엔드 데이터 통합을 테스트할 수도 있습니다.  

    Quick Start에는 사용자가 지정할 수 있는 파라미터가 포함되어 있습니다. 예를 들어, 네트워크를 구성하거나 TAC, Amazon Redshift, Nexus 및 Git 서버 설정을 사용자 지정할 수 있습니다.

  •  비용 및 라이선스
  • 이 Quick Start 참조 배포를 실행하는 동안 사용되는 AWS 서비스 비용은 고객이 부담해야 합니다. Quick Start 사용에 따르는 추가 비용은 없습니다.

    이 Quick Start의 AWS CloudFormation 템플릿에는 사용자 지정할 수 있는 구성 파라미터가 포함되어 있습니다. 인스턴스 유형과 같은 일부 설정에 따라 배포 비용이 달라집니다. 예상 비용은 사용하려는 각 AWS 서비스에 대한 요금 페이지를 참조하십시오.

    Talend Big Data Platform 라이선스를 입력해야 합니다. 30일 무료 평가판 라이선스를 요청하려면 Talend 웹 사이트에서 요청 양식을 작성하십시오. Talend가 고유 라이선스 키를 제공하여 Quick Start 배포 프로세스 동안 사용할 수 있습니다.

    Quick Start에 포함된 모든 Talend 작업 코드는 Apache 라이선스에 따라 릴리스됩니다.

  •  리소스
  • 이 Quick Start 참조 배포는 솔루션 개요, AWS Competency Partners가 제작한 옵션 컨설팅 제안 및 개념 증명 (PoC) 프로젝트의 AWS 공동 투자가 포함되어 있는 Solution Space의 솔루션과 관련이 있습니다. 이 리소스에 대한 추가 정보가 필요한 경우 Solution Space를 방문하십시오.