AWS Quick Starts - 고객 준비 솔루션

Informatica Data Lake Management on AWS

Informatica 기술과 AWS 서비스를 사용하여 데이터 레이크 환경을 구축

이 Quick Start는 Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) 및 Amazon Relational Database Service (Amazon RDS) 등 AWS 서비스와 Informatica Data Lake Management 솔루션을 배포하여 Amazon Web Services(AWS) 클라우드에 데이터 레이크 환경을 구축합니다.

데이터 레이크는 사용자가 간편하게 데이터 공급 및 수요를 관리할 수 있는 하둡 기반의 단일 리포지토리를 사용합니다. Informatica의 AWS 기반 솔루션은 대량의 정형 및 비정형 데이터를 통합, 구성, 관리, 감독 및 보호합니다. 이 솔루션은 비즈니스 통찰을 위해 목적에 따라 실행 가능하고 신뢰할 수 있으며 안전한 정보를 제공합니다.

이 Quick Start는 AWS 인프라를 구성하고, Informatica Data Lake Management 구성 요소를 배포하고, 자동으로 가상 프라이빗 클라우드(VPC)에 메타테이터 저장 및 처리용 하둡 클러스터를 포함시킵니다. Quick Start는 HDFS(하둡 분산 파일 시스템) 및 Hive용 Amazon EMR 클러스터에 대한 연결을 지정합니다. 또한 데이터 레이크의 일부로 Amazon S3 및 Amazon Redshift 환경 스캐닝을 허용하는 연결을 설정합니다.

datalake_icon_crs_informatica

이 Quick Start는 Informatica와 AWS가 공동으로 개발했습니다. Informatica는
APN 파트너입니다.

  •  구축할 내용
  •  배포 방법
  •  비용 및 라이선스
  •  리소스
  •  구축할 내용
  • 새 VPC에 Quick Start를 배포할 경우 데이터 레이크를 위해 다음 AWS 인프라가 설정됩니다.

    • 두 가용 영역에 걸쳐 있고 퍼블릭 및 프라이빗 서브넷으로 구성된 VPC.
    • 인터넷 액세스를 제공하는 인터넷 게이트웨이.
    • 퍼블릭 서브넷에서, 아웃바운드 인터넷 연결을 위해 탄력적 IP 주소로 구성되는 관리형 NAT(네트워크 주소 변환) 게이트웨이.

    또한 이 Quick Start는 다음 Informatica 구성 요소를 설치하고 구성합니다.

    • Informatica 플랫폼의 기본 관리 유닛인 Informatica 도메인.
    • Informatica 클라이언트 도구를 사용하여 생성된 프로젝트의 모든 메타데이터를 저장하는 관계형 데이터베이스인 Model Repository Service. Informatica 도메인 및 Informatica Model Repository 데이터베이스는 Amazon RDS에서 Oracle을 사용하여 호스팅됩니다. Oracle은 백업, 패치 관리, 복제 등의 관리 작업을 처리합니다.
    • 처리를 위해 하둡 클러스터로 빅 데이터 통합, 빅 데이터 품질 및 프로파일링 작업을 제출하는 요청을 관리하는 Data Integration Service.
    • 참조 데이터를 관리하는 Content Management Service. 이 서비스는 Data Integration Service 및 Informatica Developer에 참조 데이터 정보를 제공합니다.
    • Informatica 도메인에서 Analyst 도구를 실행하는 Analyst Service. Analyst Service는 서비스 구성 요소와 Analyst 도구에 로그인하는 사용자 간의 연결을 관리합니다.
    • 애플리케이션, 스키마 또는 엔터프라이즈의 데이터 원본에서 콘텐츠, 품질 및 구조를 검색할 수 있는 Profiling.
    • 조직의 중요한 개념을 정의하는 비즈니스 용어 및 정책에 대한 온라인 용어집으로 구성되는 Business Glossary.
    • Enterprise Data Catalog를 실행하고 서비스 구성 요소와 외부 애플리케이션 간의 연결을 관리하는 Catalog Service.
    • Hortonworks를 사용하여 HDFS, Hbase, Yarn 및 Solr를 실행하는 임베디드 하둡 클러스터.
    • 임베디드 하둡 클러스터에서 모든 하둡 서비스, Apache Ambari 서버 및 Apache Ambari 에이전트를 실행하는 Informatica Cluster Service.
    • 하나의 임베디드 하둡 클러스터에 메타데이터 지속성 스토어, 검색 인덱스 및 그래프 데이터베이스를 포함하는 Metadata & Catalog.
  •  배포 방법
  • 다음 단계에 따라 AWS에 데이터 레이크 환경을 구축할 수 있습니다.

    1. 아직 AWS 계정이 없다면 https://aws.amazon.com에서 등록하십시오.
    2. Informatica 라이선스를 S3 버킷에 업로드합니다. 데모 라이선스를 신청하려면 Informatica에 문의하십시오.
    3. Quick Start를 시작합니다. 각 배포에는 약 2시간이 걸립니다. 다음 2가지 옵션 중에서 선택할 수 있습니다.
    4. 클러스터 인스턴스 및 Informatica 도메인의 생성을 모니터링합니다.
    5. Quick Start 출력 링크를 사용하여 데이터 통합 작업을 위한 Informatica Developer를 다운로드하고 설치합니다.

    Quick Start에는 사용자가 지정할 수 있는 파라미터가 포함되어 있습니다. 예를 들어 네트워크를 구성하거나 Amazon EMR, Amazon Redshift, Amazon RDS 및 Informatica 소프트웨어 설정을 사용자 지정할 수 있습니다.

  •  비용 및 라이선스
  • 이 Quick Start 참조 배포를 실행하는 동안 사용되는 AWS 서비스 비용은 고객이 부담해야 합니다. Quick Start 사용에 따르는 추가 비용은 없습니다.

    이 Quick Start를 위한 AWS CloudFormation 템플릿에는 사용자 지정할 수 있는 구성 매개 변수가 포함되어 있습니다. 인스턴스 유형과 같은 일부 설정에 따라 배포 비용이 달라집니다. 예상 비용은 사용하려는 각 AWS 서비스에 대한 요금 페이지를 참조하십시오.

    이 Quick Start는 Informatica Data Lake Management 솔루션을 배포할 수 있는 라이선스가 필요합니다. 데모 라이선스를 신청하려면 Informatica에 문의하십시오.

  •  리소스
  • 이 Quick Start 참조 배포는 솔루션 개요, AWS Competency Partners가 제작한 옵션 컨설팅 제안 및 개념 증명(PoC) 프로젝트의 AWS 공동 투자가 포함되어 있는 Solution Space의 솔루션과 관련이 있습니다. 이 리소스에 대한 추가 정보가 필요한 경우 Solution Space를 방문하십시오. 또한 NGDATA, Hitachi 및 Cognizant의 빠르게 시작하기 제안도 참조하십시오.