Amazon Web Services 한국 블로그

Category: Analytics

AWS PrivateLink 출시 – VPC내 AWS 서비스 엔드 포인트 서비스

이 글은 Amazon Virtual Private Cloud의 선임 엔지니어인 Colm MacCárthaigh가 작성한 것입니다. VPC 엔드포인트가 2015년에 출시된 이후, 인터넷 게이트웨이, NAT 게이트웨이 또는 방화벽 프록시 없이 Amazon Virtual Private Cloud(VPC)에서 S3 및 DynamoDB에 안전하게 액세스하는 방법으로 엔드포인트가 인기를 끌고 있습니다. VPC 엔드포인트를 사용하면 VPC와 AWS 서비스 사이의 라우팅이 AWS 네트워크에서 처리되고 IAM 정책을 사용하여 서비스 리소스에 […]

Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기

데이터 레이크(Data Lake)는 다양한 유형의 대량 데이터를 처리해야 하는 과제를 해결하는 데이터 저장 및 분석 방법으로서 점차 인기를 얻고 있습니다. 데이터 레이크를 사용하면 모든 데이터(정형 및 비정형)를 중앙 집중식 리포지토리 한 곳에 저장할 수 있습니다. 데이터를 있는 그대로 저장할 수 있으므로 데이터를 사전 정의된 스키마로 변환할 필요가 없습니다. 많은 기업들은 데이터 레이크에서 Amazon S3를 사용하는 […]

Amazon Redshift, 비용 최적 고밀도 컴퓨팅(DC2) 노드 활용하기

Amazon Redshift를 사용하면 엑사바이트 규모의 데이터를 빠르고 쉽고 비용 효율적으로 분석할 수 있습니다. 이 솔루션은 병렬 실행, 압축된 컬럼 방식 스토리지, 종단 간 암호화 등과 같은 고급 데이터 웨어하우징 기능을 종합 관리형 서비스로 제공합니다. 비용은 TB당 연간 $1,000 미만입니다. Amazon Redshift Spectrum을 사용하면 Amazon S3에서 엑사바이트 규모의 비정형 데이터에 대해 SQL 쿼리를 직접 실행할 수 있습니다. […]

Amazon Athena, 서울 리전 출시

오늘 Amazon Athena 서비스가 서울 리전에 출시되었습니다. Amazon Athena는 표준 SQL을 사용해 Amazon S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스로서, 서버리스 기반 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불하는 데이터 분석 서비스입니다. Amazon Athena 서비스에 대한 자료 모음입니다. [블로그] Amazon Athena – 초단위 페타바이트급 동적 데이터 질의 서비스 [블로그] Amazon […]

Amazon Elasticsearch Service, VPC 지원 기능 출시

지난주 Amazon VPC 내부에서 NAT 인스턴스나 인터넷 게이트웨이 없이도 Amazon Elasticsearch Service 도메인에 접속할 수 있습니다. Amazon ES용 VPC 지원은 구성하기 쉽고 안정적이면서도 보안이 한층 강화되어 있습니다. VPC 지원을 통해 다른 서비스와 Amazon ES 간 트래픽이 퍼블릭 인터넷과 분리된 AWS 네트워크 내에 완전히 유지됩니다. 기존 VPC 보안 그룹을 사용하여 네트워크 액세스를 관리하고, AWS Identity and […]

Apache Flink를 이용한 AWS기반 실시간 스트림 처리 파이프라인 구성하기

오늘날 비즈니스 환경에서, 다양한 데이터 소스의 꾸준한 증가에 맞추어 데이터는 계속적으로 생성되고 있습니다. 따라서, 원시 데이터의 대규모 스트림을 통해 실행 가능한 통찰력을 얻기 위한 데이터를 지속적으로 수집하고, 저장하고, 처리하는 능력을 갖춘다는 것은 조직의 경쟁력 측면에서 장점이라 하겠습니다. Apache Flink는 스트림 프로세싱 파이프라인의 기반을 갖추는 데 매우 적합한 오픈소스 프로젝트 입니다. 스트리밍 데이터의 지속적인 분석에 적합한 […]

AWS Glue 정식 출시 – 완전 관리형 ETL 서비스

오늘 AWS Glue 서비스가 정식 출시되었습니다. AWS Glue는 완전 관리형, 서버리스 기반 클라우드 데이터 추출, 변환 및 로드 (ETL) 서비스입니다. 이 서비스는 몇 가지 매우 중요한 방식으로 다른 ETL 서비스 및 소프트웨어 플랫폼과 다릅니다. 첫째, Glue는 “서버가 필요하지 않습니다.” 어떤 인프라 자원도 프로비저닝하거나 관리 할 필요가 없으며, Glue 실행될 때만 비용을 지불합니다. 둘째, Glue는 많은 […]

Amazon Athena – 10가지 성능 향상 팁

Amazon Athena는 표준 SQL을 통해 Amazon S3에 저장된 데이터를 쉽게 분석 할 수 있는 대화식 쿼리 서비스입니다. Athena는 서버리스(Serverless) 서비스로서, 관리해야 할 분석 서버 인프라가 없으며, 실행 쿼리에 대해서만 비용을 지불하고, 사용 방법도 매우 쉽습니다. Amazon S3에 있는 데이터 파일을 지정하고, 이에 대한 스키마를 정의한 후, 표준 SQL을 사용하여 쿼리를 하기만 하면 됩니다. 이 블로그 […]

Amazon Redshift Spectrum – S3 데이터에 대한 엑사바이트(Exabyte)급 질의 수행 서비스

이제 몇 번의 클릭만으로 클라우드 기반 컴퓨팅 및 스토리지 리소스를 시작할 수 있게 되었기 때문에, 이러한 리소스를 사용하여 초기 데이터에서 실행 가능한 결과로 최대한 신속하고 효율적으로 이동해야합니다. Amazon Redshift를 사용하면 다양한 내부 및 외부 소스의 데이터를 통합하는 페타 바이트 규모의 데이터웨어 하우스를 구축 할 수 있습니다. Redshift는 대형 테이블에서 복잡한 조인(Join, 여러 조인이 수반되는 경우가 […]

Amazon EMR 인스턴스 집합(Instance Fleets) 기능 출시!

인스턴스 집합(instance fleets) 기능이 Amazon EMR 클러스터에서도 사용할 수 있습니다. 이는 인스턴스 프로비저닝과 관련된 다양한 옵션과 스마트한 기능을 제공합니다. 5개 인스턴트 타입에 대해 가중치 기반 컴퓨팅 용량 및 스팟 인스턴스 가격 입찰을 할 수 있습니다. EMR 클러스터를 만들 때, 이들 인스턴스 유형에 대해 온-디멘드 및 스팟 용량을 자동으로 제공합니다. 이를 통해 클러스터에 원하는 용량을 신속하게 […]