Amazon Web Services 한국 블로그

Category: Analytics

Amazon Redshift – 데이터 레이크 내보내기 및 통합 질의 기능 출시 (서울 리전 포함)

데이터 웨어하우스는 트랜잭션 시스템 및 업무용 애플리케이션에서 생성되는 관계형 데이터를 분석하는 데 최적화된 데이터베이스입니다. Amazon Redshift는 표준 SQL과 기존 BI(비즈니스 인텔리전스) 도구를 사용하여 데이터를 간편하고 비용 효율적으로 분석할 수 있는 완전 관리형 데이터 웨어하우스입니다. 데이터 웨어하우스에 맞지 않는 구조화되지 않은 데이터로부터 정보를 얻으려면 데이터 레이크를 빌드할 수 있습니다. 데이터 레이크는 구조화된 데이터와 구조화되지 않은 데이터 모두 […]

Read More

Amazon Redshift 업데이트 – 차세대 컴퓨팅 인스턴스(RA3)와 관리형 분석 최적화 스토리지 출시 (서울 리전 포함)

Amazon Redshift는 2012년에 출시된 전 세계에서 가장 인기 있는 클라우드 기반 데이터 웨어하우스입니다. 빠른 성능, 복잡한 쿼리에 대한 지원 및 트랜잭션 기능을 업계 최고의 가성비로 제공하여 꾸준한 사랑을 받고 있습니다. 원래 Redshift 모델은 컴퓨팅 파워와 스토리지 용량이 꽤 긴밀하게 연결됩니다. 특정 수의 인스턴스로 클러스터를 생성하면 각 인스턴스가 제공하는 로컬 스토리지의 양을 약정에 따라 사용하게 됩니다(경우에 […]

Read More

AWS Step Functions를 통한 Amazon EMR 작업 관리 기능 출시

AWS Step Functions를 사용하면 애플리케이션에 서버리스 워크플로우 자동화를 추가할 수 있습니다. 워크플로우의 단계는 AWS Lambda 함수, Amazon Elastic Compute Cloud(EC2) 또는 온프레미스 등 어디에서나 실행될 수 있습니다. 워크플로우 구축을 간소화하기 위해 Step Functions는 Amazon ECS, AWS Fargate, Amazon DynamoDB, Amazon Simple Notification Service(SNS), Amazon Simple Queue Service(SQS), AWS Batch, AWS Glue, Amazon SageMaker와 같은 여러 […]

Read More

Amazon EMR, Apache Hudi 추가를 통해 개별 레코드 수준 데이터 관리 기능 출시

Amazon S3에 데이터를 저장하면 규모 조정, 신뢰성 및 비용 효율 면에서 많은 이점이 있습니다. 그 뿐 아니라, Amazon EMR을 활용할 수 있으므로 Apache Spark, Hive 및 Presto와 같은 오픈 소스 도구를 사용하여 데이터를 처리 및 분석할 수 있습니다. 이러한 도구는 강력한 성능을 제공하지만 점진적 데이터 프로세싱과 레코드 수준의 삽입, 업데이트 및 삭제가 필요한 사용 사례를 처리하기에는 여전히 […]

Read More

AWS Data Exchange 서비스 출시 – 데이터 기반 서비스 구독 및 활용 (서울 리전 포함)

우리는 데이터 집약적이고 데이터가 중심인 세상에 살고 있습니다. 모든 유형의 조직은 데이터를 수집, 저장, 처리, 분석하고 데이터를 사용해 의사 결정 프로세스에 정보를 제공하고 이를 개선합니다. AWS 클라우드는 이러한 모든 활동에 적합합니다. AWS 클라우드는 방대한 양의 스토리지, 가능한 모든 규모의 컴퓨팅 성능에 대한 액세스 및 다양한 유형의 분석 도구를 제공합니다. 많은 조직이 내부적으로 데이터를 생성하고 사용할 […]

Read More

Amazon Quicksight, 서울 리전 출시

Amazon QuickSight는 기업내 모든 구성원들이 다양한 데이터 소스를 통한 시각적 분석 및 통찰력을 손쉽게 제공할 수 있게 지원하는 클라우드 기반 비즈니스 인텔리전스(Business Intelligence) 서비스입니다.  이제 서울 리전에도 정식 출시하였습니다. 신규 사용자는 서울 리전을 기본으로 QuickSight에 가입할 수 있으며, 해당 리전에서 AWS 및 온프레미스 데이터 소스를 활용할 수 있습니다. 기존 Amazon QuickSight 사용자는 사용자 인터페이스의 리전 […]

Read More

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법

AWS 고객은 Amazon EMR의 클러스터 탄력성을 활용하여 작업량에 따라 사용 인스턴스 수를 조정해서 비용을 절감할 수 있습니다. 특히, EC2 스팟 인스턴스를 사용하면, 빠르게 끝나는 작업에 대해서 80-90%의 저렴한 비용으로 작업을 할 수 있습니다. 또한, Amazon EMR의 오토 스케일링 기능을 통해 고객은 클러스터 사용이나 기타 작업 관련 지표에 따라 클러스터를 동적으로 확장 및 축소 할 수 […]

Read More

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. […]

Read More

Amazon Managed Streaming for Apache Kafka (MSK) 서울 리전 출시

Amazon Managed Streaming for Apache Kafka (Amazon MSK) 서비스가 Apache Kafka 버전 2.2.1 지원과 함께 서울 리전에도 정식 출시하였습니다. Apache Kafka(Kafka)는 클릭스트림 이벤트, 트랜잭션, IoT 이벤트, 애플리케이션 및 머신 로그 같은 스트리밍 데이터를 캡처하는 기능과 실시간 분석을 수행하고, 지속적인 변환을 실행하고, 이 데이터를 데이터 레이크 및 데이터베이스에 실시간으로 배포하는 애플리케이션을 제공하는 오픈 소스 플랫폼입니다 Amazon […]

Read More

AWS Fargate, Fluentd 및 Amazon Kinesis Data Firehose를 사용한 확장형 로그 솔루션 집계기 구축하기

최신 분산 애플리케이션들은 매일 기가바이트 수준의 로그 데이터를 생산해 낼 수 있는데, Amazon S3에서 Elasticsearch에 이르는 수많은 솔루션을 활용하면 이에 대한 분석과 스토리지 처리는 비교적 어렵지 않게 구현할 수 있지만 로그를 안정적으로 집계하고 최종 대상까지 전송하는 것은 여전히 어려운 영역에 속합니다. 이 게시물에서는 AWS Fargate, Amazon Kinesis Data Firehose 및 Fluentd를 사용하여 로그 집계기를 구축하는 […]

Read More