게시된 날짜: Nov 29, 2022
개발자는 Apache Spark용 Amazon Redshift 통합 기능을 사용해 Amazon Redshift 데이터를 토대로 Apache Spark 애플리케이션을 원활하게 구축하고 실행할 수 있습니다. Amazon EMR, AWS Glue, Amazon SageMaker 등의 AWS 분석 및 기계 학습(ML) 서비스를 사용 중이라면 이제 애플리케이션 성능이나 데이터의 트랜잭션 일관성을 유지하면서 Amazon Redshift 데이터 웨어하우스에서 데이터 읽기와 쓰기를 수행하는 Apache Spark 애플리케이션을 구축할 수 있습니다. Apache Spark용 Amazon Redshift 통합 기능은 기존 오픈 소스 커넥터 프로젝트를 토대로 제작되었지만 성능과 보안은 더욱 향상되었습니다. 따라서 고객은 애플리케이션 성능을 최대 10배까지 높일 수 있습니다. 이 통합 기능 개발을 위한 공동 작업에 참여해 주신 프로젝트 원 참여자 여러분께 감사를 드립니다. 향후 통합 기능이 향상되면 오픈 소스 프로젝트를 계속 개선할 예정입니다.
Apache Spark용 Amazon Redshift 통합 기능 사용 시에는 Spark-Redshift 오픈 소스 커넥터를 설정하는 번거로운 프로세스(수동으로 수행해야 하는 경우가 많음)를 최소화할 수 있으며 분석 및 ML 태스크를 준비하는 데 걸리는 시간을 단축할 수 있습니다. 데이터 웨어하우스로의 연결만 지정하면 몇 초 내에 Apache Spark 기반 애플리케이션에서 Amazon Redshift 데이터 사용을 시작할 수 있습니다. 작업에서 정렬, 집계, 제한, 조인, 스칼라 함수 등의 다양한 푸시다운 기능을 사용해 Amazon Redshift 데이터 웨어하우스에서 데이터를 사용하는 Spark 애플리케이션으로 관련 데이터만 이동할 수 있습니다. 그러면 애플리케이션 성능을 개선할 수 있습니다. AWS Identity Access and Management(IAM) 자격 증명을 사용해 Amazon Redshift에 연결하면 애플리케이션의 보안도 강화할 수 있습니다.
통합 기능 사용을 시작하려는 경우 Amazon EMR 6.9, EMR Serverless 또는 AWS Glue 4.0으로 이동한 다음 Apache Spark 작업이나 노트북에서 데이터 프레임 또는 Spark SQL 코드를 사용해 Amazon Redshift 데이터 웨어하우스에 연결합니다. 그러면 몇 분 내에 쿼리 실행을 시작할 수 있습니다. 자세한 내용은 Amazon Redshift 또는 Apache Spark용 Amazon Redshift 통합 기능을 참조하세요.