게시된 날짜: Nov 28, 2022

이제 AWS Glue for Apache Spark에서 오픈 소스 데이터 레이크 스토리지 프레임워크 3개(Apache Hudi, Apache Iceberg, Linux Foundation Delta Lake)를 지원합니다. 이러한 프레임워크를 활용하면 트랜잭션 일관성을 유지하면서 Amazon Simple Storage Service(S3)에서 데이터를 읽고 쓸 수 있습니다. AWS Glue는 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다. 이 기능을 사용하는 경우 별도의 커넥터를 설치할 필요가 없으며, AWS Glue for Apache Spark 작업에서 이러한 프레임워크를 사용하려면 수행해야 하는 구성 단계가 감소합니다.

이러한 오픈 소스 데이터 레이크 프레임워크를 활용하면 Amazon S3에 구축한 데이터 레이크에서 증분 데이터 처리를 간편하게 진행할 수 있습니다. 이러한 프레임워크에서는 시간 이동(Time Travel) 쿼리, ACID(원자성, 일관성, 격리성, 지속성) 트랜잭션, 스트리밍 수집, 변경 데이터 캡처(CDC), Upsert, 삭제 등의 기능을 사용할 수 있습니다.

자세한 내용은 설명서를 참조하세요.

이 기능은 AWS Glue가 제공되는 모든 상용 AWS 리전에서 사용할 수 있습니다.