Apache Iceberg란? - Iceberg 테이블 설명

Apache Iceberg란 무엇인가요?

Apache Iceberg는 분산된 커뮤니티 중심의 Apache 2.0 라이선스 100% 오픈 소스 데이터 테이블 형식으로, 데이터 레이크에 저장된 대규모 데이터 세트의 데이터 처리를 간소화하는 데 도움이 됩니다. 데이터 엔지니어가 Apache Iceberg를 사용하는 이유는 어떤 규모에서든 빠르고 효율적이며 안정적이며 시간이 지남에 따라 데이터세트가 어떻게 변하는지 기록하기 때문입니다. 아파치 아이스버그는 아파치 스파크, 아파치 플링크, 아파치 하이브, 프레스토 등과 같은 널리 사용되는 데이터 처리 프레임워크와의 간편한 통합을 제공합니다.

트랜잭션 데이터 레이크란 무엇인가요?

데이터 레이크는 규모에 관계없이 모든 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 저장소입니다. 데이터 트랜잭션은 단일 작업으로 수행되는 일련의 데이터 교환입니다. 예를 들어 고객이 은행 계좌에서 돈을 인출하면 은행은 계좌의 잔액이 충분한지 확인하고, 고객의 신원을 확인하고, 계좌에서 인출금을 인출하는 등, 한 번의 데이터 트랜잭션에서 여러 데이터 교환 작업을 동시에 수행합니다. 트랜잭션 데이터 레이크는 데이터를 대규모로 저장할 뿐만 아니라, 트랜잭션 작업을 지원하고 데이터의 정확성과 일관성을 보장하며 시간 경과에 따라 데이터 및 데이터 구조가 어떻게 변하는지 추적할 수 있도록 하는 데이터 레이크 유형입니다. 이러한 특성을 총칭하여 원자성, 일관성, 격리 및 내구성 (ACID) 이라고 합니다.

Atomicity는 각 트랜잭션이 완전히 성공 또는 실패하는 단일 이벤트임을 보장합니다. 중간 상태는 없습니다.
일관성을 유지하면 작성된 모든 데이터가 데이터 레이크의 정의된 규칙에 따라 유효하므로 데이터의 정확성과 신뢰성이 보장됩니다.
격리를 통해 서로 간섭하지 않고 여러 트랜잭션이 동시에 발생할 수 있으므로 각 트랜잭션이 독립적으로 실행됩니다.
내구성이란 트랜잭션이 제출된 후에도 데이터가 손실되거나 손상되지 않는다는 것을 의미합니다. 정전과 같은 시스템 장애 발생 시 데이터를 복구할 수 있습니다.

Apache Iceberg를 사용하면 어떤 이점이 있나요?

트랜잭션 데이터 레이크에 Apache Iceberg를 사용할 경우 얻을 수 있는 몇 가지 주요 이점은 다음과 같습니다.

SQL에 익숙함: 구조적 쿼리 언어 (SQL) 는 모든 유형의 응용 프로그램에서 자주 사용되는 널리 사용되는 쿼리 언어입니다. 데이터 분석가와 개발자들이 SQL을 배우고 사용하는 이유는 SQL이 다양한 프로그래밍 언어와 잘 통합되고, 명령문에 일반적인 영어 키워드를 사용하므로 배우기가 상당히 수월하기 때문입니다. Apache Iceberg를 사용하면 구조화된 쿼리 언어 (SQL) 에 익숙한 사람이라면 누구나 새로운 언어를 배울 필요 없이 데이터 레이크를 구축하고 대부분의 데이터 레이크 작업을 수행할 수 있습니다.
데이터 일관성: Apache Iceberg는 데이터를 읽고 쓰는 모든 사용자가 동일한 데이터를 볼 수 있도록 데이터 일관성을 제공합니다.
데이터 구조: Apache Iceberg를 사용하면 데이터 구조를 쉽게 변경할 수 있습니다. 이를 스키마 진화라고도 하는데, 사용자가 기반 데이터를 건드리지 않고 데이터 테이블에서 열을 추가하거나 열 이름을 변경하거나 열을 제거할 수 있게 합니다.
데이터 버전 관리: Apache Iceberg는 데이터 버전 관리를 지원하므로 사용자는 시간 경과에 따른 데이터 변경 사항을 추적할 수 있습니다. 이를 통해 사용자는 과거 버전의 데이터에 액세스하여 쿼리하고 업데이트와 삭제 사이의 데이터 변경 사항을 분석할 수 있는 시간 여행 기능을 사용할 수 있습니다.
크로스 플랫폼 지원: 아파치 아이스버그는 아파치 스파크, 아파치 하이브, 프레스토 등 다양한 스토리지 시스템과 쿼리 엔진을 지원합니다. 따라서 다양한 데이터 처리 환경에서 Iceberg를 쉽게 사용할 수 있습니다.
증분 처리: Iceberg는 사용자가 마지막 실행 이후 변경된 데이터만 처리할 수 있는 증분 처리를 지원하며, 이를 CDC (변경 데이터 캡처) 라고도 합니다. 이를 통해 데이터 처리 효율성과 성능을 개선할 수 있습니다.

Apache Iceberg의 일반적인 사용 사례는 무엇인가요?

Apache Iceberg는 다음을 비롯한 수많은 데이터 레이크 사용 사례에 적합합니다.

자주 삭제해야 하는 데이터 레이크의 데이터 테이블(예: 데이터 프라이버시에 관한 법률을 시행하는 경우)
레코드 수준 업데이트가 필요한 데이터 레이크의 데이터 테이블. 이는 데이터가 확정된 후에 데이터 세트를 자주 업데이트해야 하는 경우에 유용합니다(예: 나중에 발생하는 고객 반품과 같은 이벤트로 인해 변경될 수 있는 판매 데이터). Iceberg는 전체 데이터 세트를 다시 게시하지 않고도 개별 레코드를 업데이트할 수 있는 기능을 제공합니다.
SCD (느리게 변경되는 차원) 테이블과 같이 예측할 수 없는 변경이 있는 데이터 레이크의 데이터 테이블. SCD의 예로는 시간이 지남에 따라 알 수 없는 간격으로 변경될 수 있는 이름, 위치 및 연락처 정보가 포함된 고객 레코드 테이블이 있습니다.
데이터 레이크와의 트랜잭션에서 데이터 유효성, 내구성 및 신뢰성을 보장해야 하는 경우, Apache Iceberg 테이블 형식을 배포하여 ACID 트랜잭션을 보장할 수 있습니다.
추세 분석을 수행하기 위해 이전 버전의 데이터를 쿼리하거나 일정 기간 동안의 데이터 변화를 분석하거나 문제를 해결하기 위해 이전 버전으로 복원 또는 롤백할 목적으로 이전으로 시간 이동을 해야 하는 경우

누가 아파치 아이스버그를 사용하나요?

데이터 엔지니어, 데이터 관리자, 데이터 분석가, 데이터 과학자는 Apache Iceberg를 사용하는 사람들입니다. 데이터 엔지니어와 데이터 관리자는 Apache Iceberg를 사용하여 확장 가능한 데이터 스토리지 시스템을 설계하고 구축할 수 있습니다. 데이터 분석가와 데이터 과학자는 Apache Iceberg를 사용하여 대규모 데이터 세트를 효율적으로 분석할 수 있습니다.

Apache Iceberg를 선택해야 하는 이유는 무엇인가요?

Apache Iceberg는 대규모 데이터 세트를 대규모로 처리하는 빠르고 효율적인 방법을 제공합니다. 다음과 같은 이점이 있습니다.

오픈 소스: Apache Iceberg는 오픈 소스 프로젝트이므로 무료로 사용할 수 있으며 특정 요구 사항에 맞게 사용자 지정할 수 있습니다. 또한 프로젝트를 지속적으로 개선하고 새로운 기능을 추가하는 활발한 개발자 커뮤니티도 있습니다.
확장성: Apache Iceberg는 대규모 데이터 세트를 효율적으로 처리하도록 설계되었습니다. 여러 노드에서 데이터를 분할하고 구성할 수 있으므로 워크로드를 분산하고 데이터 처리 속도를 높일 수 있습니다.
성능: Apache Iceberg에는 술어 푸시다운 및 스키마 발전과 같은 컬럼 기반 저장 및 압축 기술을 포함하여 쿼리 성능을 최적화하는 다양한 기능이 있습니다.
유연성: Apache Iceberg를 사용하면 쿼리를 다시 작성하거나 데이터 구조를 재구축할 필요 없이 시간이 지남에 따라 데이터가 발전할 수 있도록 데이터 구성 방식을 변경할 수 있습니다. 또한 여러 데이터 형식과 데이터 소스를 지원하므로 기존 시스템과 쉽게 통합할 수 있습니다.
안정성: Apache Iceberg는 트랜잭션 지원을 통해 데이터 일관성과 안정성을 보장합니다. 시간 경과에 따른 데이터 변화를 추적하고 이전 버전으로 롤백하여 문제를 해결할 수 있습니다.

Iceberg를 지원하는 AWS 서비스는 어떤 것들이 있나요?

아파치 아이스버그는 아파치 스파크, 아파치 플링크, 아파치 하이브, 프레스토와 같은 널리 사용되는 데이터 처리 프레임워크를 지원합니다. 아마존 레드시프트, 아마존 아테나, 아마존 EMR, AWS Glue , 아마존 데이터 파이어호스와 같은 AWS 서비스에는 다음과 같은 기본 지원이 포함되어 있습니다. 아파치 아이스버그를 포함한 트랜잭션 데이터 레이크 프레임워크. Apache Iceberg와 지원되는 AWS 서비스를 함께 사용하면 대개 S3의 스토리지를 기반으로 하는 트랜잭션 데이터 레이크를 사용할 수 있습니다.

Amazon Redshift는 완전관리형 AI 기반 SQL 분석 및 데이터 웨어하우징 서비스로, 고객의 비즈니스 의사 결정을 신속하고 비용 효율적으로 주도합니다. Amazon Redshift는 데이터 공유를 통해 실시간에 가까운 분석과 AI/ML 사용 사례를 주도하는 제로 ETL을 지원하는 대규모 병렬 처리(MPP), 다중 클러스터 및 서버리스 아키텍처를 제공합니다. 고객은 Amazon Redshift를 사용하여 AWS Glue 데이터 카탈로그를 통해 액세스할 수 있는 데이터 레이크의 Apache Iceberg 테이블을 쿼리하고 이를 데이터 웨어하우스의 테이블과 결합하여 포괄적인 분석을 수행할 수 있습니다.
Amazon Athena는 오픈 소스 프레임워크를 기반으로 구축된 서버리스 대화형 분석 서비스로, 오픈 테이블 및 파일 형식을 지원합니다. Athena는 페타바이트 규모의 데이터를 상주 위치에서 분석하는 간소화되고 유연한 방식을 제공합니다. Athena는 데이터에는 Apache Parquet 형식을 사용하고 메타스토어에는 AWS Glue 카탈로그를 사용하는 Apache Iceberg 테이블에 대한 읽기, 시간 여행, 쓰기 및 DDL 쿼리에 대한 기본 지원을 제공합니다.
Amazon EMR은 Apache Spark, Hadoop, Presto 및 Hive 같은 오픈 소스 프레임워크를 사용하는 페타바이트 규모의 데이터 처리, 대화형 분석 및 기계 학습을 위한 빅 데이터 솔루션입니다. Amazon EMR 6.5.0부터는 Amazon EMR 클러스터에서 Iceberg 테이블 형식 기반으로 Apache Spark 3를 사용할 수 있습니다. 스파크, 트리노, 플링크, 하이브를 포함한 EMR 프레임워크는 아파치 아이스버그를 지원합니다.
AWS Glue는 분석, 기계 학습 (ML) 및 애플리케이션 개발을 위해 여러 소스의 데이터를 더 쉽게 검색, 준비, 이동 및 통합할 수 있게 해주는 서버리스 데이터 통합 서비스입니다. AWS Glue 3.0 이상은 데이터 레이크를 위한 Apache Iceberg 프레임워크를 지원합니다. AWS Glue를 사용하여 Amazon S3의 Iceberg 테이블에서 읽기 및 쓰기 작업을 수행하거나, AWS Glue 데이터 카탈로그를 사용하여 Iceberg 테이블을 사용한 작업을 수행할 수 있습니다. 삽입, 업데이트 및 모든 Spark 쿼리, Spark 쓰기를 포함한 추가 작업도 지원됩니다.
Amazon Data Firehose는 아마존 심플 스토리지 서비스 (아마존 S3), 아마존 레드시프트, 아마존 오픈서치 서비스, 아마존 오픈서치 서버리스, 스플렁크, 스노우플레이크, 아파치 아이스버그 테이블 및 Datadog, Dynatrace, LogicMonitor, MongoDB, 뉴렐릭, 코르 등 지원되는 타사 서비스 제공자가 소유한 사용자 지정 HTTP 엔드포인트 또는 HTTP 엔드포인트 등의 대상에 실시간 스트리밍 데이터를 전송하기 위한 완전 관리형 서버리스 서비스입니다. 알로직스, 엘라스틱. Amazon Data Firehose를 사용하면 애플리케이션을 작성하거나 리소스를 관리할 필요가 없습니다. 데이터를 Amazon Data Firehose로 전송하도록 데이터 생산자를 구성하면 Amazon Data Firehose에서 사용자가 지정한 대상으로 데이터를 자동 전송합니다. 데이터를 전송하기 전에 데이터를 변환하도록 Amazon Data Firehose를 구성할 수도 있습니다.

Apache Iceberg란 무엇인가요?

Apache Iceberg란 무엇인가요?

트랜잭션 데이터 레이크란 무엇인가요?

Apache Iceberg를 사용하면 어떤 이점이 있나요?

Apache Iceberg의 일반적인 사용 사례는 무엇인가요?

누가 아파치 아이스버그를 사용하나요?

Apache Iceberg를 선택해야 하는 이유는 무엇인가요?

Iceberg를 지원하는 AWS 서비스는 어떤 것들이 있나요?

AWS에서의 다음 단계

제품 관련 추가 리소스 확인

무료 계정 가입

콘솔에서 구축 시작

Browse all cloud computing concepts

Did you find what you were looking for today?

알아보기

리소스

개발자

도움말