Amazon S3 Tables
Amazon S3에 완전 관리형 Apache Iceberg 테이블을 사용하여 테이블 형식 데이터를 대규모로 저장
S3 Tables란?
Amazon S3 Tables는 데이터 레이크 및 레이크하우스 관리에 따른 운영 부담을 자동화하는 완전 관리형 Apache Iceberg 테이블입니다. 고급 압축 및 유지 관리 전략을 통해 S3 Tables는 데이터 볼륨이 증가함에 따라 쿼리 성능을 자동으로 최적화합니다. S3 Tables는 Apache Spark, Trino, Amazon Athena, Amazon Redshift 및 기타 타사 도구를 비롯한 모든 Iceberg와 호환되는 엔진과 호환되므로 아키텍처 유연성이 보장되고 대규모로 테이블 형식 데이터를 저장하는 가장 쉬운 방법을 제공합니다.
장점
S3 Tables는 압축, 스냅샷 관리 및 참조되지 않은 파일 제거를 통해 Iceberg 테이블을 지속적으로 최적화합니다. 자동 복제는 분산된 팀의 쿼리 지연 시간을 줄이고 지능형 계층화는 스토리지 비용을 최대 80% 절감합니다. 따라서 데이터 팀은 인프라 관리 대신 구축에 집중할 수 있습니다.
워크로드가 늘어날수록 Iceberg 테이블 유지 관리 및 최적화가 더 중요해지고 이를 따라잡기가 더 어려워집니다. S3 Tables는 자동으로 테이블의 성능을 유지하므로 데이터가 커져도 성능이 저하되지 않고 쿼리의 일관성이 유지됩니다. 데이터는 기본적으로 99.999999999%(9가 11개)의 내구성과 99.99%의 가용성을 제공하도록 설계된, 클라우드에서 가장 내구성이 뛰어난 스토리지로 뒷받침됩니다.
Apache Iceberg 개방형 표준을 기반으로 구축된 S3 Tables를 사용하면 데이터가 단일 컴퓨팅 엔진이나 공급업체에 종속되지 않습니다. S3 Tables는 Iceberg REST 카탈로그 API를 공개하므로 Spark, Trino, Flink, Athena, Redshift, Snowflake 및 기타 타사 도구를 비롯한 Iceberg 호환 엔진과 함께 작동하여 기존 도구에 대한 투자를 보호하는 동시에 장기적인 유연성을 제공합니다.
Iceberg 테이블 거버넌스 및 보안 관리는 복잡하고 단편적일 수 있습니다. S3 Tables는 테이블 수준의 액세스 제어, 암호화 및 수명 주기 관리가 내장되어 있어, 모든 테이블에 대해 S3 버킷 정책을 관리할 필요가 없고 복잡한 분석 환경에 대한 거버넌스를 간소화하는 최고의 AWS 리소스입니다.
S3 Tables는 범용 S3 버킷에 저장된 Iceberg 테이블에 비해 초당 최대 10배 더 높은 트랜잭션으로 분석에 최적화된 스토리지를 제공합니다. MCP 지원을 통해 AI 에이전트와 LLM은 S3 Tables와 상호 작용하여 AI 기반 분석을 가능하게 할 수 있습니다. AWS 분석 서비스와의 기본 통합 및 Iceberg REST API를 통한 타사 도구와의 호환성을 통해 S3 Tables는 새로운 AI 기반 워크플로를 지원할 수 있습니다.
S3 Tables 작동 방식
사용 사례
Parquet, Apache Hive 또는 Hadoop에서 Apache Iceberg 테이블로 마이그레이션하여 데이터 레이크를 현대화하고 운영 복잡성을 줄이는 동시에 고급 분석 및 AI/ML 학습 워크로드를 지원하는 확장 가능한 AI 지원 데이터 레이크를 구축하세요.
자세히 알아보기
스트리밍 데이터를 거의 실시간으로 쿼리 가능한 상태로 유지하는 자동 백그라운드 최적화를 통해 AWS 스트리밍 서비스를 사용하여 IoT 센서, 트랜잭션 시스템 및 애플리케이션 로그와 같은 소스에서 Iceberg 테이블로 직접 데이터를 스트리밍할 수 있습니다.
S3 Tables는 범용 버킷에 Iceberg 테이블을 저장하는 것에 비해 초당 최대 10배 더 높은 트랜잭션을 제공하므로 높은 처리량이 필요한 대규모 분석 워크로드 및 작업에 적합합니다.
Model Context Protocol(MCP)을 통해 자연어를 사용하여 Iceberg 테이블에 저장된 데이터를 쿼리하여 SQL 전문 지식 없이도 임시 탐색이 가능합니다. S3 Tables는 쿼리 성능을 유지하는 자동 최적화를 통해 여러 사용자 및 AI 어시스턴트의 동시 액세스를 지원합니다.
자세히 알아보기
데모 보기
Amazon S3 Tables, 구축하는 이유 및 작동 방식에 대해 알아보세요.
지금 보기파트너 및 통합
Daft
"Amazon S3 Tables는 Daft의 Apache Iceberg 지원을 완벽하게 보완합니다. AWS Lake Formation 및 AWS Glue와의 통합을 활용하여 최적화된 성능을 활용하면서 기존 Iceberg의 읽기 및 쓰기 기능을 S3 Tables로 손쉽게 확장할 수 있었습니다. 이 새로운 서비스가 발전하기를 기대하며, Python 데이터 엔지니어링 및 ML/AI 에코시스템에 필요한 동급 최고의 S3 Tables 지원을 제공하게 되어 기쁩니다."
Sammy Sidhu, Daft CEO 겸 공동 설립자
Dremio
"Dremio는 Amazon S3 Tables의 일반 가용성을 지원하게 되어 기쁘게 생각합니다. S3 Tables은 Apache Iceberg REST Catalog(IRC) 사양을 지원함으로써 Dremio와의 원활한 상호 운용성을 보장하므로 사용자는 최적화된 S3 Tables 버킷에서 관리되는 Apache Iceberg 테이블을 쿼리할 수 있는 고성능 SQL 엔진의 이점을 활용할 수 있습니다. 이러한 협력을 통해 통합 복잡성을 없애고 고객 채택을 가속화하여 레이크하우스 생태계에서 개방형 표준의 중요성을 강화합니다. Amazon S3 Tables 및 IRC 지원을 통해 조직은 AI 시대에 통합 레이크하우스 아키텍처를 구축하는 데 필요한 유연성 및 선택권을 확보할 수 있습니다."
Rahim Bhojani, CTO - Dremio
DuckDB Labs
"Amazon S3 Tables는 오픈 파일 형식을 사용하여 데이터 분석을 대중화하려는 DuckDB의 비전과 완벽하게 일치합니다. AWS와 DuckDB Labs 간의 협력을 통해 DuckDB의 Iceberg 지원을 더욱 확장하고 S3 Tables와의 원활한 통합을 개발할 수 있습니다. DuckDB와 S3 Tables의 공유 배터리 포함 사고 방식이 강력한 분석 스택으로 결합되어 진입 장벽을 매우 낮게 유지하면서 광범위한 워크로드를 처리할 수 있다고 생각합니다."
Hannes Mühleisen, DuckDB Labs CEO
HighByte
"Amazon S3 Tables은 분석 워크로드를 위한 테이블 형식 데이터의 관리, 성능 및 스토리지를 최적화하는 강력한 새 기능입니다. HighByte Intelligence Hub가 Amazon S3 Tables와 직접 통합되므로 글로벌 제조업체는 산업 데이터를 위한 개방형 트랜잭션 데이터 레이크를 쉽게 구축할 수 있습니다. S3 Tables를 사용하면 원시 Parquet 데이터를 즉시 쿼리할 수 있으므로 고객은 컨텍스트화된 정보를 엣지에서 클라우드로 전송하여 추가 처리나 변환 없이 즉시 사용할 수 있습니다. 이는 양사 고객의 성능 및 비용 최적화 모두에 큰 영향을 미칩니다."
Aron Semle, HighByte CTO
PuppyGraph
"Amazon S3는 오랫동안 현대 데이터 인프라의 기반이 되어 왔으며 S3 Tables의 출시는 Apache Iceberg를 데이터 및 AI의 범용 표준으로 자리매김하게 하는 중요한 이정표를 세웠습니다. 이러한 혁신을 통해 조직은 S3에서 고성능 개방형 테이블 형식을 활용하여 데이터 중복 없이 다중 엔진 분석을 수행할 수 있습니다. PuppyGraph 고객의 경우 이제 복잡한 ETL의 오버헤드 없이 S3 데이터에서 직접 실시간 그래프 쿼리를 실행하여 신선하고 확장 가능한 인사이트를 유지할 수 있습니다. 그래프 분석을 데이터 자체만큼이나 원활하게 만드는 이러한 발전에 동참하게 되어 매우 기쁩니다."
Weimo Liu, PuppyGraph 공동 설립자 겸 CEO
RisingWave
“RisingWave와 Amazon S3 Tables의 통합 덕분에 조직들은 Amazon S3의 Apache Iceberg 테이블을 원활하게 활용하여 스트리밍 데이터 파이프라인 기능을 강화할 수 있습니다. RisingWave를 사용하면 원시 데이터를 수집하는 경우든, 실시간으로 변환하는 경우든, 결과를 S3에 다시 쓰는 경우든 상관없이 워크플로의 자연스러운 확장으로서 Iceberg 테이블을 손쉽게 사용할 수 있습니다. 이 같은 통합은 데이터 관리를 간소화하고 운영 복잡성을 줄이며 스트리밍 분석을 사용하는 팀의 원활한 상호 운용성을 지원합니다.”
Rayees Pasha, RisingWave Labs CPO
Ryft
“Ryft와 Amazon S3 Tables의 통합을 통해 팀은 Apache Iceberg 테이블을 완전히 자율적인 레이크하우스로 운영할 수 있습니다. 고객은 워크로드 인식 최적화 및 거버넌스, 자동화된 파일 레이아웃 최적화 및 압축, 관리형 스냅샷 보존 및 복구, Apache Iceberg 테이블에 대한 자동화된 규정 준수, 레이크하우스에 대한 완전한 가시성을 모두 Iceberg 네이티브 스토리지에서 얻을 수 있습니다. Ryft와 S3 Tables를 함께 사용하면 수동 튜닝이나 크론 기반 유지 관리 없이도 일관되게 빠른 쿼리, 낮은 스토리지 비용, 안정적인 운영을 제공합니다.”
Yossi Reitblat, CEO 겸 공동 설립자 - Ryft
Snowflake
"Amazon S3 Tables에 Snowflake의 마법을 도입하게 되어 매우 기쁩니다. 이 협업을 통해 Snowflake 고객은 기존 Snowflake 설정을 사용하여 S3에 저장된 데이터를 원활하게 읽고 처리할 수 있으므로 복잡한 데이터 마이그레이션이나 복제가 필요하지 않습니다. Snowflake의 세계적 S3_Tables 수준의 성능 분석 기능과 Amazon S3 Tables의 효율적인 Apache Iceberg 테이블 스토리지를 결합하여 조직은 Amazon S3에 저장된 테이블 형식 데이터를 쉽게 쿼리하고 분석할 수 있습니다."
Rithesh Makkena, 파트너 솔루션 엔지니어링 부문 글로벌 디렉터 - Snowflake
Starburst
"Amazon S3가 S3 Tables과 함께 Apache Iceberg에 대한 내장 지원을 도입하여 Iceberg 오픈 데이터 레이크하우스 에코시스템을 발전시키는 것을 보게 되어 매우 기쁩니다. S3 Tables 버킷을 통해, 공동 고객이 다양한 분석 및 AI 사용 사례 전반에서 업계 최고의 오픈 소스 MPP SQL 엔진인 최적화된 Trino로 구동되는 Open Lakehouse의 성능을 Amazon S3의 데이터에 적용할 수 있도록 AWS와 협력할 수 있기를 기대합니다."
Matt Fuller, Starburst Product 부문 Vice President
StreamNative
"Amazon S3 Tables과의 통합으로 AI 지원 실시간 데이터가 그 어느 때보다 개방적이고 액세스가 용이합니다. S3에 기반을 둔 Ursa의 리더리스 아키텍처는 이미 스토리지 비용을 절감하고 있으며, S3 Tables와의 직접 통합은 성능과 효율성을 더욱 향상시킵니다. AI 기반 세상에서는 데이터 거버넌스가 매우 중요합니다. StreamNative에서는 기업이 TCO를 90% 절감하는 동시에 관리되는 실시간 데이터로 AI 기반 애플리케이션을 쉽고 저렴하게 구축할 수 있도록 지원하기 위해 최선을 다하고 있습니다."
Sijie Guo, StreamNative CEO 겸 공동 설립자
자주 묻는 질문
Amazon S3에 테이블 형식 데이터를 저장하는 간단하고 성능이 뛰어나며 비용 효율적인 방법으로 S3 Tables를 사용해야 합니다. S3 Tables를 사용하면 정형 데이터를 테이블로 구성한 다음 표준 SQL 문을 사용하여 설정 없이 해당 데이터를 쿼리할 수 있습니다. 또한 S3 Tables는 S3와 동일한 내구성, 가용성, 확장성 및 성능 특성을 제공하며 스토리지를 자동으로 최적화하여 쿼리 성능을 극대화하고 비용을 최소화합니다. Intelligent-Tiering 스토리지 클래스에서는 S3 Tables가 성능에 영향을 주거나 운영 오버헤드 없이 액세스 패턴을 기반으로 비용을 최적화합니다.
S3 Tables는 범용 Amazon S3 버킷에 Iceberg 테이블을 저장하는 것에 비해 최대 10배 더 많은 초당 트랜잭션(TPS)을 제공합니다. S3 Tables는 기본 데이터를 자동으로 압축하여 최적의 쿼리 성능을 위해 테이블을 지속적으로 최적화합니다. 워크로드 및 쿼리 패턴에 따라 정렬 및 z-order 압축과 같은 고급 압축 전략을 선택하여 테이블을 추가로 최적화할 수도 있습니다. 정렬 압축은 지정된 열을 기반으로 데이터를 구성하여 필터링된 작업의 쿼리 성능을 향상시키는 반면, z-order 압축은 여러 차원에서 데이터 구성을 최적화하므로 여러 열에 걸쳐 동시에 데이터를 쿼리해야 하는 경우에 적합합니다.
S3 외부에서 인프라를 구축할 필요 없이 간단히 몇 단계만 거치면 S3 Tables를 시작할 수 있습니다. 먼저 S3 콘솔에서 테이블 버킷을 생성합니다. 콘솔을 통해 첫 번째 테이블 버킷을 생성할 때 AWS Analytics 서비스와의 통합이 자동으로 이루어지므로, S3가 AWS Glue Data Catalog의 계정과 리전에 있는 모든 테이블 버킷과 테이블을 자동으로 채울 수 있습니다. 그러면 Amazon Athena, EMR 및 Redshift와 같은 AWS 쿼리 엔진에서 S3 Tables에 액세스할 수 있게 됩니다. 다음으로, S3 콘솔에서 클릭하면 Amazon Athena를 사용하여 테이블이 생성됩니다. Athena에 도달하면 새 테이블을 빠르게 채우고 쿼리를 시작할 수 있습니다.
또는 AWS Glue Data Catalog를 통해 Iceberg REST Catalog 엔드포인트를 사용하여 S3 Tables에 액세스할 수 있습니다. 그러면 모든 테이블 리소스를 포함한 전체 데이터 자산을 검색할 수 있게 됩니다. 또한 개별 테이블 버킷 엔드포인트에 직접 연결하여 해당 버킷 내의 모든 S3 Tables 리소스를 검색할 수 있습니다. 이를 통해 Apache Iceberg REST 카탈로그 사양을 지원하는 모든 애플리케이션 또는 쿼리 엔진에서 S3 Tables를 사용할 수 있습니다.