게시된 날짜: Nov 15, 2019
이제 Amazon EMR 릴리스 5.28.0에서 Apache Hudi가 지원됩니다(인큐베이팅). 데이터 파이프라인 개발 및 데이터 처리에 Amazon EMR을 사용하는 데이터 엔지니어는 이제 Apache Hudi를 사용하여 레코드 수준 삽입, 업데이트 및 삭제 작업이 필요한 증분 데이터 관리 및 데이터 프라이버시 사용 사례를 간소화할 수 있습니다. Apache Hudi를 사용하면 Amazon S3 기반 데이터 레이크에서 데이터 프라이버시 관련 법을 준수하고, 실시간 스트림 및 변경 데이터 캡처 로그를 사용하고, 늦게 도착한 데이터를 복구하고, 변경 기록 및 롤백을 추적할 수 있습니다. Apache Hudi는 오픈 소스이며 공급업체와 관계없이 오픈 소스 형식(예: Apache Parquet 및 Apache Avro)으로 Amazon S3에 데이터를 저장할 수 있습니다.
Apache Hudi는 증분 데이터 처리 및 데이터 파이프라인 개발을 간소화하는 데 사용되는 오픈 소스 데이터 관리 프레임워크입니다. Apache Hudi를 사용하면 Amazon S3의 레코드 수준에서 데이터를 관리할 수 있으므로 CDC(변경 데이터 캡처) 및 스트리밍 데이터 수집이 간소화되며 레코드 수준 업데이트 및 삭제가 필요한 데이터 프라이버시 사용 사례를 처리할 수 있습니다. Apache Hudi로 관리되는 데이터 세트는 개방형 스토리지 형식으로 S3에 저장되며 Presto, Apache Hive, Apache Spark 및 AWS Glue Data Catalog와 통합하여 사용할 경우 익숙한 도구에서 업데이트된 데이터에 거의 실시간으로 액세스할 수 있습니다.
Apache Hudi는 Amazon EMR에서 기본적으로 지원되며 EMR 클러스터를 배포할 때 Apache Spark, Hive 또는 Presto를 선택하면 자동으로 설치됩니다. Apache Hudi를 사용하면 읽기 또는 쓰기 사용량이 많은 사용 사례에 최적화된 데이터 세트를 생성할 수 있습니다. Apache Hudi는 S3에 저장된 기본 데이터를 Apache Parquet을 사용하여 관리하고 Apache Avro를 데이터 스토리지로 사용합니다.
이제 미국 동부(버지니아 북부 및 오하이오), 미국 서부(오레곤), 남아메리카(상파울루), EU(아일랜드 및 스톡홀름), AWS GovCloud(미국 동부 및 미국 서부), Sinnet 운영 AWS(베이징 리전)에서 Amazon EMR 릴리스 5.28.0과 Apache Hudi를 사용할 수 있으며 몇 주 안에 더 많은 리전이 추가될 예정입니다.
Amazon EMR 출시 정보 피드를 구독하면 최신 EMR 릴리스 소식을 계속 받을 수 있습니다. EMR 릴리스 안내서의 상단에 있는 아이콘을 사용하여 즐겨 찾는 피드 리더에 피드 URL을 직접 연결하십시오.
Apache Hudi와 EMR에 대해 자세히 알아보려면 re:Invent 세션 및 워크샵에 참석하십시오.
추가 링크:
AWS 뉴스 블로그: 신규 - Amazon EMR 및 Apache Hudi를 사용하여 S3 데이터 삽입, 업데이트, 삭제