Amazon Web Services 한국 블로그

Category: AWS Glue

Amazon Q와 AWS Glue 데이터 통합 – 자연어를 사용한 새로운 AI 채팅 경험 (미리 보기)

오늘은 자연어를 사용하여 데이터 통합 작업을 작성하고 문제를 해결할 수 있는 AWS Glue의 새로운 채팅 환경을 미리 살펴보겠습니다. AWS Glue에서 Amazon Q 데이터를 통합하면 AWS Glue 데이터 통합 엔진을 사용하여 데이터 통합 작업을 배우고 구축 및 실행하는 데 필요한 시간과 노력을 줄일 수 있습니다. 작업을 작성하고, 문제를 해결하고, AWS Glue 및 데이터 통합 관련된 모든 […]

AWS Glue로 이상 탐지를 사용하여 데이터 품질 개선(미리 보기)

기계 학습을 사용하여 통계 이상치와 특이한 패턴을 탐지함으로써 데이터 품질을 개선하는 데 도움을 주는 새로운 AWS Glue Data Quality 기능의 평가판을 출시합니다. 코드를 작성하지 않고도, 데이터 품질 문제에 대한 자세한 인사이트, 데이터 품질 점수, 이상을 지속적으로 모니터링하는 데 사용할 수 있는 규칙 권장 사항을 얻을 수 있습니다. 데이터 품질 카운트 AWS 고객들은 이미 데이터를 추출하고 […]

AWS Glue 데이터 카탈로그, Apache Iceberg 테이블 자동 압축 지원

오늘 Apache Iceberg 형식의 트랜잭션 테이블을 자동으로 압축할 수 있는 AWS Glue 데이터 카탈로그의 새로운 기능이 출시됩니다. 이를 통해 트랜잭션 데이터 레이크 테이블의 성능을 항상 일정하게 유지할 수 있습니다. 데이터 레이크는 처음에 주로 방대한 양의 원시, 비정형 또는 반정형 데이터를 저렴한 비용으로 저장하는 용도로 설계되었으며 일반적으로 빅 데이터 및 분석 사용 사례와 관련이 있었습니다. 시간이 […]

Amazon SageMaker Data Wrangler – 신규 SaaS 애플리케이션 데이터 소스 지원

데이터는 기계 학습의 원동력입니다. 기계 학습에서 데이터 준비는 원시 데이터를 추가 처리 및 분석에 적합한 형식으로 변환하는 프로세스입니다. 데이터 준비를 위한 일반적인 프로세스는 데이터를 수집한 다음 정리하고 레이블을 지정하고 마지막으로 검증 및 시각화하는 것으로 시작됩니다. 고품질의 데이터를 올바로 얻는 프로세스는 보통 복잡하고 시간이 많이 걸릴 수 있습니다. 이것이 바로 AWS에서 기계 학습(ML) 워크로드를 구축하는 고객들이 […]

Apache Spark과 Amazon Redshift 통합 기능 정식 출시

Apache Spark는 빅 데이터 워크로드에 일반적으로 사용되는 오픈 소스 분산 처리 시스템입니다. Amazon EMR, Amazon SageMaker 및 AWS Glue에서 작업하는 Spark 애플리케이션 개발자는 Amazon Redshift로 데이터를 읽고 쓸 수 있는 타사 Apache Spark 커넥터를 사용하는 경우가 많습니다. 이러한 타사 커넥터는 다양한 버전의 Spark에서 정기적으로 유지 관리, 지원 또는 테스트되지 않습니다. 오늘 Apache Spark용 Amazon Redshift […]

AWS Glue Data Quality 미리보기 – 규칙 기반 자동 데이터 품질 기능 출시

1980년에 저는 두 번째 전문 프로그래밍 일을 하면서 미국 여러 주의 운전면허증 데이터를 분석하는 프로젝트를 진행하고 있었습니다. 당시 해당 유형의 데이터는 일반적으로 고정 길이 레코드에 저장되었으며 값은 각 필드에 신중하게(또는 인코딩되지 않은) 인코딩되었습니다. 데이터에 대한 스키마가 주어졌음에도 불구하고, 항상 개발자들이 미리 예상하지 못한 값을 나타내기 위해 트릭에 의존해야 한다는 것을 알게 되었습니다. 예를 들어, 서로 […]

AWS Glue 4.0 – 새롭고 업데이트된 엔진, 더 많은 데이터 형식 제공 등

AWS Glue는 데이터 통합 및 ETL 워크로드의 개발과 실행 속도를 높이는 데 도움이 되는 확장 가능한 서버리스 도구입니다. 오늘 AWS는 업데이트된 엔진, 추가 데이터 형식 지원, Ray 지원 등의 다양한 새로운 기능을 제공하는 Glue 4.0을 출시합니다. 자세히 살펴보기 전에, 먼저 버전 관리에 대해 간단히 말씀드리겠습니다. 서비스 팀이 API를 소유하고 완전히 제어하는 대부분의 AWS 서비스와 달리, […]

AWS Glue 버전 2.0 정식 출시 – Spark ETL 작업 시간 1/10로 단축 가능 (서울 리전 포함)

AWS Glue는 분석을 위한 데이터를 준비하고 로드할 때 사용할 수 있는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. Glue는 “서버리스”이므로 리소스를 프로비저닝하거나 관리할 필요 없이 Glue가 실행될 때의 리소스 요금만 지불하면 됩니다. 이제, Spark ETL 작업을 10배 더 빠르게 시작할 수 있는 AWS Glue 버전 2.0이 정식 출시되었습니다. 시작 지연 시간이 감소함에 따라 전체 작업 완료 […]

Amazon Athena 및 Amazon QuickSight를 활용한 2백년간 글로벌 기후 데이터 시각화

전 세계 기후 변화는 우리의 삶의 질에 심각한 영향을 미치고 있습니다. 이 때문에 향후 지속 가능성에 대한 조사도 증가하고 있습니다. 공공 및 민간 부문의 연구원은 기록된 기후의 역사를 연구하고 기후 예측 모델을 사용하여 미래를 계획하고 있습니다. 이 글은 기후 변화와 그 개념에 대한 설명을 돕기 위해 Global Historical Climatology Network Daily(GHCN-D)를 소개합니다. 그리고, Amazon Web […]

AWS Glue를 활용한 서버리스 스트리밍 ETL 기능 출시

데이터를 분석할 때, 가장 먼저 취하는 방법은 일괄(Batch) 처리 모델입니다. 일정 기간 동안 데이터를 수집한 다음, 분석 도구에 넣는 것입니다. 신속히 대응하려면 스트리밍(Streaming) 모델을 사용할 수 있습니다. 이 모델에서는 데이터가 도착하는 대로 처리하거나, 한 번에 레코드 하나씩 처리하거나, 10개, 100개, 1,000개 단위의 마이크로 배치로 레코드를 처리합니다. 연속적인 입력 파이프라인을 관리하고 즉석에서 데이터를 처리하는 작업은 상당히 […]