Amazon Web Services 한국 블로그
Category: AWS Glue
AWS Clean Rooms, Amazon Marketing Cloud 정식 출시
오늘 미디어 광고주가 자사 시그널을 사용하여 Amazon Ads 고유 시그널과 협업할 수 있는 AWS Clean Rooms의 Amazon Marketing Cloud(AMC) 정식 출시를 발표합니다. 이 협업을 통해 광고주는 기본 시그널을 AWS 계정 외부로 이동할 필요 없이 차별화된 인사이트를 생성하고, 새로운 잠재 고객을 발견하고, 광고 캠페인 계획, 활성화 및 측정 사용 사례를 구현할 수 있습니다. AWS Clean Rooms의 […]
AWS Glue Studio 데이터 준비 기능을 활용한 데이터 통합 및 협업하기
오늘 AWS Glue Studio 시각적 ETL의 데이터 준비 작성 기능을 정식 출시합니다. 이는 비즈니스 사용자와 데이터 분석가를 위한 새로운 노코드 데이터 준비 사용자 경험으로, 스프레드시트 스타일의 UI를 통해 AWS Glue for Spark에서 대규모로 데이터 통합 작업을 실행할 수 있습니다. 새로운 시각적 데이터 준비 경험을 통해 데이터 분석가와 데이터 과학자는 데이터를 더 쉽게 정리하고 변환하여 분석과 […]
Amazon Q와 AWS Glue 데이터 통합 – 자연어를 사용한 새로운 AI 채팅 경험 (미리 보기)
오늘은 자연어를 사용하여 데이터 통합 작업을 작성하고 문제를 해결할 수 있는 AWS Glue의 새로운 채팅 환경을 미리 살펴보겠습니다. AWS Glue에서 Amazon Q 데이터를 통합하면 AWS Glue 데이터 통합 엔진을 사용하여 데이터 통합 작업을 배우고 구축 및 실행하는 데 필요한 시간과 노력을 줄일 수 있습니다. 작업을 작성하고, 문제를 해결하고, AWS Glue 및 데이터 통합 관련된 모든 […]
AWS Glue로 이상 탐지를 사용하여 데이터 품질 개선(미리 보기)
기계 학습을 사용하여 통계 이상치와 특이한 패턴을 탐지함으로써 데이터 품질을 개선하는 데 도움을 주는 새로운 AWS Glue Data Quality 기능의 평가판을 출시합니다. 코드를 작성하지 않고도, 데이터 품질 문제에 대한 자세한 인사이트, 데이터 품질 점수, 이상을 지속적으로 모니터링하는 데 사용할 수 있는 규칙 권장 사항을 얻을 수 있습니다. 데이터 품질 카운트 AWS 고객들은 이미 데이터를 추출하고 […]
AWS Glue 데이터 카탈로그, Apache Iceberg 테이블 자동 압축 지원
오늘 Apache Iceberg 형식의 트랜잭션 테이블을 자동으로 압축할 수 있는 AWS Glue 데이터 카탈로그의 새로운 기능이 출시됩니다. 이를 통해 트랜잭션 데이터 레이크 테이블의 성능을 항상 일정하게 유지할 수 있습니다. 데이터 레이크는 처음에 주로 방대한 양의 원시, 비정형 또는 반정형 데이터를 저렴한 비용으로 저장하는 용도로 설계되었으며 일반적으로 빅 데이터 및 분석 사용 사례와 관련이 있었습니다. 시간이 […]
Amazon SageMaker Data Wrangler – 신규 SaaS 애플리케이션 데이터 소스 지원
데이터는 기계 학습의 원동력입니다. 기계 학습에서 데이터 준비는 원시 데이터를 추가 처리 및 분석에 적합한 형식으로 변환하는 프로세스입니다. 데이터 준비를 위한 일반적인 프로세스는 데이터를 수집한 다음 정리하고 레이블을 지정하고 마지막으로 검증 및 시각화하는 것으로 시작됩니다. 고품질의 데이터를 올바로 얻는 프로세스는 보통 복잡하고 시간이 많이 걸릴 수 있습니다. 이것이 바로 AWS에서 기계 학습(ML) 워크로드를 구축하는 고객들이 […]
Apache Spark과 Amazon Redshift 통합 기능 정식 출시
Apache Spark는 빅 데이터 워크로드에 일반적으로 사용되는 오픈 소스 분산 처리 시스템입니다. Amazon EMR, Amazon SageMaker 및 AWS Glue에서 작업하는 Spark 애플리케이션 개발자는 Amazon Redshift로 데이터를 읽고 쓸 수 있는 타사 Apache Spark 커넥터를 사용하는 경우가 많습니다. 이러한 타사 커넥터는 다양한 버전의 Spark에서 정기적으로 유지 관리, 지원 또는 테스트되지 않습니다. 오늘 Apache Spark용 Amazon Redshift […]
AWS Glue Data Quality 미리보기 – 규칙 기반 자동 데이터 품질 기능 출시
1980년에 저는 두 번째 전문 프로그래밍 일을 하면서 미국 여러 주의 운전면허증 데이터를 분석하는 프로젝트를 진행하고 있었습니다. 당시 해당 유형의 데이터는 일반적으로 고정 길이 레코드에 저장되었으며 값은 각 필드에 신중하게(또는 인코딩되지 않은) 인코딩되었습니다. 데이터에 대한 스키마가 주어졌음에도 불구하고, 항상 개발자들이 미리 예상하지 못한 값을 나타내기 위해 트릭에 의존해야 한다는 것을 알게 되었습니다. 예를 들어, 서로 […]
AWS Glue 4.0 – 새롭고 업데이트된 엔진, 더 많은 데이터 형식 제공 등
AWS Glue는 데이터 통합 및 ETL 워크로드의 개발과 실행 속도를 높이는 데 도움이 되는 확장 가능한 서버리스 도구입니다. 오늘 AWS는 업데이트된 엔진, 추가 데이터 형식 지원, Ray 지원 등의 다양한 새로운 기능을 제공하는 Glue 4.0을 출시합니다. 자세히 살펴보기 전에, 먼저 버전 관리에 대해 간단히 말씀드리겠습니다. 서비스 팀이 API를 소유하고 완전히 제어하는 대부분의 AWS 서비스와 달리, […]
AWS Glue 버전 2.0 정식 출시 – Spark ETL 작업 시간 1/10로 단축 가능 (서울 리전 포함)
AWS Glue는 분석을 위한 데이터를 준비하고 로드할 때 사용할 수 있는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. Glue는 “서버리스”이므로 리소스를 프로비저닝하거나 관리할 필요 없이 Glue가 실행될 때의 리소스 요금만 지불하면 됩니다. 이제, Spark ETL 작업을 10배 더 빠르게 시작할 수 있는 AWS Glue 버전 2.0이 정식 출시되었습니다. 시작 지연 시간이 감소함에 따라 전체 작업 완료 […]