게시된 날짜: Oct 15, 2021
AWS Glue에는 크롤러가 포함됩니다. 크롤러란 Amazon S3 및 관계형 데이터베이스의 데이터를 스캔해 스키마를 추출하고 AWS Glue Data 카탈로그(여기에서 메타데이터를 최신 상태로 유지함)를 자동으로 채워 데이터 집합 검색을 간소화해주는 기능입니다. 이렇게 하면 새로 수집된 데이터를 즐겨찾는 분석 및 기계 학습 도구로 신속 분석할 수 있게 되어 인사이트를 확보하는 데 걸리는 시간이 단축됩니다.
AWS Glue 크롤러가 Amazon S3의 데이터를 검색하게 구성할 때는 전체 스캔(크롤러를 실행할 때마다 주어진 경로 내의 모든 객체를 처리함) 또는 증분 스캔(새로 추가된 폴더에 속한 객체만 처리함) 중에서 선택할 수 있습니다. 전체 스캔은 테이블에 적용된 변경 사항이 결정적이지 않고 각종 객체나 파티션에 영향을 미칠 수 있는 경우 유용합니다. 증분 크롤은 테이블에 새 파티션이나 폴더가 추가되었을 때 유용합니다. 규모가 크고 자주 변경되는 테이블의 경우, 증분 크롤링 모드를 강화하여 크롤러가 어느 객체가 변경되었는지 판단하는 시간을 줄일 수 있습니다.
오늘은 Amazon S3 이벤트 알림 지원 출시 소식을 알려드립니다. 이는 AWS Glue 크롤러 소스로서 AWS Glue Data 카탈로그 테이블을 증분식으로 업데이트하게 해줍니다. Amazon S3 이벤트 알림을 Amazon Simple Queue Service(SQS) 대기열에 보내도록 구성하면 크롤러가 이를 사용하여 새로 추가되거나 삭제된 객체를 식별하게 됩니다. 크롤러를 실행할 때마다 SQS 대기열에 새 이벤트가 있는지 검사하고, 찾은 결과가 없으면 크롤러가 중지됩니다. 대기열에 이벤트가 있으면 크롤러가 각각의 폴더를 검사하여 새 객체를 처리합니다. 이 새 모드를 사용하면 크롤러가 자주 변경되는 대형 테이블을 업데이트하는 데 필요한 비용과 시간이 절약됩니다.