Amazon Web Services 한국 블로그

AWS Glue Studio 데이터 준비 기능을 활용한 데이터 통합 및 협업하기

오늘 AWS Glue Studio 시각적 ETL의 데이터 준비 작성 기능을 정식 출시합니다. 이는 비즈니스 사용자와 데이터 분석가를 위한 새로운 노코드 데이터 준비 사용자 경험으로, 스프레드시트 스타일의 UI를 통해 AWS Glue for Spark에서 대규모로 데이터 통합 작업을 실행할 수 있습니다. 새로운 시각적 데이터 준비 경험을 통해 데이터 분석가와 데이터 과학자는 데이터를 더 쉽게 정리하고 변환하여 분석과 기계 학습(ML)에 사용할 수 있게 준비할 수 있습니다. 또한 코드를 작성할 필요 없이 수백 개의 사전 구축된 전환 중에서 선택하여 데이터 준비 작업을 자동화할 수 있습니다.

이제 비즈니스 분석가는 데이터 엔지니어와 협업하여 데이터 통합 작업을 구축할 수 있습니다. 데이터 엔지니어는 Glue Studio 시각적 흐름 기반 보기를 사용하여 데이터에 대한 연결을 정의하고 데이터 흐름 프로세스의 순서를 설정할 수 있습니다. 비즈니스 분석가는 데이터 준비 경험을 사용하여 데이터 변환 및 출력을 정의할 수 있습니다. 또한 기존 AWS Glue DataBrew 데이터 정리 및 준비 ‘레시피’를 새로운 AWS Glue 데이터 준비 환경으로 가져올 수 있습니다. 이러한 방식으로 계속해서 AWS Glue Studio에서 직접 레시피를 작성하고 AWS Glue 작업에 대해 더 저렴한 가격으로 페타바이트 규모의 데이터를 처리하도록 스케일 업할 수 있습니다.

시각적 ETL 사전 조건(환경 설정)
시각적 ETL에는 AWS Glue에 액세스할 사용자 및 역할에 연결된 AWSGlueConsoleFullAccess IAM 관리형 정책이 필요합니다.


이 정책은 이러한 사용자와 역할에 AWS Glue에 대한 전체 액세스 권한과 Amazon Simple Storage Service(S3) 리소스에 대한 읽기 권한을 부여합니다.

고급 시각적 ETL 흐름
적절한 AWS Identity and Access Management(IAM) 역할 권한이 정의되면 AWS Glue Studio를 사용하여 시각적 ETL을 작성합니다.

추출
소스 목록에서 Amazon S3 노드를 선택하여 Amazon S3 노드를 생성합니다.


새로 생성된 노드를 선택하고 S3 데이터세트를 찾아봅니다. 파일이 성공적으로 업로드되면 스키마 추론을 선택하여 소스 노드를 구성합니다. 그러면 시각적 인터페이스에 .csv 파일에 포함된 데이터의 미리 보기가 표시됩니다.

앞서 AWS Glue 시각적 ETL과 동일한 리전에 S3 버킷을 생성하고 시각화할 데이터가 포함된 .csv 파일인 visual ETL conference data.csv를 업로드했습니다.

AWS Glue에 S3 버킷을 읽을 수 있는 액세스 권한을 부여하려면 이전 단계에 설명된 대로 역할 권한을 설정하는 것이 중요합니다. 이 단계를 수행하지 않으면 오류가 발생하여 데이터를 미리 볼 수 없게 됩니다.

전환
노드가 구성된 후 데이터 준비 레시피를 추가하고 데이터 미리 보기 세션을 시작합니다. 이 세션을 시작하는 데 대개 2~3분 정도 걸립니다.


데이터 미리 보기 세션이 준비되면 레시피 작성을 선택하여 작성 세션을 시작하고 데이터 프레임이 완성되면 전환을 추가합니다. 작성 세션 중에 대화형으로 데이터를 보고, 전환 단계를 적용하고, 전환된 데이터를 볼 수 있습니다. 단계를 실행 취소, 재실행 및 재정렬할 수 있습니다. 열의 데이터 형식과 각 열의 통계적 속성을 시각화할 수 있습니다.


단계 추가를 선택하여 형식을 소문자에서 대문자로 변경하거나 정렬 순서를 변경하는 등 데이터에 전환 단계를 적용하기 시작할 수 있습니다. 모든 데이터 준비 단계는 레시피에서 추적됩니다.
남아프리카 공화국에서 개최될 컨퍼런스를 보고 싶었기 때문에 위치 열의 값이 ‘South Africa’와 같고 댓글 열에 값이 포함된 조건을 기준으로 필터링하는 레시피를 2개 생성했습니다.


적재
대화형으로 데이터를 준비했으면 고급 시각적 ETL 흐름과 사용자 지정 코드로 데이터를 확장하여 프로덕션 데이터 파이프라인에 원활하게 통합할 수 있는 데이터 엔지니어와 작업을 공유할 수 있습니다.

정식 출시
AWS Data Brew를 사용할 수 있는 모든 상용 AWS 리전에서 AWS Glue 데이터 준비 작성 경험이 정식 출시되었습니다. 자세히 알아보려면 AWS Glue를 방문하세요.

자세한 내용은 AWS Glue 개발자 안내서를 참조하고 AWS re:Post for AWS Glue 또는 평소 이용하는 AWS Support 담당자를 통해 피드백을 보내주세요.

Veliswa