게시된 날짜: Jun 16, 2022
현재 AWS는 Amazon SageMaker Data Wrangler의 코드 조각을 지원하는 PySpark 및 Altair를 사용하여 데이터를 더 빠르고 쉽게 준비하고 시각화하도록 하고 있습니다. Amazon SageMaker Data Wrangler는 기계 학습(ML)을 위해 데이터를 집계하고 준비하는 시간을 몇 주에서 몇 분으로 단축합니다. SageMaker Data Wrangler를 통해 데이터 준비 및 특성 추출 프로세스를 간소화하고 단일 시각적 인터페이스에서 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 모든 단계를 완료할 수 있습니다. SageMaker Data Wrangler의 데이터 선택 도구를 사용하면 여러 데이터 소스(예: Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker 특성 저장소, Databricks 및 Snowflake)에서 빠르게 데이터를 선택할 수 있습니다.
오늘부터, PySpark 및 Altair 코드 조각을 사용하여 Amazon SageMaker Data Wrangler에서 더 빠르게 데이터를 준비하고 시각화할 수 있습니다. PySpark는 Python의 Apache Spark용 인터페이스입니다. Altair는 Vega 및 Vega-Lit을 기반으로 하는 Python용 선언적 통계 시각화 라이브러리입니다. 이전에는 Data Wrangler를 사용하는 데이터 과학자가 데이터를 준비하고 시각화하기 위해 PySpark 또는 Altair에서 코드를 작성하려는 경우 빈 편집기에서 시작하거나 인터넷에서 코드 조각을 검색했습니다. 이제 PySpark를 사용하여 SageMaker Data Wrangler에서 사용자 지정 변환을 작성하려는 데이터 과학자는 행 삭제, 대량 이름 바꾸기, 열 형식 변환 및 재구성, 텍스트 열에서 특정 문자열이 포함된 값 필터링과 같은 데이터 처리 요구 사항에 대해 30개 이상의 PySpark 코드 조각에서 검색할 수 있습니다. 또한, SageMaker Data Wrangler에서 시각화를 생성하기 위해 Altair 코드를 작성하려는 데이터 과학자는 SageMaker Data Wrangler 내에서 열 지도, 구간화된 산점도 및 채워진 단계 차트를 생성하기 위해 Altair 코드 조각에서 검색할 수 있습니다.
Amazon SageMaker Data Wrangler의 새로운 기능을 시작하려면 Amazon SageMaker Studio를 최신 릴리스로 업그레이드한 후 열고 메뉴에서 파일(File) > 새로 만들기(New) > 흐름(Flow)을 클릭하거나 SageMaker Studio 시작 관리자에서 ‘새 데이터 흐름(new data flow)’을 클릭합니다. 새로운 기능에 대한 자세한 사항은 블로그를 읽고 설명서를 참조하세요.