게시된 날짜: Apr 3, 2023
이제 SageMaker Canvas에서 45가지가 넘는 데이터 소스가 지원됩니다. Amazon Athena를 비롯한 노코드 ML과 Snowflake, Salesforce, SAP OData 등의 타사 SaaS 애플리케이션에서 이러한 소스를 사용할 수 있습니다. 포인트 앤 클릭 인터페이스인 Canvas에서는 ML 경험이 없는 분석가도 코드를 전혀 작성할 필요 없이 ML 예측을 생성할 수 있습니다.
데이터 모으기는 알고리즘에 고품질 데이터를 공급하여 문제를 정확하게 모델링하기 위해 ML에서 반드시 수행해야 하는 단계입니다. 그런데 오늘날에는 SaaS 애플리케이션이 급증함에 따라 여러 시스템에 데이터가 분산되어 있어 데이터 획득 작업이 복잡해지며 시간도 많이 걸립니다. 이전에는 고객이 원하는 SaaS 애플리케이션에서 데이터를 검색한 후 지원되는 Canvas 소스(Amazon S3, Amazon Redshift, Snowflake 또는 로컬 디스크)로 전송해야 노코드 ML에서 해당 데이터를 사용할 수 있었습니다. 이 프로세스는 수동으로 진행해야 하므로 ML 진행 과정에서 유용한 데이터가 누락되는 경우가 많습니다.
이제는 Canvas에서 45가지가 넘는 소스의 데이터 모으기가 지원되므로, 고객이 여러 소스에 저장된 데이터를 유용하게 활용할 수 있게 되었습니다. AWS는 고객이 S3 등의 AWS 서비스로 데이터를 안전하게 저장할 수 있는 서비스인 Amazon AppFlow와 협력하여 이러한 데이터 모으기를 지원합니다. 이러한 소스에서 모은 데이터를 전송한 후에는 Canvas 내에서 해당 데이터에 액세스하여 테이블 찾아보기, 여러 소스의 데이터 테이블 조인, 데이터 미리 보기, 적절한 데이터를 가져오는 Athena 쿼리 작성 등을 수행할 수 있습니다. 데이터를 가져온 후에는 ML 모델 구축, 설명 가능성 데이터 확인, 예측 생성 등의 기존 Canvas 기능을 모두 활용할 수 있습니다.
이 기능은 이제 Canvas가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 45가지가 넘는 이러한 소스에서 데이터를 가져오는 작업을 시작하려면 Canvas 설명서의 설명을 따르십시오.