Amazon SageMaker Canvas теперь поддерживает импорт потоков данных и ускоренную подготовку данных для машинного обучения
Функция Amazon SageMaker Data Wrangler сервиса Amazon SageMaker Canvas теперь поддерживает импорт потоков данных из Студии Amazon SageMaker Classic, а также обеспечивает более быструю и гибкую подготовку данных для машинного обучения (ML). Благодаря новой версии SageMaker Data Wrangler в SageMaker Canvas стало проще импортировать данные из S3, используя настраиваемые разделители и дополнительные параметры выборки. Кроме того, теперь стала быстрее выполняться подготовка данных. Вы также можете с большей скоростью проверять преобразования и без труда выполнять итерацию рецептов для данных. Импортируйте потоки данных из Студии SageMaker Classic, чтобы воспользоваться новейшими функциями подготовки данных и улучшениями в SageMaker Canvas.
Агрегирование, анализ и преобразование больших объемов данных является самой длительной частью проектов машинного обучения, так как этот процесс подразумевает большое количество итераций и рутинных задач. За счет новых улучшений вы можете импортировать данные с использованием различных методов выборки, таких как top-k, случайная или стратифицированная, и при необходимости корректировать размер и метод выборки для обеспечения ее репрезентативности. Вы можете преобразовывать данные с меньшей задержкой, быстро проверять влияние преобразований на размер данных и изменять порядок действий необходимым образом. Кроме того, вы можете скопировать рецепт для данных и заменить в нем источники, чтобы многократно использовать его для разных наборов данных и моделей. Наконец, вы можете одним щелчком мыши импортировать в SageMaker Canvas все имеющиеся потоки данных из SageMaker Data Wrangler в Студии SageMaker Classic или импортировать определенные потоки вручную через S3 или локальную загрузку файлов.
Эти расширенные возможности подготовки данных доступны во всех регионах AWS, где поддерживается SageMaker Canvas. Дополнительные сведения см. в этом блоге и в технической документации по AWS.