Publicado: Dec 21, 2020
O Amazon SageMaker Studio é o primeiro ambiente de desenvolvimento totalmente integrado (IDE) para machine learning. Com um único clique, cientistas de dados e desenvolvedores podem criar rapidamente notebooks do SageMaker Studio para explorar e preparar conjuntos de dados para criar, treinar e implantar modelos de machine learning em uma única exibição. O Amazon EMR é um serviço da web que facilita o processamento de grandes quantidades de dados com rapidez e economia. A partir de hoje, os clientes podem usar notebooks do Studio para se conectar com facilidade e segurança aos clusters Amazon EMR e preparar grandes quantidades de dados para análise e geração de relatórios, treinamento de modelos ou inferência.
A preparação de dados é uma etapa crítica no fluxo de trabalho de machine learning. Com o SageMaker Studio, você tem acesso a uma variedade de ferramentas para preparação de dados com base em suas preferências. Se você preferir uma interface visual, pode usar o Amazon SageMaker Data Wrangler para se conectar ao Amazon S3, ao Amazon RedShift ou ao Amazon Athena para acessar, visualizar e analisar dados do SageMaker Studio. Se você preferir escrever código, você também poderá usar notebooks do SageMaker Studio para preparar dados interativamente usando bibliotecas e SDKs, ou processar grandes quantidades de dados em lote usando o Amazon SageMaker Processing com contêiners Spark integrados. No entanto, se você preferir conectar notebooks do Studio a clusters EMR existentes para acessar e processar dados, precisará configurar manualmente o ambiente, trazer seu próprio kernel Sparkmagic, configurar informações do cluster de destino, instalar ferramentas como Kerberos para autenticação, antes de executar seus trabalhos do Spark ou consulta suas mesas Hive.
O Amazon SageMaker Studio agora vem com ferramentas integradas que tornam rápido e fácil conectar seu notebook com segurança a um cluster EMR para processar grandes quantidades de dados. Você pode criar um notebook do Studio a partir de uma imagem incorporada do SageMaker com o kernel do PysPark, usar comandos internos para se conectar a um cluster EMR e começar a consultar, analisar e processar dados em algumas etapas. Para maior segurança, você pode se conectar a clusters EMR usando a autenticação Kerberos. O recurso agora está disponível em todas as regiões da AWS em que o Amazon SageMaker Studio estádisponível. Para obter mais informações, consulte a documentação do Amazon SageMaker Studio.