O que é engenharia de recursos?
Os atributos de modelo são as entradas que os modelos de machine learning (ML) usam durante o treinamento e a inferência para fazer previsões. A precisão de um modelo de ML depende de um conjunto preciso e da composição dos recursos. Por exemplo, em uma aplicação de ML que recomenda uma lista de reprodução de músicas, os recursos podem incluir classificações de músicas, quais músicas foram ouvidas anteriormente e por quanto tempo o usuário ouviu música. A criação desses recursos pode exigir iniciativas significativas de engenharia. A engenharia de recursos envolve a extração e a transformação de variáveis com base em dados brutos, como listas de preços, descrições de produtos e volumes de vendas, permitindo o uso de recursos no treinamento e previsão. As etapas necessárias para a engenharia de recursos incluem extração e limpeza de dados, além da criação e do armazenamento de recursos.
Quais são os desafios da engenharia de recursos?
A engenharia de recursos é um desafio porque envolve uma combinação de análise de dados, conhecimento do domínio de negócios e certa intuição. Ao criar recursos, é tentador recorrer imediatamente aos dados disponíveis. Porém, muitas vezes, é necessário começar verificando quais dados são necessários conversando com especialistas, fazendo brainstorming e pesquisando em terceiros. Sem passar por este exercício, pode ser que você ignore importantes variáveis de previsão.
Extração de dados
Criação de recursos
Armazenamento de recursos
Como a AWS pode ajudar na engenharia de recursos?
Com o Amazon SageMaker Data Wrangler, é possível simplificar o processo de engenharia de recursos usando uma única interface visual. Usando a ferramenta de seleção de dados do SageMaker Data Wrangler, você pode escolher os dados brutos que deseja de várias fontes de dados e importá-los com um único clique. O SageMaker Data Wrangler contém mais de 300 transformações de dados integradas, permitindo a rápida normalização, transformação e combinação de recursos sem que seja necessário escrever nenhum código. Depois que os dados estão preparados, é possível criar fluxos de trabalho de ML totalmente automatizados com o Amazon SageMaker Pipelines e salvá-los no Amazon SageMaker Feature Store. O SageMaker Feature Store é um repositório criado especificamente para você armazenar e acessar recursos para que seja mais fácil nomeá-los, organizá-los e reutilizá-los entre as equipes. O SageMaker Feature Store fornece um armazenamento unificado para recursos durante o treinamento e inferência em tempo real sem a necessidade de escrever código adicional ou criar processos manuais para manter os recursos consistentes.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.