O que é a engenharia de recursos?

Criar uma conta da AWS

Veja ofertas gratuitas de machine learning

Crie, implante e execute aplicações de machine learning na nuvem gratuitamente

Confira os serviços de machine learning

Inove mais rapidamente com o conjunto mais abrangente de serviços de IA e ML

Navegue pelos treinamentos de machine learning

Comece o treinamento de machine learning com conteúdo criado por especialistas da AWS

Leia os blogs sobre machine learning

Leia as mais recentes notícias sobre produtos e práticas recomendadas de machine learning da AWS

O que é engenharia de recursos?

Os recursos de modelo são as entradas que os modelos de machine learning (ML) usam durante o treinamento e a inferência para fazer previsões. A precisão de um modelo de ML depende de um conjunto preciso e da composição dos recursos. Por exemplo, em uma aplicação de ML que recomenda uma lista de reprodução de músicas, os recursos podem incluir classificações de músicas, quais músicas foram ouvidas anteriormente e por quanto tempo o usuário ouviu música. A criação desses recursos pode exigir iniciativas significativas de engenharia. A engenharia de recursos envolve a extração e a transformação de variáveis com base em dados brutos, como listas de preços, descrições de produtos e volumes de vendas, permitindo o uso de recursos no treinamento e previsão. As etapas necessárias para a engenharia de recursos incluem extração e limpeza de dados, além da criação e do armazenamento de recursos.

Quais são os desafios da engenharia de recursos?

A engenharia de recursos é um desafio porque envolve uma combinação de análise de dados, conhecimento do domínio de negócios e certa intuição. Ao criar recursos, é tentador recorrer imediatamente aos dados disponíveis. Porém, muitas vezes, é necessário começar verificando quais dados são necessários conversando com especialistas, fazendo brainstorming e pesquisando em terceiros. Sem passar por este exercício, pode ser que você ignore importantes variáveis de previsão.

Extração de dados

A coleta de dados é o processo de montagem de todos os dados necessários para ML. Essa coleta pode ser enfadonha, pois os dados residem em várias fontes de dados, inclusive laptops, em data warehouses, na nuvem, dentro de aplicativos e em dispositivos. Encontrar maneiras de estabelecer conexão com diferentes fontes de dados pode ser uma tarefa desafiadora. Os volumes de dados também estão aumentando exponencialmente, portanto, é necessário realizar pesquisas em muitos dados. Além disso, os dados têm formatos e tipos amplamente diferentes de acordo com a fonte. Por exemplo, não é fácil usar dados de vídeo e dados tabulares em conjunto.

Criação de recursos

A rotulagem de dados é o processo de identificação de dados brutos (imagens, arquivos de texto, vídeos etc.) e adição de um ou mais rótulos significativos e informativos, fornecendo contexto para que um modelo de ML possa aprender com essas informações. Por exemplo, os rótulos podem indicar se uma foto contém um pássaro ou um carro, quais palavras foram mencionadas em uma gravação de áudio ou se uma radiografia contém algo errado. A rotulagem de dados é obrigatória para diversos casos de uso, inclusive visão computacional, processamento de linguagem natural e reconhecimento de fala.

Armazenamento de recursos

Após a limpeza e rotulagem dos dados, muitas vezes as equipes de ML exploram os dados para garantir que estejam corretos e prontos para o ML. Visualizações como histogramas, gráficos de dispersão, gráficos de caixa, gráficos de linhas e de barras são ferramentas úteis para confirmar que os dados estão corretos. Além disso, as visualizações também ajudam as equipes de ciência de dados a realizar uma análise exploratória dos dados. Esse processo usa visualizações para detectar padrões, reconhecer anomalias, testar hipóteses ou verificar suposições. A análise exploratória de dados não requer modelagem formal. Em vez disso, as equipes de ciência de dados podem usar as visualizações para decifrar os dados.

Como a AWS pode ajudar na engenharia de recursos?

Com o Amazon SageMaker Data Wrangler, é possível simplificar o processo de engenharia de recursos usando uma única interface visual. Usando a ferramenta de seleção de dados do SageMaker Data Wrangler, você pode escolher os dados brutos que deseja de várias fontes de dados e importá-los com um único clique. O SageMaker Data Wrangler contém mais de 300 transformações de dados integradas, permitindo a rápida normalização, transformação e combinação de recursos sem que seja necessário escrever nenhum código. Depois que os dados estão preparados, é possível criar fluxos de trabalho de ML totalmente automatizados com o Amazon SageMaker Pipelines e salvá-los no Amazon SageMaker Feature Store. O SageMaker Feature Store é um repositório criado especificamente para você armazenar e acessar recursos para que seja mais fácil nomeá-los, organizá-los e reutilizá-los entre as equipes. O SageMaker Feature Store fornece um armazenamento unificado para recursos durante o treinamento e inferência em tempo real sem a necessidade de escrever código adicional ou criar processos manuais para manter os recursos consistentes.