O que é machine learning?

Machine learning é a ciência do desenvolvimento de algoritmos e modelos estatísticos que os sistemas de computador usam para realizar tarefas sem instruções explícitas, confiando em padrões e inferências. Os sistemas de computador usam algoritmos de machine learning para processar grandes quantidades de dados históricos e identificar padrões de dados. Isso permite que eles prevejam resultados com mais precisão com base em um determinado conjunto de dados de entrada. Por exemplo, os cientistas de dados podem treinar uma aplicação médica para diagnosticar câncer com base em imagens de raios-x, armazenando milhões de imagens digitalizadas e os diagnósticos correspondentes.

Porque o machine learning é importante?

O machine learning ajuda as empresas impulsionando o crescimento, revelando novos fluxos de receita e resolvendo problemas desafiadores. Os dados são a força motriz fundamental por trás da tomada de decisões de negócios, mas, tradicionalmente, as empresas usam dados de várias fontes, como feedback de clientes, funcionários e finanças. A pesquisa de machine learning automatiza e otimiza esse processo. Ao usar um software que analisa grandes volumes de dados em alta velocidade, as empresas podem obter resultados mais rapidamente.

Onde o machine learning é usado?

Vamos dar uma olhada nas aplicações de machine learning em alguns setores importantes:

Manufatura

O machine learning pode dar suporte à manutenção preditiva, ao controle de qualidade e a pesquisas inovadoras no setor de manufatura. A tecnologia de machine learning também ajuda as empresas a melhorar as soluções logísticas, incluindo ativos, cadeia de suprimentos e gerenciamento de inventário. Por exemplo, a gigante de manufatura 3M usa o AWS Machine Learning para inovar a lixa. OS algoritmos de machine learning permitem que os pesquisadores da 3M analisem como pequenas mudanças na forma, no tamanho e na orientação melhoram a abrasividade e a durabilidade. Essas sugestões informam o processo de manufatura.

Saúde e ciências biológicas

A proliferação de sensores e dispositivos vestíveis gerou um volume significativo de dados de saúde. Os programas de machine learning podem analisar essas informações e ajudar os médicos no diagnóstico e tratamento em tempo real. Pesquisadores de machine learning estão desenvolvendo soluções que detectam tumores cancerígenos e diagnosticam doenças oculares, impactando significativamente os resultados da saúde humana. Por exemplo, a Cambia Health Solutions usou o AWS Machine Learning para dar suporte a startups de saúde, onde poderiam automatizar e personalizar o tratamento para mulheres grávidas.

Serviços financeiros

Os projetos de machine learning financeiro melhoram a análise e a regulamentação de riscos. A tecnologia de machine learning pode permitir que os investidores identifiquem novas oportunidades analisando os movimentos do mercado de ações, avaliando fundos de hedge ou calibrando portfólios financeiros. Além disso, ela pode ajudar a identificar clientes de empréstimos de alto risco e reduzir sinais de fraude.  A líder de software financeiro Intuit usa o sistema do AWS Machine Learning, o Amazon Textract, para criar um gerenciamento financeiro mais personalizado e ajudar os usuários finais a melhorar a saúde financeira.

Varejo

O varejo pode usar o machine learning para melhorar o atendimento ao cliente, o gerenciamento de estoque, o upselling e o marketing entre canais. Por exemplo, o Amazon Fulfillment (AFT) cortou os custos de infraestrutura em 40% usando um modelo de machine learning para identificar inventário perdido. Isso os ajuda a cumprir a promessa da Amazon de que um item estará prontamente disponível para os clientes e chegará no prazo, apesar de processar milhões de remessas globais anualmente.

Mídia e entretenimento

As empresas de entretenimento recorrem ao machine learning para entender melhor seus públicos-alvo e fornecer conteúdo imersivo, personalizado e sob demanda. Os algoritmos de machine learning são implantados para ajudar a projetar trailers e outros anúncios, fornecer aos consumidores recomendações personalizadas de conteúdo e até otimizar a produção. 

Por exemplo, a Disney está usando o aprendizado profundo da AWS para arquivar sua biblioteca de mídia. As ferramentas de machine learning da AWS etiquetam, descrevem e classificam automaticamente o conteúdo de mídia, permitindo que os escritores e animadores da Disney pesquisem e se familiarizem com os personagens da Disney rapidamente.

Como o machine learning funciona?

A ideia central por trás do machine learning é uma relação matemática existente entre qualquer combinação de dados de entrada e saída. O modelo de machine learning não conhece essa relação previamente, mas pode supor se receber conjuntos de dados suficientes. Isso significa que todo algoritmo de machine learning é construído com base em uma função matemática modificável. O princípio subjacente pode ser entendido da seguinte forma:

  1. “Treinamos” o algoritmo fornecendo a ele as seguintes combinações de entrada/saída (i,o) – (2,10), (5,19) e (9,31)
  2. O algoritmo calcula a relação entre entrada e saída como: o=3*i+4
  3. Em seguida, fornecemos a ele a entrada 7 e pedimos que preveja a saída. Ele pode determinar automaticamente a saída como 25.

Embora essa seja uma compreensão básica, o machine learning se concentra no princípio de que todos os pontos de dados complexos podem ser matematicamente vinculados por sistemas de computador, desde que tenham dados e capacidade de computação suficientes para processar esses dados. Portanto, a precisão da saída é diretamente correlacionada à magnitude da entrada fornecida.

Quais são os tipos de algoritmos de machine learning?

Os algoritmos podem ser categorizados por quatro estilos de aprendizado distintos, dependendo da saída esperada e do tipo de entrada.

  1. Machine learning supervisionado
  2. Machine learning não supervisionado
  3. Aprendizado semissupervisionado
  4. Machine learning de reforço

1. Machine learning supervisionado

Os cientistas de dados fornecem algoritmos com dados de treinamento rotulados e definidos para avaliar as correlações. Os dados de amostra especificam a entrada e a saída do algoritmo. Por exemplo, imagens de figuras manuscritas são anotadas para indicar a qual número elas correspondem. Um sistema de aprendizado supervisionado pode reconhecer os clusters de pixels e formas associadas a cada número, com exemplos suficientes. Por fim, ele reconhece números manuscritos, distinguindo de forma confiável entre os números 9 e 4 ou 6 e 8. 

Os pontos fortes do aprendizado supervisionado são a simplicidade e a facilidade de design. Ele é útil ao prever um possível conjunto limitado de resultados, dividir dados em categorias ou combinar resultados de dois outros algoritmos de machine learning. No entanto, rotular milhões de conjuntos de dados não rotulados é um desafio. Vamos ver isso em mais detalhes:

O que é rotulagem de dados?

A rotulagem de dados é o processo de categorizar os dados de entrada com seus valores de saída correspondentes definidos. Os dados de treinamento rotulados são necessários para o aprendizado supervisionado. Por exemplo, milhões de imagens de maçã e banana precisariam ser etiquetadas com as palavras “maçã” ou “banana”. Então, as aplicações de machine learning poderiam usar esses dados de treinamento para adivinhar o nome da fruta quando recebessem uma imagem de fruta. No entanto, rotular milhões de novos dados pode ser uma tarefa demorada e desafiadora. Serviços de trabalho coletivo, como o Amazon Mechanical Turk, podem superar essa limitação dos algoritmos de aprendizado supervisionado até certo ponto. Esses serviços fornecem acesso a um grande grupo de mão de obra acessível distribuída por todo o mundo, tornando a aquisição de dados menos desafiadora.

2. Machine learning não supervisionado

Os algoritmos de aprendizado não supervisionados são treinados em dados não rotulados. Eles verificam novos dados, tentando estabelecer conexões significativas entre as entradas e as saídas predeterminadas. Eles podem identificar padrões e categorizar dados. Por exemplo, algoritmos não supervisionados podem agrupar artigos de notícias de diferentes sites de notícias em categorias comuns, como esportes, criminalidade etc. Eles podem usar o processamento de linguagem natural para compreender o significado e a emoção do artigo. No varejo, o aprendizado não supervisionado pode encontrar padrões nas compras dos clientes e fornecer resultados de análise de dados como, por exemplo, é mais provável que o cliente compre pão se também comprar manteiga.

O aprendizado não supervisionado é útil para reconhecimento de padrões, detecção de anomalias e agrupamento automático de dados em categorias. Como os dados de treinamento não requerem rotulagem, a configuração é fácil. Esses algoritmos também podem ser usados para limpar e processar dados para modelagem adicional automaticamente. A limitação desse método é que ele não pode fornecer previsões precisas. Além disso, ele não pode destacar tipos específicos de resultados de dados de forma independente.

3. Aprendizado semissupervisionado

Como o nome sugere, esse método combina aprendizado supervisionado e não supervisionado. A técnica baseia-se no uso de uma pequena quantidade de dados rotulados e de uma grande quantidade de dados não rotulados para treinar sistemas. Primeiro, os dados rotulados são usados para treinar parcialmente o algoritmo de machine learning. Depois, o próprio algoritmo treinado parcialmente rotula os dados não rotulados. Esse processo é chamado de pseudo-rotulagem. O modelo é então novamente treinado na combinação de dados resultante sem ser explicitamente programado.

A vantagem desse método é que você não precisa de grandes quantidades de dados rotulados. Ele é útil ao trabalhar com dados como documentos extensos que levariam muito tempo para serem lidos e rotulados por seres humanos.

4. Aprendizado por reforço

O aprendizado por reforço é um método com valores de recompensa vinculados às diferentes etapas pelas quais o algoritmo deve passar. Portanto, o objetivo do modelo é acumular o maior número possível de pontos de recompensa e, por fim, atingir um objetivo final. A maior parte da aplicação prática do aprendizado por reforço na última década foi no domínio dos videogames. Algoritmos de aprendizado por reforço de ponta obtiveram resultados impressionantes em jogos clássicos e modernos, muitas vezes superando significativamente seus equivalentes humanos. 

Embora esse método funcione melhor em ambientes de dados incertos e complexos, ele raramente é implementado em contextos de negócios. Ele não é eficiente para tarefas bem definidas, e o viés do desenvolvedor pode afetar os resultados. À medida que o cientista de dados projeta as recompensas, elas podem influenciar os resultados.

Os modelos de machine learning são determinísticos?

Se a saída de um sistema é previsível, diz-se que ela é determinística. A maioria das aplicações de software responde de forma previsível à ação do usuário, então você pode dizer: “Se o usuário faz isso, ele obtém aquilo”. No entanto, os algoritmos de machine learning aprendem por meio da observação junto com as experiências. Portanto, eles são probabilísticos por natureza. A declaração agora muda para: “Se o usuário fizer isso, há uma chance de X% de isso acontecer”.

No machine learning, o determinismo é uma estratégia usada ao aplicar os métodos de aprendizado descritos acima. Qualquer um dos métodos de treinamento supervisionado, não supervisionado e outros podem ser determinísticos, dependendo dos resultados desejados dos negócios. A questão de pesquisa, recuperação de dados, estrutura e decisões de armazenamento determinam se uma estratégia determinística ou não determinística é adotada.

Abordagem determinística versus probabilística

A abordagem determinística se concentra na precisão e na quantidade de dados coletados, de modo que a eficiência é priorizada em relação à incerteza. Por outro lado, o processo não determinístico (ou probabilístico) é projetado para gerenciar o fator chance. As ferramentas incorporadas são integradas aos algoritmos de machine learning para ajudar a quantificar, identificar e medir a incerteza durante o aprendizado e a observação.

O que é o aprendizado profundo?

O aprendizado profundo é um tipo de técnica de machine learning modelado no cérebro humano. Algoritmos de aprendizado profundo analisam dados com uma estrutura lógica semelhante à usada por humanos. O aprendizado profundo usa sistemas inteligentes chamados redes neurais artificiais para processar informações em camadas. Os dados fluem da camada de entrada através de várias camadas de rede neural ocultas “profundas” antes de chegar à camada de saída. As camadas ocultas adicionais oferecem suporte a um aprendizado muito mais capaz do que os modelos padrão de machine learning.

O que é uma rede neural artificial?

As camadas de aprendizado profundo são nós de redes neurais artificiais (ANN) que operam como neurônios do cérebro humano. Os nós podem ser uma combinação de hardware e software. Cada camada em um algoritmo de aprendizado profundo é composta de nós de ANN. Cada nó, ou neurônio artificial, conecta-se a outro e possui um número de valor associado e um número limite. Um nó envia seu número de valor como uma entrada para o próximo nó da camada quando ativado. Ele é ativado somente se sua saída estiver acima do valor limite especificado. Caso contrário, nenhum dado é passado adiante.

O que é a visão computacional?

A visão computacional é uma aplicação de aprendizado profundo do mundo real. Assim como a inteligência artificial permite que os computadores pensem, a visão computacional permite que eles vejam, observem e respondam. Veículos autônomos usam a visão computacional para “ler” placas de trânsito. A câmera de um veículo captura uma foto da placa. Essa foto é enviada ao algoritmo de aprendizado profundo no veículo. A primeira camada oculta detecta bordas, a próxima diferencia cores, enquanto a terceira camada identifica os detalhes do alfabeto na placa. O algoritmo prevê que a placa diz STOP, e o veículo responde acionando o mecanismo de frenagem.

Machine learning e aprendizado profundo são a mesma coisa?

O aprendizado profundo é um subconjunto do machine learning. Os algoritmos de aprendizado profundo podem ser considerados uma evolução sofisticada e matematicamente complexa dos algoritmos de machine learning.

Machine learning e inteligência artificial são a mesma coisa?

A resposta é não. Embora os termos machine learning e inteligência artificial (IA) possam ser usados de forma intercambiável, eles não são a mesma coisa. Inteligência artificial é um termo abrangente para diferentes estratégias e técnicas usadas para tornar as máquinas mais parecidas com seres humanos. A IA inclui tudo, desde assistentes inteligentes como a Alexa até aspiradores de pó robóticos e veículos autônomos. Machine learning é um entre muitos outros ramos da inteligência artificial. Embora o machine learning seja IA, não se pode chamar todas as atividades de IA de machine learning.

Machine learning e ciência de dados são a mesma coisa?

Não, machine learning e ciência de dados não são a mesma coisa. A ciência de dados é um campo de estudo que usa uma abordagem científica para extrair significado e insights dos dados. Os cientistas de dados usam diversas ferramentas para análise de dados, e o machine learning é uma dessas ferramentas. Os cientistas de dados entendem o panorama geral dos dados, como o modelo de negócios, o domínio e a coleta de dados, enquanto o machine learning é um processo computacional que lida apenas com dados brutos.

Quais são as vantagens e desvantagens do machine learning?

Vejamos algumas coisas que o machine learning pode e não pode fazer:

Vantagens dos modelos de machine learning:

  • Podem identificar tendências e padrões de dados que os seres humanos podem perder.
  • Podem trabalhar sem intervenção humana após a configuração. Por exemplo, o machine learning em software de segurança cibernética pode monitorar e identificar continuamente irregularidades no tráfego de rede sem a ajuda do administrador.
  • Os resultados podem se tornar mais precisos ao longo do tempo.
  • Podem lidar com uma série de formatos de dados em ambientes de dados dinâmicos, de alto volume e complexos.

Desvantagens dos modelos de machine learning:

  • O treinamento inicial é um processo caro e demorado. Pode ser difícil de implementar se não houver dados suficientes disponíveis.
  • É um processo com uso intensivo de computação que exige um grande investimento inicial se o hardware for configurado internamente.
  • Pode ser um desafio interpretar os resultados corretamente e eliminar a incerteza sem a ajuda de um especialista.          

Como o Amazon Machine Learning pode ajudar?

A AWS coloca o machine learning nas mãos de todos os desenvolvedores, cientistas de dados e usuários de negócios. Os serviços do Amazon Machine Learning fornecem infraestrutura escalável, com bom custo-benefício e de alta performance, para atender às necessidades comerciais.

Apenas começando?

Saiba mais sobre machine learning com nossos dispositivos educativos como o AWS DeepRacer, AWS DeepComposerAWS DeepLens.

Tem um arquivo de dados existente?

Use o Amazon SageMaker Data Labeling para fluxos de trabalho de rotulagem de dados integrados que oferecem suporte a vídeo, imagens e texto.

Possui sistemas de machine learning existentes?

Use o Amazon SageMaker Clarify para detectar desvios e o Amazon SageMaker Debugger para monitorar e otimizar a performance.

Quer implementar o aprendizado profundo?

Use o Amazon SageMaker Distributed Training para treinar grandes modelos de aprendizado profundo automaticamente. Cadastre-se para obter uma conta gratuita e começar sua jornada de machine learning hoje mesmo.

Próximas etapas do machine learning