O que é regressão linear?

A regressão linear é uma técnica de análise de dados que prevê o valor de dados desconhecidos usando outro valor de dados relacionado e conhecido. Ele modela matematicamente a variável desconhecida ou dependente e a variável conhecida ou independente como uma equação linear. Por exemplo, suponha que você tenha dados sobre suas despesas e receitas do ano passado. As técnicas de regressão linear analisam esses dados e determinam que suas despesas são metade de sua renda. Eles então calculam uma despesa futura desconhecida reduzindo pela metade uma renda futura conhecida.

Por que a regressão linear é importante?

Os modelos de regressão linear são relativamente simples e fornecem uma fórmula matemática fácil de interpretar para gerar previsões. A regressão linear é uma técnica estatística estabelecida e se aplica facilmente a softwares e à computação. As empresas a utilizam para converter dados brutos de forma confiável e previsível em business intelligence e insights práticos. Cientistas em muitos campos, incluindo biologia e ciências comportamentais, ambientais e sociais, usam a regressão linear para realizar análises preliminares de dados e prever tendências futuras. Muitos métodos de ciência de dados, como machine learning e inteligência artificial, usam a regressão linear para resolver problemas complexos.

Como funciona a regressão linear?

Em sua essência, uma técnica de regressão linear simples tenta traçar um gráfico de linhas entre duas variáveis de dados, x e y. Como variável independente, x é plotada ao longo do eixo horizontal. Variáveis independentes também são chamadas de variáveis explicativas ou variáveis preditoras. A variável dependente, y, é plotada no eixo vertical. Você também pode fazer referência aos valores de y como variáveis de resposta ou variáveis previstas.

Etapas na regressão linear

Para esta visão geral, considere a forma mais simples da equação do gráfico de linhas entre y e x; y=c*x+m, onde c e m são constantes para todos os valores possíveis de x e y. Assim, por exemplo, suponha que o conjunto de dados de entrada para (x, y) fosse (1,5), (2,8) e (3,11). Para identificar o método de regressão linear, você realizaria as seguintes etapas:

  1. Plotar uma linha reta e medir a correlação entre 1 e 5.
  2. Continuar alterando a direção da linha reta para novos valores (2,8) e (3,11), até que todos os valores se ajustem.
  3. Identificar a equação de regressão linear como y=3*x+2.
  4. Extrapolar ou predizer que y é 14 quando x é

O que é regressão linear no machine learning?

No machine learning, programas de computador, chamados de algoritmos, analisam grandes conjuntos de dados e trabalham regressivamente a partir desses dados para calcular a equação de regressão linear. Os cientistas de dados primeiro treinam o algoritmo em conjuntos de dados conhecidos ou rotulados e depois o utilizam para prever valores desconhecidos. Os dados da vida real são mais complicados do que o exemplo anterior. É por isso que a análise de regressão linear deve modificar ou transformar matematicamente os valores dos dados para atender às quatro suposições a seguir.

Relacionamento linear

Deve existir uma relação linear entre as variáveis independentes e dependentes. Para determinar essa relação, os cientistas de dados criam um gráfico de dispersão (uma coleção aleatória de valores x e y) para ver se eles se encaixam em uma linha reta. Se isso não acontecer, será possível aplicar funções não lineares, como raiz quadrada ou logarítmica, para criar matematicamente a relação linear entre as duas variáveis.

Independência residual

Os cientistas de dados usam resíduos para medir a precisão da previsão. Um resíduo é a diferença entre os dados observados e o valor previsto. Resíduos não devem ter um padrão identificável entre eles. Por exemplo, os resíduos não devem crescer com o passar do tempo. Diferentes testes matemáticos, como o teste de Durbin-Watson, podem ser utilizados para determinar a independência residual. É possível usar dados fictícios para substituir qualquer variação de dados, como dados sazonais.

Normalidade

Técnicas de representação gráfica, como gráficos Q-Q, determinam se os resíduos são normalmente distribuídos. Os resíduos devem se encaixar ao longo de uma linha diagonal no centro do gráfico. Se eles não forem normalizados, você poderá testar os dados quanto à presença de outliers aleatórios ou valores atípicos. Remover desses outliers ou realizar transformações não lineares pode corrigir o problema.

Homocedasticidade

A homocedasticidade supõe que os resíduos tenham uma variância constante ou desvio padrão da média para cada valor de x. Se esse não for o caso, os resultados da análise podem não ser precisos. Se essa suposição não for atendida, talvez seja necessário alterar a variável dependente. Como a variância ocorre naturalmente em conjuntos de dados grandes, faz sentido alterar a escala da variável dependente. Por exemplo, em vez de usar o tamanho da população para prever o número de postos de bombeiros em uma cidade, é possível usar o tamanho da população para prever o número de postos de bombeiros por pessoa.

Quais são os tipos de regressão linear?

Alguns tipos de análise de regressão são mais adequados do que outros para lidar com conjuntos de dados complexos. Veja alguns exemplos a seguir:

Regressão linear simples

A regressão linear simples é definida pela função linear:

Y= β0*X + β1 + ε 

β0 e β1 são duas constantes desconhecidas que representam a inclinação da regressão, enquanto ε (épsilon) é o termo de erro.

Você pode usar a regressão linear simples para modelar a relação entre duas variáveis, como estas:

  • Precipitação e rendimento de colheitas
  • Idade e altura em crianças
  • Temperatura e expansão do mercúrio metálico em um termômetro

Regressão linear múltipla

Na análise de regressão linear múltipla, o conjunto de dados contém uma variável dependente e várias variáveis independentes. A função de linha de regressão linear muda para incluir mais fatores, da seguinte forma:

Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε 

À medida que o número de variáveis preditoras aumenta, as constantes β também aumentam correspondentemente.

 A regressão linear múltipla modela diversas variáveis e seu impacto em um resultado:

  • Precipitação, temperatura e uso de fertilizantes no rendimento de colheitas
  • Influência de dieta e exercícios em doenças cardíacas
  • Crescimento dos salários e da inflação nas taxas de empréstimos imobiliários

Regressão logística

Os cientistas de dados usam a regressão logística para medir a probabilidade de um evento ocorrer. A previsão é um valor entre 0 e 1, em que 0 indica um evento improvável de acontecer e 1 indica a probabilidade máxima de que esse evento aconteça. Equações logísticas usam funções logarítmicas para calcular a linha de regressão.

Veja alguns exemplos:

  • A probabilidade de uma vitória ou derrota em uma partida esportiva
  • A probabilidade de aprovação ou reprovação em um exame 
  • A probabilidade de uma imagem ser uma fruta ou um animal

Como a AWS pode ajudar você a resolver problemas de regressão linear?

O Amazon SageMaker é um serviço totalmente gerenciado que pode ajudar você a preparar, construir, treinar e implantar rapidamente modelos de machine learning (ML) de alta qualidade. O Amazon SageMaker Autopilot é uma solução genérica de ML automática para problemas de classificação e regressão, como detecção de fraudes, análise de rotatividade e marketing direcionado. 

O Amazon Redshift, um data warehouse em nuvem rápido e amplamente utilizado, integra-se nativamente ao Amazon SageMaker para ML. Com o Amazon Redshift ML, é possível usar instruções SQL simples para criar e treinar modelos de ML a partir dos dados no Amazon Redshift. Você pode então usar esses modelos para resolver todos os tipos de problemas de regressão linear.

Comece a usar o Amazon SageMaker JumpStart ou crie uma conta da AWS hoje mesmo.

Próximas etapas da regressão linear na AWS

Confira outros recursos relacionados a produtos
Serviços gratuitos de machine learning - AWS 
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Comece a criar no console

Comece a criar no Console de Gerenciamento da AWS.

Faça login