선형 회귀란 무엇입니까?

선형 회귀는 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법입니다. 알 수 없는 변수 또는 종속 변수와 알려진 변수 또는 독립 변수를 선형 방정식으로 수학적으로 모델링합니다. 예를 들어 작년의 지출 및 수입에 대한 데이터가 있다고 가정해 보겠습니다. 선형 회귀 기법은 이 데이터를 분석하여 지출이 수입의 절반인지 확인합니다. 그런 다음 미래의 알려진 소득을 절반으로 줄여 알려지지 않은 미래 비용을 계산합니다.

선형 회귀가 중요한 이유는 무엇인가요?

선형 회귀 모델은 비교적 간단하며 예측을 생성하기 위한 해석하기 쉬운 수학 공식을 제공합니다. 선형 회귀는 확립된 통계 기법이며 소프트웨어 및 컴퓨팅에 쉽게 적용됩니다. 기업은 이를 사용하여 안정적이고 예측 가능한 방식으로 원시 데이터를 비즈니스 인텔리전스와 실행 가능한 인사이트로 변환합니다. 생물학, 행동과학, 환경과학, 사회과학 등 많은 분야의 사이언티스트가 선형 회귀를 사용하여 예비 데이터 분석을 수행하고 미래 추세를 예측합니다. 기계 학습 및 인공 지능과 같은 많은 데이터 과학 방법에서 선형 회귀를 사용하여 복잡한 문제를 해결합니다.

선형 회귀는 어떻게 작동하나요?

기본적으로 단순 선형 회귀 기법은 두 데이터 변수 x와 y 사이에 선 그래프를 그리려고 시도합니다. 독립 변수인 x는 가로 축을 따라 그려집니다. 독립 변수는 설명 변수 또는 예측 변수라고도 합니다. 종속 변수인 y는 세로 축에 그려집니다. y 값을 반응 변수 또는 예측 변수라고도 합니다.

선형 회귀의 단계

이 개요에서는 y와 x 사이의 가장 간단한 형태의 선 그래프 방정식 y=c*x+m을 검토하겠습니다. 여기서 c와 m은 x와 y의 가능한 모든 값에 대해 일정합니다. 예를 들어, (x,y)에 대한 입력 데이터 세트가 (1,5), (2,8), (3,11)이라고 가정합니다. 선형 회귀 방법을 식별하려면 다음 단계를 수행합니다.

  1. 직선을 그리고 1과 5 사이의 상관 관계를 측정합니다.
  2. 모든 값이 맞을 때까지 새 값 (2.8) 및 (3.11)에 대한 직선 방향을 계속 변경합니다.
  3. 선형 회귀 방정식을 y=3*x+2로 식별합니다.
  4. x가 다음과 같을 때 y가 14임을 추정하거나 예측합니다.

기계 학습에서 선형 회귀란 무엇인가요?

기계 학습에서 알고리즘이라는 컴퓨터 프로그램은 대규모 데이터 세트를 분석하고 해당 데이터에서 역방향으로 작업하여 선형 회귀 방정식을 계산합니다. 데이터 사이언티스트는 먼저 알려진 데이터 세트나 레이블이 지정된 데이터 세트에 대해 알고리즘을 훈련시킨 다음 해당 알고리즘을 사용하여 알 수 없는 값을 예측합니다. 실제 데이터는 이전 예시보다 더 복잡합니다. 그렇기 때문에 선형 회귀 분석은 다음 네 가지 가정을 충족하도록 데이터 값을 수학적으로 수정하거나 변환해야 합니다.

선형 관계

독립 변수와 종속 변수 사이에는 선형 관계가 있어야 합니다. 이 관계를 확인하기 위해 데이터 사이언티스트는 x 및 y 값의 무작위 모음인 산점도를 만들어 직선을 따라 표시되는지 확인합니다. 그렇지 않은 경우 제곱근이나 로그와 같은 비선형 함수를 적용하여 두 변수 간의 선형 관계를 수학적으로 만들 수 있습니다.

잔차 독립성

데이터 사이언티스트는 잔차를 사용하여 예측 정확도를 측정합니다. 잔차는 관측된 데이터와 예측된 값 간의 차이입니다. 잔차 사이에 식별 가능한 패턴이 없어야 합니다. 예를 들어, 잔차가 시간에 따라 더 커지는 것을 원하지 않습니다. Durbin-Watson 검정과 같은 다양한 수학 검정을 사용하여 잔차 독립성을 확인할 수 있습니다. 더미 데이터를 사용하여 계절 데이터와 같은 데이터 변형을 바꿀 수 있습니다.

정규성

Q-Q 플롯과 같은 그래프 기술은 잔차가 정규 분포를 따르는지 여부를 결정합니다. 잔차는 그래프 중앙의 대각선을 따라 있어야 합니다. 잔차가 정규화되지 않은 경우 데이터에서 임의의 이상값이나 일반적이지 않은 값을 검정할 수 있습니다. 이상값을 제거하거나 비선형 변환을 수행하면 문제를 해결할 수 있습니다.

등분산성

등분산성은 잔차가 x의 모든 값에 대해 평균에서 일정한 분산 또는 표준 편차를 갖는다고 가정합니다. 그렇지 않으면 분석 결과가 정확하지 않을 수 있습니다. 이 가정이 충족되지 않으면 종속 변수를 변경해야 할 수 있습니다. 분산은 대규모 데이터 세트에서 자연스럽게 발생하므로 종속 변수의 척도를 변경하는 것이 합리적입니다. 예를 들어, 인구 규모를 사용하여 도시의 소방서 수를 예측하는 대신 인구 규모를 사용하여 1인당 소방서 수를 예측할 수 있습니다.

선형 회귀 유형으로 무엇이 있나요?

일부 회귀 분석 유형은 다른 유형보다 복잡한 데이터 세트를 처리하는 데 더 적합합니다. 다음은 몇 가지 예제입니다.

단순 선형 회귀

단순 선형 회귀는 선형 함수로 정의됩니다.

Y= β0*X + β1 + ε 

β0과 β1은 회귀 기울기를 나타내는 2개의 알려지지 않은 상수인 반면 ε(엡실론)은 오차 항입니다.

단순 선형 회귀를 사용하여 다음과 같은 두 변수 간의 관계를 모델링할 수 있습니다.

  • 강우량과 작물 수확량
  • 어린이의 나이와 키
  • 온도계에서 금속 수은의 온도와 팽창

다중 선형 회귀

다중 선형 회귀 분석에서 데이터 세트에는 하나의 종속 변수와 여러 독립 변수가 포함됩니다. 선형 회귀선 함수는 다음과 같이 더 많은 요인을 포함하도록 변경됩니다.

Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε 

예측 변수의 수가 증가하면 β 상수도 그에 따라 증가합니다.

 다중 선형 회귀는 다음과 같이 여러 변수와 그 변수가 결과에 미치는 영향을 모델링합니다.

  • 강우량, 온도 및 비료 사용에 작물 수확량에 미치는 영향
  • 식이요법과 운동이 심장병에 미치는 영향
  • 임금 인상과 인플레이션이 주택 대출 금리에 미치는 영향

로지스틱 회귀

데이터 사이언티스트는 로지스틱 회귀 분석을 사용하여 이벤트 발생 확률을 측정합니다. 예측은 0과 1 사이의 값입니다. 여기서 0은 발생할 가능성이 낮은 이벤트를 나타내고 1은 발생할 가능성이 가장 높은 이벤트를 나타냅니다. 로지스틱 방정식은 로그 함수를 사용하여 회귀선을 계산합니다.

다음은 몇 가지 예시입니다.

  • 스포츠 경기에서 승리 또는 패배 확률
  • 테스트 통과 또는 실패 확률 
  • 이미지가 과일 또는 동물일 확률

AWS는 선형 회귀 문제 해결에 관해 어떤 도움을 줄 수 있나요?

Amazon SageMaker는 고품질 기계 학습 모델(ML)을 빠르게 준비, 빌드, 훈련, 배포할 수 있는 완전관리형 서비스입니다. Amazon SageMaker Autopilot은 사기 탐지, 이탈 분석, 표적 마케팅과 같은 분류 및 회귀 문제를 위한 일반적인 자동 ML 솔루션입니다. 

빠르고 널리 사용되는 클라우드 데이터 웨어하우스인 Amazon Redshift는 기본적으로 ML용 Amazon SageMaker와 통합됩니다. Amazon Redshift ML을 사용하면 간단한 SQL 문을 사용하여 Amazon Redshift의 데이터로 ML 모델을 생성하고 훈련시킬 수 있습니다. 그런 다음 이러한 모델을 사용하여 모든 유형의 선형 회귀 문제를 해결할 수 있습니다.

지금 Amazon SageMaker JumpStart를 시작하거나 AWS 계정을 만드세요.

AWS 선형 회귀의 다음 단계

제품 관련 추가 리소스 확인
무료 기계 학습 서비스 - AWS 
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작하기

AWS 관리 콘솔에서 구축을 시작하세요.

로그인