Что такое линейная регрессия?

Линейная регрессия — это метод анализа данных, который предсказывает ценность неизвестных данных с помощью другого связанного и известного значения данных. Он математически моделирует неизвестную или зависимую переменную и известную или независимую переменную в виде линейного уравнения. Например, предположим, что у вас есть данные о ваших расходах и доходах за прошлый год. Методы линейной регрессии анализируют эти данные и определяют, что ваши расходы составляют половину вашего дохода. Затем они рассчитывают неизвестные будущие расходы, сокращая вдвое будущий известный доход.

Почему линейная регрессия важна?

Модели линейной регрессии относительно просты и предоставляют легко интерпретируемую математическую формулу для создания прогнозов. Линейная регрессия – это признанный статистический метод, который легко применяется к программному обеспечению и вычислениям. Компании используют его для надежного и предсказуемого преобразования необработанных данных в бизнес-аналитику и полезную аналитику. Ученые во многих областях, включая биологию и поведенческие, экологические и социальные науки, используют линейную регрессию для проведения предварительного анализа данных и прогнозирования будущих тенденций. Многие методы науки о данных, такие как машинное обучение и искусственный интеллект, используют линейную регрессию для решения сложных задач.

Как работает линейная регрессия?

По своей сути простой метод линейной регрессии пытается построить линейный график между двумя переменными данных, x и y. Как независимая переменная x строится вдоль горизонтальной оси. Независимые переменные также называются независимыми переменными или предикторными переменными. Зависимая переменная y нанесена на вертикальную ось. Значения y также можно называть переменными отклика или прогнозируемыми переменными.

Этапы линейной регрессии

Для этого обзора рассмотрим простейшую форму уравнения линейного графика между y и x; y = c*x+m, где c и m постоянны для всех возможных значений x и y. Например, предположим, что входной набор данных для (x, y) был (1,5), (2,8) и (3,11). Чтобы определить метод линейной регрессии, необходимо выполнить указанные ниже шаги.

  1. Постройте прямую линию и измерьте корреляцию между 1 и 5.
  2. Продолжайте менять направление прямой линии для новых значений (2,8) и (3,11), пока все значения не подойдут.
  3. Определите уравнение линейной регрессии как y = 3 * x + 2.
  4. Экстраполировать или предсказать, что y равно 14, когда x равно

Что такое линейная регрессия в машинном обучении?

В машинном обучении компьютерные программы, называемые алгоритмами, анализируют большие наборы данных и работают в обратном направлении от этих данных для расчета уравнения линейной регрессии. Специалисты по обработке данных сначала обучают алгоритм на известных или маркированных наборах данных, а затем используют алгоритм для прогнозирования неизвестных значений. Реальные данные сложнее, чем в предыдущем примере. Вот почему линейный регрессионный анализ должен математически изменять или преобразовывать значения данных, чтобы соответствовать указанным ниже четырем предположениям.

Линейная зависимость

Между независимыми и зависимыми переменными должна существовать линейная зависимость. Чтобы определить эту взаимосвязь, специалисты по обработке данных создают точечную диаграмму – случайную коллекцию значений x и y – чтобы увидеть, падают ли они вдоль прямой линии. В противном случае можно применить нелинейные функции, такие как квадратный корень или log, для математического создания линейной зависимости между двумя переменными.

Остаточная независимость

Специалисты по обработке данных используют невязки для измерения точности прогнозирования. Невязка – это разница между наблюдаемыми данными и прогнозируемым значением. Остатки не должны иметь идентифицируемой закономерности между ними. Например, вы не хотите, чтобы остатки со временем увеличивались. Для определения остаточной независимости можно использовать различные математические тесты, такие как тест Дурбина-Уотсона. Фиктивные данные можно использовать для замены любых вариаций данных, таких как сезонные данные.

Нормальность

Методы построения графиков, такие как графики Q-Q, определяют, нормально ли распределены невязки. Невязки должны располагаться вдоль диагональной линии в центре графика. Если невязки не нормализованы, можно проверить данные на случайные выбросы или нетипичные значения. Устранение выбросов или выполнение нелинейных преобразований может решить проблему.

Гомоскедастичность

Гомоскедастичность предполагает, что невязки имеют постоянную дисперсию или стандартное отклонение от среднего для каждого значения x. В противном случае результаты анализа могут быть неточными. Если это предположение не выполняется, возможно, придется изменить зависимую переменную. Поскольку дисперсия возникает естественным образом в больших наборах данных, имеет смысл изменить масштаб зависимой переменной. Например, вместо того, чтобы использовать численность населения для прогнозирования количества пожарных частей в городе, можно использовать численность населения для прогнозирования количества пожарных частей на человека.

Какие существуют типы линейной регрессии?

Некоторые типы регрессионного анализа больше подходят для обработки сложных наборов данных, чем другие. Далее приведены некоторые примеры.

Простая линейная регрессия

Простая линейная регрессия определяется линейной функцией:

Y = β0*X + β1 + ε 

β0 и β1 – две неизвестные константы, представляющие наклон регрессии, тогда как ε (эпсилон) – член ошибки.

Можно использовать простую линейную регрессию для моделирования взаимосвязи между двумя переменными, например:

  • Количество осадков и урожайность
  • Возраст и рост у детей
  • Температура и расширение металлической ртути в термометре

Несколько линейных регрессий

При множественном линейном регрессионном анализе набор данных содержит одну зависимую переменную и несколько независимых переменных. Функция линии линейной регрессии изменяется и включает в себя большее количество факторов, как указано ниже.

Y = β0*X0 + β1X1 + β2X2+… βnXn + ε 

По мере увеличения количества переменных-предикторов константы β также соответственно увеличиваются.

 Множественная линейная регрессия моделирует несколько переменных и их влияние на результат:

  • Количество осадков, температура и использование удобрений на урожайность
  • Диета и упражнения при сердечных заболеваниях
  • Рост заработной платы и инфляция ставок по жилищным кредитам

Логистическая регрессия

Специалисты по обработке данных используют логистическую регрессию для измерения вероятности возникновения события. Предсказание – это значение от 0 до 1, где 0 означает маловероятное событие, а 1 – максимальную вероятность того, что оно произойдет. Логистические уравнения используют логарифмические функции для вычисления линии регрессии.

Ниже приведены несколько примеров.

  • Вероятность победы или поражения в спортивном матче
  • Вероятность прохождения или неудачи теста 
  • Вероятность того, что изображение будет фруктом или животным

Как AWS может помочь в решении задач линейной регрессии?

Amazon SageMaker – это полностью управляемый сервис, который поможет быстро подготовить, построить, обучить и развернуть высококачественные модели машинного обучения (ML). Amazon SageMaker автопилот – это универсальное автоматическое решение машинного обучения для решения проблем классификации и регрессии, таких как обнаружение мошенничества, анализ оттока и целевой маркетинг. 

Amazon Redshift, быстрое и широко используемое облачное хранилище данных, изначально интегрируется с Amazon SageMaker для машинного обучения. С помощью Amazon Redshift ML можно использовать простые инструкции SQL для создания и обучения моделей машинного обучения на основе данных в Amazon Redshift. Затем эти модели можно использовать для решения всех типов задач линейной регрессии.

Начните работу с Amazon SageMaker JumpStart или создайте аккаунт AWS уже сегодня.

Метод линейной регрессии на AWS: дальнейшие шаги

Дополнительные ресурсы по продукту
Бесплатные сервисы машинного обучения на AWS 
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход