www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Data Science Упрощенная Часть 9: Взаимодействия и ограничения регрессионных моделей

Дата публикации Aug 27, 2017

В последних нескольких постах этой серии подробно обсуждались регрессионные модели. Фернандо построил многомерную регрессионную модель. Модель принимает следующую форму:

цена = -55089,98 + 87,34размер двигателя + 60,93мощность в лошадиных силах + 770,42ширина

Модель прогнозирует или оценивает цену (цель) как функцию от размера двигателя, лошадиных сил и ширины (предикторы).

Напомним, что многомерная регрессионная модель предполагает независимость между независимыми предикторами. Он обрабатывает мощность, размер двигателя и ширину, как будто они не связаны между собой.

На практике переменные редко бывают независимыми.

Что, если есть отношения между мощностью, размером двигателя и шириной? Можно ли смоделировать эти отношения?

Этот пост будет посвящен этому вопросу. Это объяснит концепцию взаимодействия.

Концепция:

Независимость между предикторами означает, что если один предиктор изменяется, это оказывает влияние на цель. Это влияние не имеет отношения к существованию или изменениям других предикторов. Отношения между целью и предикторами являются аддитивными и линейными.

Давайте возьмем пример, чтобы проиллюстрировать это. Уравнение Фернандо:

цена = -55089,98 + объем двигателя 87,34 + 60,93 лошадиных силы + ширина 770,42

Это интерпретируется какизменение единицы размера двигателя изменяет цену на $ 87,34.

Эта интерпретация никогда не принимает во внимание, что размер двигателя может быть связан с шириной автомобиля.

Не может ли быть так, что чем шире автомобиль, тем больше двигатель?

Третий предиктор фиксирует взаимодействие между двигателем и шириной. Этот третий предсказатель называетсясрок взаимодействия.

С условием взаимодействия между размером двигателя и шириной регрессионная модель принимает следующую форму:

цена = β0 + β1. объем двигателя + β2. мощность лошадиных сил + β3. ширина + β4. (размер двигателя. ширина)

Часть уравнения(β1. размер двигателя + β3. ширина)называется какОсновной эффект.

Семестрразмер двигателя х ширинаэто термин взаимодействия.

Как этот термин отражает связь между размером двигателя и шириной? Мы можем изменить это уравнение как:

цена = β0 + (β1 + β4. ширина) объем двигателя + β2. мощность лошадиных сил + β3. ширина

Теперь β4 можно интерпретировать как влияние на объем двигателя, если ширина увеличивается на 1 единицу.

Построение модели:

Фернандо вводит эти данные в свой статистический пакет. Пакет вычисляет параметры. Вывод следующий:

Уравнение становится:

цена = 51331,363–1099,953 x размер двигателя + 45,896 x лошадиная сила - 744,953 x ширина + 17,257 x размер двигателя: ширина

цена = 51331,363 - (1099,953–17,257 х ширина) Размер двигателя + 45,896 х лошадиных сил - 744,953 х ширина

Давайте интерпретируем коэффициенты:

  • Размер двигателя, мощность двигателя и размер двигателя: ширина (термин взаимодействия) являются значительными.
  • Ширина машины не имеет существенного значения.
  • Увеличение объема двигателя на 1 единицу снижает цену на 1099,953 $.
  • Увеличивает мощность на 1 единицу, увеличивает цену на $ 45,8.
  • Срок взаимодействия является значительным. Это подразумевает, что истинные отношения не аддитивны.
  • Увеличение объема двигателя на 1 единицу также увеличивает цену на (1099,953–17,257 x ширина).
  • Скорректированный r-квадрат по данным испытаний равен 0,8358 => модель объясняет 83,5% отклонения.

Обратите внимание, что ширина машины не имеет существенного значения. Тогда имеет ли смысл включать его в модель?

Здесь идет принцип называетсяиерархический принцип.

Иерархический принцип:Когда взаимодействия включаются в модель, основные эффекты также должны быть включены в модель. Основные эффекты должны быть включены, даже если отдельные переменные не являются значимыми в модели.

Фернандо теперь запускает модель и тестирует производительность модели на тестовых данных.

Модель хорошо работает на наборе данных тестирования. Скорректированный r-квадрат по данным испытаний равен 0,8175622 => модель объясняет 81,75% отклонения от невидимых данных.

У Фернандо теперь есть оптимальная модель, чтобы предсказать цену автомобиля и купить автомобиль.

Ограничения регрессионных моделей

Модели регрессии - рабочая лошадка науки о данных. Это удивительный инструмент в наборе данных ученого. При эффективном использовании они прекрасно справляются с решением многих реальных задач в области данных. Тем не менее, у них есть свои ограничения. Три ограничения моделей регрессии объясняются кратко:

Нелинейные отношения:

Модели линейной регрессии предполагают линейность между переменными. Если отношение не является линейным, то модели линейной регрессии могут работать не так, как ожидается.

Практический совет: используйте преобразования, такие как log, чтобы преобразовать нелинейные отношения в линейные отношения

Multi-Коллинеарность:

Коллинеарность относится к ситуации, когда две переменные предиктора связаны друг с другом Когда существует много предикторов, и эти предикторы связаны друг с другом, это называется мультиколлинеарностью. Если предикторы коррелируют друг с другом, то влияние конкретного предиктора на цель трудно изолировать.

Практический совет: упростите модель, тщательно выбирая предикторы. Ограничьте выбор слишком большого количества коррелированных предикторов. Альтернативно, используйте методы, такие как главные компоненты, которые создают новые некоррелированные переменные.

Влияние выбросов:

Выброс - это точка, которая далека от значения, предсказанного моделью. Если в целевой переменной есть выбросы, модельрастянутыразместить их. Слишком большая корректировка модели сделана для нескольких точек выброса. Это делает модель наклоненной к выбросам. Это не приносит никакой пользы в подборе модели для большинства.

Практический совет: уберите точки выброса для моделирования. Если в цели слишком много выбросов, возможно, потребуется несколько моделей.

Вывод:

Это было настоящее путешествие. В последних нескольких сообщениях в блоге,простая модель линейной регрессиибыло объяснено. Тогда мы баловалисьмодели многомерной регрессии,Методы выбора моделибыли обсуждены. Лечениекачественные переменныеи взаимодействие были также обсуждены.

В следующем посте этой серии мы обсудим другой тип контролируемой модели обучения: классификация.


Первоначально опубликовано наdatascientia.blog27 августа 2017 г.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map