www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Уравновешивание смещения и дисперсии для контроля ошибок в машинном обучении

Дата публикации May 5, 2017

В мире машинного обучения точность - это все.Вы стремитесь сделать свою модель более точной, настраивая и настраивая параметры,но никогда не сможем сделать это на 100% точным.Это суровая правда о вашем прогнозе / классификациимодели, они никогда не могут быть безошибочными.В этой статье я расскажу, почему это происходит, и другие формы ошибок, которые можно уменьшить.

Предположим, что мы наблюдаемпеременная ответа Y(качественный или количественный) ивходная переменная Xимея число элементов или столбцов (X1, X2… ..Xp), и мы предполагаем, что между ними есть связь. Это отношение может быть выражено как

Y = f (X) + e

Здесь f - некоторая фиксированная, но неизвестная функция X1,…, Xp иe - это случайная ошибка, которая не зависит от X и имеет среднее значение ноль.В этой формулировке f представляет систематическую информацию, которую X предоставляет о Y.Оценка этого отношения или f (X) известна как статистическое обучение.

В общем, мы не сможем сделать точную оценку f (X), и это приводит к ошибке, известной какприводимая ошибка, Точность модели может быть улучшена путем более точной оценки f (X) и, следовательно, уменьшения приводимой ошибки.Но даже если мы сделаем 100% точную оценку f (X), наша модель не будет безошибочной, это известно как неснижаемая ошибка(е в приведенном выше уравнении).

Другими словами, неустранимая ошибка может рассматриваться как информация, которую X не может предоставить о Y.Величина е может содержать неизмеренные переменные, которые полезны при прогнозировании Y: поскольку мы их не измеряем, f не может использовать их для своего прогноза.Величина е также может содержать неизмеримое изменение.Например, риск неблагоприятной реакции может варьироваться для данного пациента в определенный день, в зависимости от производственных вариаций самого препарата или общего ощущения благополучия пациента в этот день.

Такие конечные случаи присутствуют в каждой проблеме, и ошибка, которую они вносят, не сводится к минимуму, поскольку обычно они отсутствуют в данных обучения. Мы ничего не можем с этим поделать. Что мы можем сделать, так это уменьшить другие виды ошибок, чтобы получить почти идеальную оценку f (X). Но сначала давайте взглянем на другие важные понятия в машинном обучении, которые вам необходимо понять, чтобы продолжить.

Сложность модели

Сложность отношения f (X) между входными и ответными переменными является важным фактором, который необходимо учитывать при изучении набора данных.Простое отношение легко интерпретировать.Например, линейная модель будет выглядеть так

Y ≈ β0 + β1X1 + β2X2 +… + βpXp

Из этого отношения легко вывести информацию, а также она четко показывает, как конкретный признак влияет на переменную ответа. Такие модели подпадают под категориюограничительные моделипоскольку они могут принимать только определенную форму, линейную в этом случае. Но отношение может быть более сложным, чем это, например, оно может быть квадратичным, круговым и т. Д. Эти моделиболее гибкийпоскольку они соответствуют точкам данных, они могут принимать различные формы. Обычно такие методы приводят к более высокой точности.Но эта гибкость достигается ценой интерпретируемости, поскольку сложное отношение труднее интерпретировать.

Выбор гибкой модели не всегда гарантирует высокую точность. Это происходит потому, что наша гибкая статистическая процедура обучения работает слишком усердно, чтобы найти шаблоны в данных обучения, иможет быть, собирая некоторые шаблоны, которые вызваны случайным шансом, а не истинными свойстваминеизвестной функции ф. Это меняет нашу оценку f (X), приводя к менее точной модели. Это явление также известно какпереобучения,

Когда вывод является целью, есть очевидные преимущества использования простых и относительно негибких статистических методов обучения. Однако в некоторых ситуациях нас интересует только прогнозирование, а интерпретируемость прогнозирующей модели просто не представляет интереса. Это когда мы используем более гибкие методы.

Качество посадки

Для количественной оценки степени, в которой прогнозируемое значение отклика для данного наблюдения близко к истинному значению отклика для этого наблюдения, наиболее часто используемым показателем в настройке регрессии является среднеквадратическая ошибка (MSE),

Взято из Википедии

Как следует из названия,это среднее квадрата ошибок или различий в прогнозах и наблюдаемых значениях для всех входных данных.Это известно какобучение MSEесли рассчитывается с использованием данных обучения, итест MSEесли рассчитывается с использованием данных тестирования.

Ожидаемое тестовое MSE для заданного значения x0 всегда можно разложить на сумму трех основных величин: дисперсии f (x0), квадрата смещения f (x0) и дисперсии ошибок e. Где е - неприводимая ошибка, о которой мы поговорим ранее. Итак, давайте посмотрим больше о смещении и дисперсии

предвзятость

Смещение относится к ошибке, которая вводится путем аппроксимации реальной проблемы, которая может быть чрезвычайно сложной, с помощью гораздо более простой модели. Таким образом, если истинное отношение является сложным, и вы пытаетесь использовать линейную регрессию, то это, несомненно, приведет к некоторому смещению в оценке f (X). Независимо от того, сколько у вас наблюдений, невозможно дать точный прогноз, если вы используете ограничительный / простой алгоритм, когда истинное отношение очень сложное.

отклонение

Дисперсия относится к величине, на которую ваша оценка f (X) изменится, если мы оценим ее с использованием другого набора обучающих данных. Поскольку данные обучения используются для определения статистического метода обучения, различные наборы данных обучения приведут к разной оценке. Но в идеале оценка для f (X) не должна сильно отличаться между тренировочными наборами. Однако, если метод имеет высокую дисперсию, то небольшие изменения в обучающих данных могут привести к большим изменениям f (X).

Главное правило

Любое изменение в наборе данных обеспечит другую оценку, которая является очень точной, при использовании статистического метода, который пытается сопоставить точки данных слишком близко. Общее правило таково,поскольку статистический метод пытается более точно сопоставить точки данных или когда используется более гибкий метод, смещение уменьшается, но дисперсия увеличивается.

Кредит: Введение в Статистическое Изучение Гаретом Джеймсом, Даниэлой Виттен, Тревором Хасти, Робертом Тибширани

На изображении выше слева показан график 3 различных статистических методов в настройке регрессии. Желтый - линейный, синий - слегка нелинейный, а зеленый сильно нелинейный / гибкий, так как слишком близко соответствует точкам данных. В правой части вы можете увидеть график зависимости MSE от гибкости этих трех методов. Красный - тестовый MSE, а серый - обучающий MSE.Нет уверенности в том, что метод с самым низким обучением MSE также будет иметь самый низкий тест MSE.Это связано с тем, что некоторые методы специально оценивают коэффициенты, чтобы минимизировать обучающую MSE, но у них может не быть MSE с низким тестом.Эта проблема может быть отнесена к проблеме переоснащения.Как видно из графика, зеленая кривая (наиболее гибкая) имеет наименьшую обучающую MSE, но не самую низкую тестовую MSE. Давайте углубимся в эту проблему.

Предоставлено: ISLR Гаретом Джеймсом, Даниэлой Виттен, Тревором Хасти, Робертом Тибширани

Это график, показывающий тест MSE (красная кривая), смещение (зеленая кривая) и дисперсию (желтая кривая) в отношении гибкости выбранного метода для конкретного набора данных. Точка самого низкого MSE делает интересный пункт о смещении и дисперсии форм ошибок. Это показывает, что сувеличение гибкости, смещение уменьшается быстрее, чем увеличивается дисперсия. Через некоторое время смещение больше не уменьшается, но дисперсия начинает быстро расти из-за переоснащения.

Bias-Variance Trade off

Кредит: Введение в Статистическое Изучение Гаретом Джеймсом, Даниэлой Виттен, Тревором Хасти, Робертом Тибширани

На рисунке выше представьте, что центр цели - это модель, которая идеально предсказывает правильные значения. По мере того, как мы удаляемся от глаз быка, наши прогнозы становятся все хуже и хуже. Представьте, что мы можем повторить весь процесс построения нашей модели, чтобы получить несколько отдельных попаданий в цель, так что каждая синяя точка представляет разные реализации нашей модели на основе разных наборов данных для одной и той же проблемы.Он отображает четыре разных случая, представляющих комбинации как высокого, так и низкого смещения и дисперсии. Высокий уклон - это когда все точки находятся далеко от глаз быка, а высокая дисперсия - когда все точки разбросаны.Эта иллюстрация в сочетании с предыдущим объяснением довольно ясно показывает разницу между смещением и дисперсией.

Как описано ранее,чтобы минимизировать ожидаемую ошибку теста, нам нужно выбрать метод статистического обучения, который одновременно обеспечивает низкую дисперсию и низкое смещение.Между этими значениями всегда есть компромисс, потому что легко получить метод с чрезвычайно низким смещением, но высокой дисперсией (например, путем построения кривой, которая проходит через каждое отдельное обучающее наблюдение) или метод с очень низкой дисперсией, но высокой смещение (путем подгонки горизонтальной линии к данным). Задача состоит в том, чтобы найти метод, для которого и дисперсия, и квадрат смещения являются низкими.

Освоение компромисса между смещением и дисперсией необходимо, чтобы стать чемпионом в области машинного обучения.

Эту концепцию следует учитывать при решении задач машинного обучения, поскольку она помогает повысить точность модели. Сохранение этих знаний также поможет вам быстро определить лучшие статистические модели для различных ситуаций.


Если вам понравилась эта статья, обязательно нажмите ❤ ниже, чтобы порекомендовать ее, и если у вас есть какие-либо вопросы,Оставить комментарийи я сделаю все возможное, чтобы ответить.

Для того, чтобы быть более осведомленным о мире машинного обучения,Подписывайтесь на меня Это лучший способ узнать, когда я пишу больше подобных статей.

Вы также можете подписаться на меняTwitter в@ Prashant_1722,напишите мне напрямуюилинайди меня на linkedin, Я хотел бы услышать от вас.

Вот и все, приятного дня :)

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map