www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

MSE и Bias-дисперсия разложения

Дата публикации May 21, 2017

Пока я читал несколько замечательных книг по машинному обучению, таких какISL,ESL,DLЯ очень запутался в том, как они объясняют MSE (средняя квадратическая ошибка) и ее разложение смещения дисперсии. Разложение смещения дисперсии чрезвычайно важно, если вы хотите получить действительно хорошее представление о таких вещах, как переоснащение, недостаточное оснащение и емкость модели. К сожалению, эти книги либо отбрасывают происхождение, либо дают его в разных контекстах, что вводит в заблуждение. Здесь я приведу полный вывод разложения отклонения для двух наиболее распространенных контекстов: MSE для оценки и MSE для предиктора.

MSE для оценки

оценщиклюбая функция на выборке данных, которая обычно пытаетсяоценитьнекоторые полезные качества исходных данных, из которых взят образец. Формально,оценщикэто функция на образцеS:

гдех (я)случайная величина, взятая из распределенияDт.е.х (я) ~ D,

В книгах по статистике часто удобно представлять, что данные, с которыми мы работаем, являются образцом, взятым из некоторого распределения. Подумайте о фондовом рынке, на практике мы можем отслеживать только цены акций каждые ~ 10 мс, но на самом деле существует скрытый экономический механизм, который генерирует эти данные, которые мы не можем наблюдать из-за его огромной сложности. Этот механизм описывает распределение, и данные, которые мы наблюдаем, являются образцом.

Примеры

Мы хотели бы использовать этот образец дляоценитьнекоторые полезные качества исходных данных. Например, мы можем захотеть узнать среднюю стоимость акций AAPL, но, поскольку мы не можем заполучить весь экономический механизм, который генерирует цену AAPL, мы прибегаем к вычислению среднего значения только наблюдаемых цен:

будетпо оценкамозначатьзапаса AAPL инастоящее среднееакции AAPL. Обратите внимание, чторасчетное среднееслучайная величина, зависящая от выборкиSкоторая также является случайной величиной, в то время какнастоящее среднееэто скаляр

Другой пример будетрасчетная дисперсияакций AAPL:

гдеσ²этореальная разницаиз приложения на складе.

Оценочные свойства

Теперь мы хотели бы знать, насколько хорошо нашиоценщикиявляются. Мы можем рассмотреть два свойства:Оценщик смещенияа такжеОценка дисперсии,

Оценщик смещенияизмеряет, насколько хорошо нашоценщиквоценкиреальная стоимость. Это простая разница:

Оценка дисперсииизмеряет, как «нервный» нашоценщикдля отбора проб, например Если бы мы наблюдали цену акций каждые 100 мс вместо каждых 10 мс, сильно ли изменилась бы оценка?

Примеры

Если мы предположим, что фактическое распределение цены акций AAPL являетсяГауссово распределениетогда смещение оценкиμноль, то есть это беспристрастно:

К сожалению, предвзятость оценкиσ²не ноль, это предвзято

Кстати, вот почему следующееобъективный оценщикчаще используется в литературе:

Смотрите главу 5 вDLкнига для доказательства этих формул.

Разброс отклонения для оценок

Разброс отклонения просто объединяет два наших любимых свойства в одной формуле:

где ожидания принимаются в отношенииSслучайная переменная.

Вот доказательство:

Здесь мы использовали тот факт, чтоθне является случайной величиной, и поэтому она равна собственному ожиданию относительно любого распределения.

MSE для предиктора

Хватит этой статистики, давайте поговорим о машинном обучении! :) В предыдущем разделе мы видели, как мы можем использоватьоценщикиоценить некоторые полезные качества наших данных. В примере мы смогли оценитьозначатьа такжедисперсияакций APPL, наблюдая только его значения каждые 10 мс.

Теперь мы хотим заработать немного денег и торговать на фондовом рынке! Нам нужно построить модель, котораяпредсказываетбудущие ценностиYэтого запаса из доступных данныхИкс, Этими доступными данными могут быть данные о продажах, стоимости акций за последние 5 дней, объявлениях, выпусках продуктов и т. Д. Поэтому мы строим модель, которая описывает нашу цену акций:

мы предполагаем, чтоеявляется реальной моделью, которая скрыта от нас и которая определяет цену акций, иεкакой-то неприятный шум наблюдения. Мы хотим придуматьпредсказателькоторый приближаетсяенастолько хорошо, насколько это возможно. Предиктор обучается на некоторой выборкеSданных обучения, но мы хотим, чтобы он работал хорошо на данных, которые мы еще не наблюдали. Поэтому мы хотим, чтобы следующее было как можно меньше:

где(Х, у)случайная величина, представляющая ненаблюдаемые данныеSданные, на которых мы обучили нашего предиктора, иεшум после некоторого распределенияЕ Обратите внимание, что наши ненаблюдаемые (обычно называемые данными тестирования) имеют такое же распределение, что и точки в обучающих данных.S, Как правило, в ML очень важно иметь данные обучения и тестирования, поступающие из одного дистрибутива.

Как оказывается, MSE для предиктора также имеет разложение смещения дисперсии. Давайте выведем это здесь. Мы будем использовать следующие формулы:

Ниже все ожидания, дисперсии и ковариации вычисляются по(Х, у),S,а такжеεслучайные переменные.

Здесь мы предположили, что наш шумεне зависит отSа также(Х, у)случайные переменные.

Теперь предположим, что шумεимеет нулевое среднее. Если среднее значение не равно нулю, но некоторая постояннаястогда мы могли бы включить эту константу вF (X)в нашей модели и считаем, что этот шум имеет нулевое среднее.

Первый термин обычно называютотклонение, Это показывает, как «нервный» разрыв междуреальная модельимодель предикторав зависимости от данных обученияSи данные испытаний(Х, у), Модели с высокой пропускной способностью (например, нейронная сеть с очень большим количеством слоев) имеют высокуюдисперсияи модели с низкой емкостью (например, линейная регрессия) имеют низкуюдисперсия,

Второй членШум, Это показывает влияние шума наблюдения. Это не зависит ни от чего, кроме основного распределения шума. Мы ничего не можем сделать, чтобы уменьшить этот шум, это неснижаемо.

Третий член в квадратепредвзятость, Он показывает, хорошо ли наш предсказатель приближается к реальной модели. Модели с высокой емкостью имеют низкийсмещениеи модели с низкой емкостью имеют высокиесмещение,

Поскольку обасмещениеа такжедисперсияспособствовать MSE, хорошие модели пытаются уменьшить их обоих. Это называется компромиссом смещения дисперсии.

Это на самом деле одно и то же

Как вы, наверное, заметили из формулMSE для оценкиа такжеMSE для предиктораочень похожиMSE для оценкиизмеряет, насколько близко нашиоценщикв желаемом количествеθ,MSE для предиктораизмеряет, насколько близко наша функцияпредсказательэто желаемая функцияев некотором функциональном пространстве, где мы измеряем расстояние между двумя функциями как расстояние L2, что фактически является одним из многих способов определения расстояния между двумя функциями в функциональном пространстве.

ВMSE для предикторараздел мы также ввели ошибку, но мы также можем иметь ошибку вMSE для оценкираздел. В нашем примере с акциями это будет соответствовать искажению наблюдений за акциями с некоторым шумом.

ВDLпоиск книгоценщикупоминается какОценка Точки, потому чтоθэто точка в обычном пространстве. И найтипредсказательупоминается какОценка функциипотому чтоеявляется функцией в функциональном пространстве.

Постскриптум Источники путаницы

Есть в основном два источника путаницы для людей, пытающихся понять смещение дисперсии смещения.

Во-первых, книги любят фиксировать некоторые случайные величины и вычислять ожидания относительноSилиεтолько. Это позволяет им писать более короткие формулы.

Второе происходит из-за того, что оценщик MSE и MSE для предиктора технически одно и то же с точки зрения высокого уровня, и книги любят взаимозаменяемо смешивать их, объясняя разложение смещения дисперсии.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map