www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Понимание доверительного интервала

Дата публикации Mar 26, 2019

«Мы на 95% уверены, что средняя численность населения попадает в доверительный интервал».

Как оказалось, приведенное выше утверждение вводит в заблуждение. Доверительный интервал - это концепция, основанная на частых статистических данных, тогда как утверждение выражает байесовскую веру. В этой статье мы с помощью смоделированных экспериментов на реальных данных узнаем, что в действительности означает доверительный интервал.

Разница между частотой и байесовской статистикой является фундаментальной. Пример из учебника подбрасывает монету. Статист-статистик будет подбрасывать монету миллион раз, и, если будет замечено 500 тыс. Голов, объявить, что монета справедлива. Байесовский статистик начал бы с предварительного убеждения о том, является ли монета справедливой или нет, и, когда он подбрасывает монету, постепенно корректирует свое убеждение, основываясь на доказательствах.

В экспериментальном контексте частый участник полагает, что существует единственное правильное среднее значение, которое остается верным независимо от того, во что вы верите, в то время как байесовец полагает, что среднее значение популяции является случайной величиной: вы предполагаете, что оно попадает в диапазон возможных значений, и вы хеджируйте вашу веру с вероятностью. В моделировании ниже мы увидим, почемудоверительный интервал можно интерпретировать только частым образом,


Набор данных Udacity Engagement

Мы будем использовать набор данных о взаимодействии изUdacity, Каждая точка данных - это доля времени видеоуроков, которые изучал студент. Если студент просмотрел весь курс, он занят на 100%, и его точка данных равна 1. Это взаимодействие следует экспоненциальному распределению. Неудивительно видеть, что большинство студентов бросают учебу в начале, и лишь немногие студенты заканчивают весь курс.

В реальном мире мы рассматриваем этот набор данных как образец размера 8702. Но в этом моделировании мы рассматриваем его так, как будто мы являемся всей совокупностью, и рисуемодин миллионобразцы размером 300 из этого (процесс, известный как выборка Bootstrap). Поскольку мы имеем полную совокупность здесь, мы можем легко видеть, что среднее значение распределения выборки является непредвзятой оценкой среднего значения совокупности (0,07727). Кроме того, легко подтвердить, что эмпирически вычисленная стандартная ошибка идентична аналитической (0,0062).

Распределение населения явно не нормальное, но Центральная предельная теорема гарантирует, что распределение выборки является нормальным, учитывая достаточно большой размер выборки (300 более чем достаточно). Как показано на графике плотности, распределение выборки действительно очень нормальное. Я добавил две вертикальные линии, обозначающие стандартную ошибку 1.96 выше и ниже среднего. Это z-показатель для двустороннего уровня значимости 0,05. При нормальном распределении вероятность выше 2,5%, а вероятность ниже 2,5%.

В нашем примере у нас 2,06% нижнего хвоста и 2,83% верхнего хвоста. Распределение выборки положительно искажено, потому что мы не можем иметь отрицательные значения. Это согласуется с сюжетом QQ. На нижнем конце экстремальные значения встречаются реже, чем ожидалось по нормали, тогда как на верхнем конце экстремальные значения появляются чаще, чем ожидалось по нормали.

Но на практике это распределение выборки более чем удовлетворяет предположению о нормальности: большинство точек данных приятно ложатся на диагональ графика QQ. Это важная проверка: нормальное распределение выборки является основным допущением z-теста и t-теста (подробнее о t-тесте позже). Если распределение выборки не является нормальным, все результаты теста являются недействительными.

На самом деле, мы не знаем среднего значения или стандартной ошибки населения. В конце концов, если мы знаем среднее значение популяции, то нет необходимости в статистическом тестировании или доверительном интервале! Кроме того, мы не можем позволить себе быть частыми лицами. Ни у кого нет денег или времени, чтобы взять миллион образцов или бросить монету миллион раз. Обычно мы получаем только одну выборку, вычисляем среднее значение выборки и стандартную ошибку среднего, складываем и вычитаем несколько кратных стандартной ошибки t-показателя, чтобы получить доверительный интервал.


Частое моделирование

Что если мы сможем нарисовать сотни тысяч образцов? Мы уже смоделировали миллион образцов. В приведенном ниже коде мы строим доверительный интервал для каждой выборки и проверяем, попадает ли среднее значение популяции в доверительный интервал. Помните, что мы точно подсчитали, что население составляет 0,07727.

Оказывается, что 94,4% доверительных интервалов охватывают среднее значение по населению. Вот что на самом деле означает доверительный интервал:если мы повторяем процедуры выборки бесконечно много раз, около 95% доверительных интервалов будет содержать среднее значение по совокупности.

Другими словами, приблизительно 5% доверительных интервалов не в состоянии охватить среднее значение по населению. На графике ниже это происходит, когда синие точки (верхняя граница) пересекаются ниже среднего значения популяции или когда оранжевые точки (нижняя граница) пересекаются выше среднего значения популяции

Визуализация верхней и нижней границ доверительных интервалов

Так почему же байесовская интерпретация неточная? Учитывая какой-либо один из доверительных интервалов, мы не можем делать какие-либо заявления о значении самого населения. Мы не знаем, относится ли он к 95% интервалов, которые содержат среднее значение по населению, или к остальным 5%, которые не имеют. Мы даже не можем сделать вывод о распределении данных в пределах доверительного интервала. Доверительный интервал может охватывать часть тонкого хвоста или быть точно отцентрирован по среднему значению для популяции.

Доверительный интервал может охватывать любую часть распределения

Таким образом, мы ничего не знаем о том, как данные распределяются в пределах доверительного интервала, не говоря уже о том, содержит ли оно среднее значение по населению.Заявление, которое мы можем сделать, касается границ доверительного интервала, а не местоположения населения.


Вывод

Эта статья посвящена доверительному интервалу по среднему значению населения. Часто мы сталкиваемся с доверительным интервалом по пропорциональным (z-критерию) и параметрам линейной регрессии. Тем не менее, интерпретация та же самая.

Мы живем в байесовском мире. Можно легко быть прощенным, если мы скажем: «Мы на 95% уверены, что…». Ваши менеджеры не хотят, в конце концов, повторять миллион экспериментов, но когда мы говорим другим, что это значит, мы не должны забывать, что доверительный интервал является частым участником. концепция.


Расширенное чтение

Следующие блоги охватывают темы, относящиеся к тестированию AB, и более глубокому обзору ключевых понятий, упомянутых в этой статье.

  • Визуализация бета-распределения и байесовского обновленияссылка]
  • Сила A / B тестированияссылка]
  • Помимо A / B-тестирования: эксперименты с многоруким бандитом [ссылка]
  • Знаете ли вы достоверный интервал [ссылка]
  • Код доступен в моем Kaggleблокнот,

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map