www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Что делать, если ваши данные не являются нормальными?

Дата публикации Nov 2, 2018

Введение

ЭтоНеделя хэллоуинаМежду этими хитростями и удовольствиями мы, фанаты данных, смеемся над этим милым мемом в социальных сетях.

Вы думаете, что это шутка? Позвольте мне сказать вам, это не смешное дело. Это страшно, правда духа Хэллоуина!

Если мы не можем предположить, что большинство наших данных (делового, социального, экономического или научного происхождения) по крайней мере приблизительно «нормальны» (т. Е. Они получены гауссовым процессом или суммой нескольких таких процессов), то мы обречены!

Вот очень краткий список вещей, которые не будут действительны,

Достаточно страшно? Давайте поговорим об этом подробнее ...

Всемогущее и вездесущее нормальное распределение

Давайте сделаем этот раздел коротким и приятным.

Нормальное (гауссовское) распределение является наиболее широко известным распределением вероятностей. Вот несколько ссылок на статьи, описывающие его мощь и широкую применимость,

Почему ученые данных любят гауссов?

Три основные причины, по которым распространение по Гауссу так популярно у инженеров по машинному обучению и…

towardsdatascience.com

Из-за его появления в различных областях иЦентральная предельная теорема(CLT), это распределение занимает центральное место в науке о данных и аналитике.

Нормальное распределение - Википедия

В теории вероятностей нормальное (или гауссово, или гауссово, или лапласово-гауссовское) распределение является очень распространенным непрерывным…

en.wikipedia.org

Так в чем проблема?

Это все неуклюжий, в чем проблема?

Проблема в том, что часто вы можете найти дистрибутив для вашего конкретного набора данных, который может не удовлетворять нормальности, то есть свойствам нормального дистрибутива. Но из-за чрезмерной зависимости от предположения о нормальности,Большинство структур бизнес-аналитики специально разработаны для работы с нормально распределенными наборами данных.,

Это почти укоренилось в нашем подсознании.

Допустим, вас просят обнаружить проверку, имеет ли смысл новый пакет данных из какого-либо процесса (инженерного или бизнес). По 'придать смыслаВы имеете в виду, если новые данныепринадлежатт.е. если он находится в «ожидаемом диапазоне».

Что это за «ожидание»? Как определить количество?

Автоматически, как если бы это было направлено подсознательным двигателем, мы измеряем среднее значение и стандартное отклонение выборочного набора данных и продолжаем проверять, попадают ли новые данные в определенный диапазон стандартных отклонений.

Если нам нужно работать с доверительной вероятностью 95%, то мы будем рады видеть, что данные находятся в пределах 2 стандартных отклонений. Если нам нужно более строгое ограничение, мы проверяем 3 или 4 стандартных отклонения. Мы рассчитываемхолодный полярный континентальный воздухили мы следуемшесть Сигмруководящие принципы длям.д.(частей на миллион) уровень качества.

Все эти расчеты основаны на неявном предположении, что данные о населении (НЕ выборка) следуют гауссовскому распределению, т.е. фундаментальный процесс, на основе которого были получены все данные (в прошлом и в настоящем), определяется шаблоном левая сторона.

Но что произойдет, если данные будут следовать шаблону с правой стороны?

Или это и ... это?

Существует ли более универсальная граница, когда данные НЕ являются нормальными?

В конце дня нам все еще понадобитсяматематически обоснованная техника для количественной оценки нашей достоверностидаже если данные не нормальные. Это означает, что наши расчеты могут немного измениться, но мы все равно должны сказать что-то вроде этого:

«Вероятность наблюдения новой точки данных на определенном расстоянии от среднего значения такая-то и такая-то…»

Очевидно, что нам нужно искать более универсальную границу, чем заветные границы Гаусса 68–95–99,7 (что соответствует стандартному отклонению 1/2/3 от среднего значения).

К счастью, есть одна такая граница, называемая «граница Чебышева».

Что такое Чебышевский переплет и чем он полезен?

Неравенство Чебышева (также называемое неравенством Бинайме-Чебышева) гарантирует, чтодля широкого класса распределений вероятностей не более определенной доли значений может быть больше определенного расстояния от среднего,

В частности, не более1 /К²значений распределения может быть большеКстандартные отклонения от среднего значения (или эквивалентно, по крайней мере,1-1 / k²значения распределения находятся в пределахКстандартные отклонения от среднего значения).

Это относится к практически неограниченным типам вероятностных распределений и работает в гораздо более смягченном предположении, чем нормальность.

Как это работает?

Даже если вы ничего не знаете о секретном процессе ваших данныхесть хороший шанс, что вы можете сказать следующее,

«Я уверен, что 75% всех данных должны находиться в пределах 2 стандартных отклонений от среднего»,

Или,

Я уверен, что 89% всех данных должны находиться в пределах 3 стандартных отклонений от среднего значения ».

Вот как это выглядит для произвольно выглядящего дистрибутива,

Кредит изображения:https://2012books.lardbucket.org/books/beginning-statistics/s06-05-the-empirical-rule-and-chebysh.html

Как это применить?

Как вы уже догадались,базовая механика анализа ваших данных не должна немного меняться, Вы по-прежнему будете собирать выборку данных (чем больше, тем лучше), вычислять те же две величины, которые вы использовали для расчета - среднее и стандартное отклонение, а затем применять новые границы вместо правила 68–95–99,7.

Таблица выглядит следующим образом (здесь k обозначает много стандартных отклонений от среднего значения),

Образ:https://en.wikipedia.org/wiki/Chebyshev%27s_inequality

Видео демонстрация его применения здесь,

В чем подвох? Почему люди не используют эту «более универсальную» границу?

Очевидно, что выгода, глядя на таблицу или математическое определение.Правило Чебышева намного слабее, чем правило Гаусса, когда речь идет о границах данных.,

Следует1 / k²картина по сравнению сэкспоненциально падающийшаблон для нормального распределения.

Например, чтобы связать что-либо с достоверностью 95%, вам необходимо включить данные до 4,5 стандартных отклонений по сравнению только с 2 стандартными отклонениями (для нормальных значений).

Но он все равно может спасти тот день, когда данные не похожи на нормальное распределение.

есть что-нибудь получше?

Есть еще одна граница под названием «Чернофф Бунд«/Неравенство Хеффдингакоторый дает экспоненциально резкое распределение хвоста (по сравнению с 1 / k²) для сумм независимых случайных величин.

Это также может использоваться вместо гауссовского распределения, когда данные не выглядят нормально, но только тогда, когда мы имеем высокую степень уверенности в том, что основной процесс состоит из подпроцессов, которые полностью независимы друг от друга.

К сожалению, во многих социальных и бизнес-случаях окончательные данные являются результатом чрезвычайно сложного взаимодействия многих подпроцессов, которые могут иметь сильную взаимозависимость.

Резюме

В этой статье мы узнали о конкретном типе статистической границы, которая может быть применена к как можно более широкому распределению данных независимо от предположения о нормальности. Это удобно, когда мы очень мало знаем об истинном источнике данных и не можем предположить, что оно следует гауссовскому распределению. Граница следует степенному закону, а не экспоненциальному характеру (как гауссовский) и поэтому является более слабой Но это важный инструмент в вашем репертуаре для анализа любого произвольного типа распределения данных.


Если у вас есть какие-либо вопросы или идеи для обмена, пожалуйста, свяжитесь с автором по адресуtirthajyoti [AT] gmail.com, Также вы можете проверить авторскиеGitHub репозиториидля других забавных фрагментов кода в Python, R или MATLAB и ресурсов машинного обучения. Если вы, как и я, увлечены машинным обучением / наукой о данных, пожалуйста, не стесняйтесьдобавь меня в LinkedInилиПодпишись на меня в Твиттере.

Тиртхаджйоти Саркар - старший инженер - конструктор полупроводников, ИИ, машинное обучение - ПО…

Просмотрите профиль Tirthajyoti Sarkar на LinkedIn, крупнейшем в мире профессиональном сообществе.

www.linkedin.com

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map