www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

5 основных понятий статистики, которые необходимо знать ученым

Дата публикации Oct 22, 2018

Статистика может быть мощным инструментом при выполнении искусства Data Science (DS). С точки зрения высокого уровня, статистика - это использование математики для технического анализа данных. Базовая визуализация, такая как гистограмма, может дать вам некоторую информацию высокого уровня, но со статистикой мы получаем возможность обрабатывать данные гораздо более целенаправленно и на основе информации. Используемая математика помогает нам формировать конкретные выводы о наших данных, а не просто делать предположения.

Используя статистику, мы можем получить более глубокое и детальное представление о том, как именно структурированы наши данные, и на основе этой структуры мы можем оптимально применять другие методы обработки данных, чтобы получить еще больше информации. Сегодня мы рассмотрим 5 основных статистических концепций, которые должны знать ученые, и как их можно наиболее эффективно применять!

Статистические особенности

Статистические особенности - это, вероятно, наиболее используемая концепция статистики в науке о данных. Это часто первый метод статистики, который вы применяете при изучении набора данных, и включает такие вещи, как смещение, дисперсия, среднее значение, медиана, процентили и многие другие. Все это довольно легко понять и реализовать в коде! Посмотрите на рисунок ниже для иллюстрации.

Базовый сюжет

Линия посередине - этомедианаценность данных. Медиана используется над средним, так как она более устойчива к выбросам.первый квартильпо существу 25-й процентиль; Т.е. 25% точек в данных опускаются ниже этого значения.третий квартиль75-й процентиль; то есть 75% точек в данных опускаются ниже этого значения. Значения min и max представляют верхний и нижний пределы диапазона данных.

Квадратный график прекрасно иллюстрирует, что мы можем сделать с основными статистическими функциями:

  • Когда поле сюжеткороткаяэто означает, что большая часть ваших точек данных похожа, так как в небольшом диапазоне много значений
  • Когда поле сюжетвысокийэто означает, что большая часть ваших точек данных сильно отличается, так как значения распределены в широком диапазоне
  • Если медианное значение ближе кднотогда мы знаем, что большинство данных имеют более низкие значения. Если медианное значение ближе кВверхтогда мы знаем, что большинство данных имеют более высокие значения. По сути, если срединная линия не находится в середине окна, это указывает наперекосданные.
  • Усыочень долго? Это означает, что ваши данные имеют высокийстандартное отклонениеа такжедисперсияТ.е. значения разбросаны и сильно варьируются. Если у вас есть длинные усы на одной стороне коробки, но не на другой, то ваши данные могут сильно отличаться только в одном направлении.

Вся эта информация из нескольких простых статистических функций, которые легко рассчитать! Попробуйте это, когда вам нужно быстрое, но информативное представление ваших данных.

Распределение вероятностей

Мы можем определить вероятность как процентную вероятность того, что какое-то событие произойдет. В науке о данных это обычно определяется количественно в диапазоне от 0 до 1, где 0 означает, что мы уверены, что этоне произойдети 1 означает, что мы уверены в этомпроизойдет, Распределение вероятностей тогда является функцией, которая представляет вероятности всех возможных значений в эксперименте. Посмотрите на рисунок ниже для иллюстрации.

Распределение вероятностей. Униформа (слева), Нормаль (посередине), Пуассон (справа)
  • Равномерное распределениеявляется самым основным из 3, которые мы показываем здесь. У него есть единственное значение, которое встречается только в определенном диапазоне, в то время как все, что находится за пределами этого диапазона, равно нулю. Это в значительной степени распределение «включено или выключено». Мы также можем рассматривать его как указание на категориальную переменную с двумя категориями: 0 или значение. Ваша категориальная переменная может иметь несколько значений, отличных от 0, но мы все еще можем визуализировать ее в виде кусочной функции нескольких равномерных распределений.
  • Обычныйраспределениеобычно упоминается какGaussianРаспределение,определено его средним значением и стандартным отклонением. Среднее значение смещает распределение в пространстве, а стандартное отклонение контролирует распространение. Импортное отличие от других распределений (например, Пуассона) состоит в том, что стандартное отклонение одинаково во всех направлениях. Таким образом, с помощью гауссовского распределения мы знаем среднее значение нашего набора данных, а также разброс данных, т. Е. Разбросан он по широкому диапазону или он сильно сконцентрирован вокруг нескольких значений.
  • Распределение Пуассонапохож на нормальный, но с добавленным факторомперекос, При низком значении асимметрии распределение Пуассона будет иметь относительно равномерный разброс во всех направлениях, как и нормальное. Но когда значение асимметрии велико, разброс наших данных будет разным в разных направлениях; в одном направлении это будет очень распространено, и в другом это будет очень сконцентрировано

Есть еще много дистрибутивов, в которые вы можете углубиться, но эти 3 уже дают нам большую ценность. Мы можем быстро увидеть и интерпретировать наши категориальные переменные с помощью равномерного распределения. Если мы видим распределение по Гауссу, мы знаем, что есть много алгоритмов, которые по умолчанию будут хорошо работать именно с гауссовским, поэтому мы должны пойти на это. А с Пуассоном мы увидим, что мы должны проявить особую осторожность и выбрать алгоритм, устойчивый к изменениям пространственного разброса.

Уменьшение размерности

СеместрУменьшение размерностидовольно интуитивно понятно. У нас есть набор данных, и мы хотели бы уменьшить количество измерений, которые он имеет. В науке о данных это число характерных переменных. Посмотрите на рисунок ниже для иллюстрации.

Уменьшение размерности

Куб представляет наш набор данных и имеет 3 измерения с общим количеством точек 1000. Теперь при сегодняшних вычислениях 1000 точек легко обрабатывать, но в более широком масштабе мы столкнемся с проблемами. Тем не менее, просто глядя на наши данные из2-мерныйс точки зрения, например, с одной стороны куба, мы видим, что довольно легко разделить все цвета под этим углом. С уменьшением размерности мы бы тогдапроект3D-данные на 2D-плоскости. Это эффективно уменьшает количество точек, которые нам нужно вычислить, до 100, что значительно экономит вычислительные ресурсы!

Другой способ уменьшить размерность - этообрезка, С помощью сокращения функций мы в основном хотим удалить любые функции, которые, по нашему мнению, будут не важны для нашего анализа. Например, после изучения набора данных мы можем обнаружить, что из 10 объектов 7 из них имеют высокую корреляцию с выходными данными, а остальные 3 имеют очень низкую корреляцию. Тогда эти 3 функции с низкой корреляцией, вероятно, не будут стоить вычислений, и мы могли бы просто удалить их из нашего анализа, не повредив результат.

Наиболее распространенным методом статистики, используемым для уменьшения размерности, является PCA, который по существу создает векторные представления характеристик, показывающие, насколько они важны для выходных данных, т.е. их корреляции. PCA может использоваться для выполнения обоих стилей уменьшения размерности, описанных выше. Подробнее об этом читайте вэтот урок,

Сверх и под отбором проб

Избыточная и недостаточная выборка - это методы, используемые для задач классификации. Иногда наш набор классификационных данных может быть слишком сильно отклонен в одну сторону. Например, у нас есть 2000 примеров для класса 1, но только 200 для класса 2. Это отбросит многие методы машинного обучения, которые мы пытаемся использовать для моделирования данных и прогнозирования! С этим может бороться наш сверх- и подвыбор. Посмотрите на рисунок ниже для иллюстрации.

Под и выше выборки

Как в левой, так и в правой части изображения выше, наш синий класс имеет гораздо больше образцов, чем оранжевый класс. В этом случае у нас есть 2 варианта предварительной обработки, которые могут помочь в обучении наших моделей машинного обучения.

Подбор проб означает, что мы будем выбирать тольконесколькоданных из класса большинства, используя только столько примеров, сколько имеет класс меньшинства. Этот выбор должен быть сделан для поддержания вероятностного распределения класса. Это было просто! Мы просто выровняли наш набор данных, просто взяв меньше образцов!

Превышение выборки означает, что мы будемсоздавать копиинашего класса меньшинства, чтобы иметь то же количество примеров, что и класс большинства. Копии будут сделаны так, чтобы распределение меньшинства сохранялось. Мы просто выровняли наш набор данных, не получая больше данных!

Байесовская статистика

Полное понимание того, почему мы используем байесовскую статистику, требует, чтобы мы сначала поняли, гдеСтатистика частотытерпит неудачу,Частотная статистика - это тип статистики, о которой думает большинство людей, когда слышит слово «вероятность». Он включает в себя применение математики для анализа вероятности возникновения какого-либо события, где конкретно единственные данные, которые мы вычисляем,предыдущие данные,

Давайте посмотрим на пример. Предположим, я дал вам кубик и спросил, каковы ваши шансы на бросок 6. Ну, большинство людей просто скажут, что это 1 на 6. Действительно, если бы мы провели частотный анализ, мы бы посмотрели на некоторые данные, где кто-то бросил умри 10000 раз и посчитай частоту каждого выпавшего числа; примерно 1 к 6!

Но что, если кто-то скажет вам, чтоконкретный штампэто было данотыбылзагруженвсегда приземляться на 6? Поскольку частотный анализ учитывает толькопредыдущие данные, чтодоказательствокоторый был дан вам о загружаемом кубикенесуществоучтено.

Байесовская статистикаделаетпринять во внимание это доказательство Мы можем проиллюстрировать это, взглянув на теорему Бая:

Теорема Бая

ВероятностьР (Н)в нашем уравнении в основном наш частотный анализ; учитывая нашпредыдущие данныеКакова вероятность нашего события.Р (Е | Н)в нашем уравнении называетсявероятностьи по сути это вероятность того, что наши доказательства верны, учитывая информацию из нашего частотного анализа. Например, если вы хотите бросить кубик 10000 раз, а первые 1000 бросков вы получили все 6, вы начнете чувствовать себя уверенно, что этот кубик загружен!Р (Е)вероятность того, что фактические доказательства являются правдой. Если я скажу вам, что кубик загружен, можете ли вы доверять мне и сказать, что он действительно загружен или вы думаете, что это трюк ?!

Если наш частотный анализ очень хорош, то он будет иметь вес, говоря, что да, наше предположение о 6 верно. В то же время мы принимаем во внимание наше свидетельство о загруженном кристалле, если оно истинно или нет, основываясь как на собственном предварительном, так и на частотном анализе. Как видно из схемы уравнения, байесовская статистика учитывает все. Используйте его всякий раз, когда вы чувствуете, что ваши предыдущие данные не будут хорошим представлением ваших будущих данных и результатов.


Нравится учиться?

Следуй за мной пощебетгде я публикую все о новейших и лучших ИИ, технологиях и науке! Связаться со мной наLinkedInслишком!

Рекомендуемое чтение

Хотите узнать больше о науке данных?Python Data Science HandbookКнига - лучший ресурс для изучения того, как сделатьреальныйНаука о данных с Python!

И просто напоследок, я поддерживаю этот блог с помощью партнерских ссылок Amazon на замечательные книги, потому что обмен отличными книгами помогает всем! Как партнер Amazon я зарабатываю на соответствующих покупках.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map