www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Исследование проблем классификации с использованием логистической регрессии и понимание проблемы приема

Дата публикации Apr 3, 2017

Аннотация:

В нашем мире многие из часто встречающихся проблем - это проблемы классификации. Нас часто путают между определенными ценностями или жестким выбором вещей. В этой статье мы обсудим алгоритм, используемый для эффективного решения простых задач классификации с использованием машинного обучения. Кроме того, мы проанализируем гипотетическую проблему бинарного класса, включающую результаты выпускной школы, основанные на оценках вступительных экзаменов и оценках старшекурсников.

Введение:

Контролируемое обучение - это техника машинного обучения, в которой мы связываем наши данные с нашими целями в данном наборе данных. У нас уже есть определенная интуиция относительно нашего конечного результата. У нас в целом есть два типа проблем контролируемого обучения: «Регрессия» и «Классификация». Мы будем обсуждать проблемы классификации в этой статье. Проблема классификации - это проблема, в которой мы разделяем наши входные данные на отдельные категории. Под дискретными мы подразумеваем отдельные классы.
Пример. Представьте себе гипотетический набор данных, основанный на поступлении в аспирантуру, имеющий три столбца. Первый столбец - это балл вступительных экзаменов (Вход X1), второй столбец - экзамены UG (Вход X2), а третий столбец является результатом, признать / отклонить (Цель Y). Сегмент набора данных, использованного в этой статье, показан ниже.

Вступительный экзамен, UG, результат (бинарный)

Мы определяем наш целевой класс Y как двоичный класс. Таким образом, мы определяем множество как,Y = {0,1}где заданные элементы:

0 подразумевает отклонение (отрицательный класс),
1 подразумевает Accept (позитивный класс)

Таким образом, это проблема классификации. Мы можем разделить набор данных на две категории на основе результатов процесса приема. Алгоритм, который обычно разрешает набор данных в отдельные категории, определяется какклассификатор, В этом примере зависимая переменнаядихотомический, В таких случаях мы предпочитаем логистическую регрессию. Мы можем построить график рассеяния нашего набора данных в MATLAB / Octave и наблюдать следующий график:

Точечный график нашего набора данных

Включены функция активации и функция отображения:

Прежде всего, рассмотрим функцию, которая отображает наш вывод и ввод и, следовательно, используется для вычисления прогнозов при расчете функции квадратичной ошибки. Давайте назовем эту функцию функцией отображения или функцией гипотезы,ч (Х), Термин «гипотеза» был придуман по различным историческим причинам. Также термин «логистика» является синонимом сигмоида. Таким образом, мы используем функцию активации сигмоида с «S-образной кривой» в этом алгоритме. Кривая, созданная с помощью нашей запрограммированной функции, изображена ниже.

Функция активации сигмовидной кишки

Математически мы определяем нашу функцию как:

Функция Sigmoid также имеет несколько других математических свойств. Например, мы можем представить производную функции по самой функции.

Эта функция Sigmoid / Logistic упрощает математику, используемую при оптимизации, и является идеальным выбором для задач классификации малого масштаба. Используя функцию Sigmoid, мы можем эффективно ограничить наш диапазон, чтобы он эффективно представлял вероятность. Мы можем представить нашу функцию гипотезы / отображения математически как:

По сути, это очень простая линейная функция стоимости, просто в сочетании с сигмовидной функцией.

Наша функция гипотез дает нам числовое значение для вероятности того или иного события. Мы можем определить диапазон функции отображения как:0≤h (Х) ≤1,

Интуиция функции стоимости:

Функция стоимости - это математическая функция, позволяющая оценить, насколько хорошо гипотеза соответствует входному и целевому набору. Графически мы знаем, что лучшая функция стоимости будет лучше соответствовать нашим данным. Обычно это обозначается как функция наших параметров. В этом случае мы называем этоJ (θ),
В этом алгоритме мы используемфункция логарифмической стоимостикоторый вытекает из принципаОценка максимального правдоподобия (M.S.E)чтобы убедиться, что функция, которую мы получаем как выходВыпуклая функция.

Краткая интуиция состоит в том, чтобы думать, что логарифм, включенный в функцию стоимости, примерно противодействуетехручаствует.

Как заявил в своей работе Кристофер М. Бишоп,

«Когда мы предполагаем, что наши положительные и отрицательные обучающие выборки происходят из двух разных гауссовых кластеров (разное местоположение, но одинаковая ковариация), тогда мы можем разработать идеальный классификатор».

Оптимизация проще в выпуклой функции, так как легче достичь минимума на кривой и получить оптимальное значение параметра θ.
Тем не менее, мы видим, что мы получаем ту же функцию Града, что и метод линейной регрессии после дифференцирования J (θ).

Однако значение Grad - это не одно и то же, поскольку у нас есть другая функция отображения для линейной и логистической регрессии.

Код прототипа для функции стоимости

Поэтому, используя вектор параметров θ и функцию стоимости J (θ), мы можем применить любой данный алгоритм оптимизации для реализации простой границы решения.

Оптимизация параметров:

Теперь, если мы хотим подогнать параметры (в данном случае, θ), мы бы хотели применить алгоритмы минимизации (оптимизации).
Мы могли бы сделать простые мини-шаги(предел (θ) -> 0)к нашим данным минимумам, которые обычно называютГрадиентный спускили перейдите на передовые алгоритмы оптимизации, такие какBFGSилиBFGS с ограниченной памятью,
Передовые методы оптимизации являются частьюКвази ньютонметоды, в которых мы вычисляем оптимизированное значениеГессенская матрица, L-BFGS очень похож на BFGS, за исключением того, что он имеет лучшую оптимизацию памяти и является более масштабируемым алгоритмом. Кроме того, при сопоставлении с градиентным спуском расширенные алгоритмы менее подвержены условиям проб и ошибок, поскольку нет необходимости выбирать произвольное значениеальфа(Скорость обучения), чтобы получить более оптимальный результат. Математическая запись для гессенской матрицы показана ниже:

Как правило, мы применяем расширенную оптимизацию через библиотеки. Одна конкретная библиотека в C ++, используемая для применения расширенных алгоритмов оптимизации, - этоEigen C ++ Library,

Однако разные библиотеки могут иметь разные временные сложности. Неудобный выбор библиотеки может привести к снижению общей производительности нашего алгоритма и негативно повлиять на нашу общую программу.

Таким образом, мы можем построить границу решения после эффективной минимизации наших параметров, используя метод оптимизации. Таким образом, мы используем универсальный MATLAB«Fminunc»применить расширенную оптимизацию. После применения нашей функции с θ и значением Grad в качестве параметров мы можем построить границу нашего решения следующим образом:

Решение Граница разделения данных. В этом случае линейная граница подходит лучше.

Концепция переоснащения кривой:

Переоснащение - это, в основном, условие, при котором наша выученная гипотеза каким-то образом справляется со всеми точками в наборе данных и генерирует небольшую или нулевую ошибку, но имеет существенный недостаток. Наш алгоритмне может предсказатьдискретный классновые примеры тестирования.
Решение этой проблемы:
Мы можем оштрафовать определенные параметры (θ), чтобы это исправить. Мы добавляем параметр регулирования (λ) в наш алгоритм оптимизации, который может оптимизировать кривую. Эта техника называетсярегуляризация, Таким образом, мы модифицируем нашу функцию стоимости и алгоритмы оптимизации, чтобы оштрафовать параметры и получить оптимальное соответствие.

Совершенство подгонки:

ВGoodness Fit (Г.О.Ф)в основном мы проверяем, правильно ли задана данная модель и насколько хорошо она подходит для статистических наблюдений. Обычно есть два обычно используемых метода для оценки пригодности. Один тест является известным тестом Пирсона хи-квадрат, а другой -Тест Хосмера и Лемешоу, прямойПирсон Хи-квадратТест - это более простая техника, поэтому мы обсудим интуицию теста.

Хи-квадрат (χ2) обладает достаточной математической точностью для вычисления статистических параметров из заданного набора данных. Также этот тест асимптотически верен. Его основная роль заключается в вычислении частот для каждого наблюдения в наборе данных.
Таким образом, мы можем вычислить статистическое значение p, сравнивая значение со значением распределения.
Мы также могли бы использовать множество других тестов, таких какТест Стукеля или информационная матрицаТест для эффективного измерения соответствия логистической регрессии.

Поскольку это моя первая статья о машинном обучении, я обсудил элементарную концепцию в этой области. В следующей статье я напишу об альфа-бета-отсечке с использованием шахматного движка на основе битборда U64.

Ссылки:

  1. У. С. Ли и Б. Лю, «Обучение на положительных и немаркированных примерах с использованием взвешенной логистической регрессии» -ICML, 2003 - vvvvw.aaai.org
  2. Д. К. Лиу и Дж. Носедал, «О методе BFGS с ограниченной памятью для крупномасштабной оптимизации» - Математическое программирование, 1989 - Springer
  3. М. А. Бабяк, «То, что вы видите, может не совпадать с тем, что вы получаете: краткое нетехническое введение в переоснащение в моделях регрессионного типа», - Психосоматическая медицина, 2004 - journals.lww.com
  4. Эндрю Н.Г., «Машинное обучение, курс Стэнфордского университета».
  5. Пол Д. Эллисон, «Меры, пригодные для логистической регрессии», - SAS Global Forum, Вашингтон, округ Колумбия, 2014 - statisticshorizons.com
  6. Кристофер М. Бишоп, «Распознавание образов и машинное обучение».

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map