www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Параметры в алгоритмах машинного обучения.

Дата публикации Jun 2, 2019

Я имел удовольствие быть студентомШайлеш Кумарво время моей ассоциации сISB, Хайдарабад, Профессор Шайлеш имеет уникальную точку зрения на то, как можно определить успешного ученого по данным:

  • Специалист по данным - это тот, кто может написать целевую функцию, которая должна быть оптимизирована для данной проблемы.
  • Специалист по данным - это тот, кто способен понять количество свободных параметров, которые необходимо изучить при решении целевой функции.
  • Специалист по данным - это тот, кто способен понять ручку (или гиперпараметры), которая будет контролировать сложность модели.

Я пишу этот пост для тех, кто хочет понять роль параметров в алгоритме ML. Количество параметров, необходимых для решения, будет напрямую влиять на время и результаты тренировочного процесса. Приведенная ниже информация будет полезна для понимания различных алгоритмов в ML.

  • Методы уменьшения размерности

Анализ главных компонентов:

PCA используется для уменьшения размерности входных данных для удобства и скорости. Результатом алгоритма PCA является набор данных, который является ортогональным в векторном пространстве. Целевая функция PCA может быть записана какArgmax {W'CW}где C - ковариационная матрица входных данных, которая является симметричной и положительной полуопределенной. Решение вышеуказанной функции дляWприведет кWявляясь собственными векторами матрицыС, Пусть данныеd-мерныйматрица.Сбыло быд * д.Количество параметров в PCA задается числом собственных векторов, которые являются максимальными«D»в итоге. Каждый Собственный вектор имеет размеры«1XD»,поэтому общие параметры, которые необходимо оценить,d * dx1 = d².Многие пакеты также дают собственные значения, которые являются объясненной дисперсией для каждого основного компонента. Поскольку сумма всех собственных значений должна суммироваться до общей дисперсии данных, существуетd-1бесплатные параметры для оценки собственных значений. Ручка - это число основных компонентов(К)что мы должны рассмотреть, не теряя много различий. Например: данные для каждого символа в наборе данных MNIST располагаются в изображении 28x28, которое составляет вектор длиной 784. Ковариационная матрица для этого одного изображения имеет размер 784x784, поэтому общее количество параметров составляет 784 * 784 +. +783.

Многомерное масштабирование (MDS):

Цель MDS - проецировать данные больших размеров на поверхность меньших размеров. Для каждой пары наблюдений расстояние сходствадельтадается в качестве входных данных для алгоритма. Результатом будет вектор координат для каждой точки данных вИксмерное пространство. Задача состоит в том, чтобы минимизировать погрешность проецируемого расстоянияdelta_xвх размерныйпространство с фактическим расстояниемдельтамежду каждой парой точек в данных. .i.e.argmin {(delta_x - delta) ²}.Нет. из. параметров для оценки нет. из. точки данных *Икс(размеры, которые вы хотите проецировать). Например, если вы хотите проецировать 5 разных кухонь в двухмерное пространство, то нет. из. параметры = 5 * 2 = 10. Ручка это просто величинаИкс.

  • Неконтролируемые методы обучения

Кластеризация K-средних:

Проблема в том, чтобы найтиКпредставители для данного набора входных данных. Представители называются центрами кластеров (или) центроидами и выбираются таким образом, чтобы расстояние от каждой точки до ее центроида в одном кластере было минимальным. Целевая функцияargmin I (k) * {(x-m (k)) ²}гдеI (к)является индикатором функции того, что точка принадлежит кластерук.Параметры модели - не что иное, как векторы центроидов кластеров. Если набор входных данныхdмерный, то общее количество параметровK * D.Ручка является значениемКэто должно быть передано в качестве гипер параметра в алгоритм.

Parzen Window:

Окна Парзена - это метод оценки плотности одной случайной величины (однотипные данные). Плотность данных является не чем иным, как приближением истинной функции плотности вероятности (pdf) данных. Оценки окна Парзена в каждой точке затем агрегируются для получения оценки плотности данных. Задача состоит в том, чтобы вычислитьp (x) = СУММА (k (x)).В этой модели нет свободных параметров для изучения, но вы назначаете гауссову (область влияния) для каждой точки данных, которая называется функцией ядра и имеет среднее значение (то есть с центром в точке данных) и дисперсию (сигма) уже указаны во время определения ядра. Ручка является значениемсигмаэто гиперпараметр алгоритма окна Parzen.

Uni-variate Normal (UVN / Gaussian):

UVN моделирование основано на предположении, что входные данные состоят только из одного измерения и егосреднее (мю) и дисперсия (сигма)должны оцениваться в предположении гауссовой функции плотности вероятности (pdf) Однако, в отличие от вышеописанного метода, параметры модели фактически изучаются путем максимизации (или минимизации отрицательного значения) функции правдоподобия или ее функции логарифмического правдоподобия. Входные данные предполагаются независимой и одинаково распределенной выборкой. Целевая функцияargmin - {PROD (1 / sqrt (2 * pi * sigma²) * e ^ - (x-mu) ² / sigma²)}.Бесплатные параметрымуа такжесигма.Для этой модели нет ручки.

Многовариантный нормальный (MVN / смесь гауссианов):

Заменив одномерные данные многовариантным набором данных в приведенной выше модели, мы получим многовариантные нормально распределенные данные с полной ковариационной матрицей(сигма)и средний вектор(Мю).Задача состоит в том, чтобы максимизировать функцию правдоподобия для данного набора входных данных, предполагая многомерное распределение Гаусса, pdf которого определяется какВот.

Для входных данных, которыеd-мерный,ковариационная матрица(сигма)будет иметьд * (d-1) / 2записи в верхней треугольной области вместе сdзаписи по диагонали. Оценка ковариационной матрицы будет включать в себя обучениед * (д-1) / 2 + дсвободные параметры. Оценка среднего вектора(Мю)требует учитьсяdпараметры. Таким образом, общее количество свободных параметровд * (д-1) / 2 + 2д.Модель не имеет ручки.

  • Методы обучения под наблюдением

Perceptron:

Простое восприятие - это одноклеточный нейрон, который может разделить два класса вNПространственная особенность пространства. Перцептрон является примером дискриминационного классификатора, который может моделировать граничную линию (или плоскость) между двумя классами. Функция для строки может быть записана какy = h (w’x + b).Параметры весов нейрона (ж и б) которые в суммеп + 1.Цель состоит в том, чтобы минимизировать ожидаемую ошибку классификации или потерю, которая может быть записана как-Сумма (у * журнал (ч (w'x + Ь)).Градиент функции потерь вычисляется, а веса обновляются с использованием Gradient Descent. Ручка модели являетсяскорость обучения (лр)используется в алгоритме GD.

Логистическая регрессия:

Форма логистической регрессии похожа на персептрон, т.е. она может решить проблему двух классов. Используемая функция активациисигмоидданоh (w’x + b) = 1/1 + e ^ - (w’x + b).Остальные аргументы такие же, как и выше.

Нейронная сеть:

Каждый узел в нейронной сети можно понимать как отдельную логистическую регрессию. Нейронная сеть прямой связи полностью подключена. В нейронной сети с 2 скрытыми слоями, каждый из которых содержит 5 нейронов, общее число параметров будет5 * (n + 1) + (5 * 5) + 5 * выход, Задача состоит в том, чтобы минимизировать ошибку классификации, используяперекрестная энтропияпотеря. Веса корректируются с помощью обратного переноса градиента ошибок для каждого последующего слоя от выхода до входа. Ручка или сложность модели - это количество скрытых слоев и количество единиц в каждом скрытом слое, которые являются соображениями времени проектирования наряду со скоростью обучения (если используется Gradient Descent для решения проблемы оптимизации), который является гиперпараметром.

Наивный байесовский классификатор:

NB является генеративным классификатором в отличие от вышеупомянутого. Ключевое предположение в наивном байесовском классификаторе состоит в том, что признаки являются классом условно независимым. NB классификатор работает по формуле Байеса для условной вероятности, т.е.p (класс / данные) ~ p (класс) * p (данные / класс). р (данные / класс)оценивается в соответствии с основным допущением.p (x1, x2, x3… / c) ~ p (x1 / c) * p (x2 / c) * p (x3 / c)…Нет. из. параметры, необходимые для оценкир (х / с)будет зависеть от типа объекта, т. е. категориального или числового объекта. Если функция является категориальной, то вам необходимо установить значения вероятности для всех ее уровней(Л), Нет. из. свободные параметры есть (l-1) * c… (l-1, потому что вероятности по всем уровням составляют в целом один).Если функция числовая, то вам необходимо оценить параметры базового распределения, например, среднее значение и дисперсия гауссовского расст. Таким образом, количество параметров будет варьироваться в зависимости от набора входных данных. Нет цели минимизировать или максимизировать эффект, вы можете просто рассчитать условные вероятности, установить априоры и с помощью правила Байеса классифицировать тестовые данные. Тем не менее, можно скорректировать апостериорные вероятности, чтобы более точно отразить основную истину, используя те же объективные функции, которые приведены выше, такие как потеря шарнира или потеря перекрестной энтропии. Ручка для моделирования сложности отсутствует для этого алгоритма.

K-Ближайшие соседи:

KNN - это ленивый алгоритм, т.е. он выполняет большую часть работы во время вывода, когда алгоритму представляется новая точка данных, которая должна быть классифицирована. Новая точка данных будет классифицироваться по метке класса большинства на основе ближайших точек данных в пределах порога заданного расстояния. Сложность ручки или модели - это пороговое расстояние, которое является гиперпараметром. Там нет объективной функции или параметров

Машины опорных векторов:

SVM - это особый тип дискриминационного классификатора, целью которого является максимизация границы решения между данной парой классов. Функция максимизации может быть получена с использованием векторной алгебры1/2 * || ж || м ²,где можно предположить, чтовесвектор параметров в уравненииу * (w'x-б) -1> = 0,которое является уравнением прямой (или гиперплоскости), которая может отделить данную пару классов. Нет. из. параметры должны быть решеныD + 1дляd-набор входных данных. Ручка или сложность задаются параметром стоимости (рассматривается какгаммав лит.), что позволило бы получить некоторую толерантность к ошибочным классификациям заданных значений обучающих данных, что может привести к сложным переопределению границ решений (когда нелинейныйядроИспользуется).

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map