www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Введение в машинное обучение: под наблюдением против без присмотра (часть 1)

Дата публикации May 31, 2017

Машинное обучение является основной движущей силой недавнего ускорения развития технологий. Это позволяет программам продолжать становиться «умнее» и эффективнее за счет анализа наборов данных. Проще говоря, машинное обучение - это процесс обнаружения паттернов, скрытых в больших наборах данных, и использования этого паттерна для выполнения функции. Для меня машинное обучение сыграет значительную роль в развитии моего предприятия, и поэтому я (медленно) прорабатываю онлайн-курс по основам машинного обучения, который преподаёт Эндрю Нг, профессор Стэнфордского университета. Этот пост в блоге суммирует то, что я узнал до сих пор, в основном проводя разграничение между двумя основными типами машинного обучения: контролируемое и неконтролируемое обучение.

"Машинное обучение"

Контролируемое обучение

Контролируемое обучение - это обучение, которое выполняется с использованием помеченных точек данных. Другими словами, параметры предопределены, и алгоритм знает, что он ищет связи между предопределенными параметрами. Обучающие данные, используемые алгоритмом, уже имеют достаточно деталей и меток, которые позволяют алгоритму использовать позиции точек данных, чтобы вывести связь между несколькими переменными. Давайте рассмотрим пример:

Контролируемое обучение - регресс

Предположим, у вас есть набор данных о ценах на аренду квартир в Нью-Йорке. Каждая квартира имеет атрибут ежемесячной арендной платы и квадратных метров. Следовательно, набор данных будет выглядеть примерно так:

P = Ежемесячная арендная плата A = Квадратный фут

На основании вышеизложенного алгоритм машинного обучения будет анализировать позиции каждой точки данных и генерировать прогнозную функцию, которая может точно определять цену квартиры на основе ее площади в квадратных футах. Функция может быть представлена ​​сплошной линией ниже.

Линия представляет реляционную функцию между Квадратными Съемками и Ежемесячной Рентой

На основе прогнозирующей функции алгоритм теперь сможет оценивать цену квартиры на основе ее площади в квадратных метрах. Так, где обучение входит в игру? По мере сдачи в аренду большего количества квартир контролируемая учебная платформа будет добавлять больше «реальных» точек данных к графику, а алгоритм машинного обучения будет обновлять и изменять функцию, соответственно отражая положения новых точек данных. Следовательно, по мере сдачи в аренду большего количества квартир алгоритм будет анализировать больше данных в реальном времени, что сделает алгоритм прогнозирования более точным. Вышеупомянутый пример является формой инструмента регрессии контролируемого обучения. Другой вариант контролируемого обучения - это метод классификации, в котором существует ограниченное количество классов (да или нет).

Контролируемое обучение - классификация

Классификация контролируемого обучения относится к точкам данных, которые принадлежат к конечному количеству категорий. Позвольте мне пояснить это на примере. Исследование, которое требует метода обучения под наблюдением классификации, определяет, является ли опухоль злокачественной или доброкачественной. Поскольку два значения параметра для атрибута опухоли являются дискретными (злокачественные или доброкачественные), опухоль может быть классифицирована только с конечным набором значений. Итак, предположим, у вас есть набор точек данных для опухолей с переменными возраста, размера и состояния (злокачественные или доброкачественные). График набора данных может выглядеть следующим образом.

Х = Доброкачественная; O = злокачественная

Алгоритм контролируемого обучения будет анализировать данные точки и вычислять вероятность того, что опухоль данного размера и возраста будет доброкачественной или злокачественной. Простой алгоритм будет разбивать данные в точке существенности и использовать их в качестве параметра вероятности. Например, простой алгоритм разделил бы данные на две части, как показано ниже.

Линия представляет разделительную плоскость для набора данных

Предположим, треугольник - новый пациент, и доктор хочет предсказать, будет ли опухоль этого пациента злокачественной или доброкачественной. Используя приведенный выше классификационный алгоритм обучения под наблюдением, результаты позволят определить, что вероятность возникновения злокачественной опухоли составляет около 20%, а изменения доброкачественности - 80%. Задача классификации может иметь более двух классов, но единственным ограничением является то, что количество классов должно быть конечным.

Вывод

Контролируемое обучение является одним из более инновационных способов манипулирования данными, особенно в экономике, где данные являются ключевыми факторами. Однако контролируемое обучение имеет свои ограничения, в основном из-за того, что используемые точки данных должны иметь предопределенные явные атрибуты. Для набора неоднозначных точек данных без предопределенных отношений контролируемое обучение будет очень неточным. К счастью, именно здесь осуществляется обучение без учителя, о котором я расскажу подробнее в следующем посте.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map