www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Сравнительный анализ алгоритмов машинного обучения

Дата публикации Oct 3, 2019

Машинное обучение - это применение искусственного интеллекта (ИИ), которое предоставляет системам возможность автоматически учиться и совершенствоваться на основе опыта без явного программирования.

Алгоритмы машинного обучения часто классифицируются как контролируемые или неконтролируемые.

Алгоритмы машинного обучения

Что такое контролируемое машинное обучение?

При обучении под наблюдением вы тренируете машину, используя данные, которые хорошо«меченый. »Это означает, что некоторые данные уже помечены с правильным ответом. Это можно сравнить с обучением, которое происходит в присутствии руководителя или учителя.

Алгоритм контролируемого обучения учится на помеченных данных обучения и помогает вам прогнозировать результаты непредвиденных данных.

В контролируемом обучении используется алгоритм для изучения функции отображения из входной переменной (x) в выходную переменную (y); то есть y = f (X).

Задача такой проблемы состоит в том, чтобы максимально точно аппроксимировать функцию отображения (f) так, чтобы при появлении новых входных данных (x) можно было прогнозировать выходную переменную (y) для набора данных.

Контролируемое обучение может быть далее разделено на 2 категории: регрессия и классификация

регрессия

В машинном обучении регрессионные алгоритмы пытаются оценить функцию отображения (f) от входных переменных (x) до числовых или непрерывных выходных переменных (y).

Например, если вам предоставляется набор данных о домах, и вас просят предсказать их цены, это задача регрессии, потому что цена будет непрерывным выходом.

классификация

С другой стороны, алгоритмы классификации пытаются оценить функцию отображения (f) из входных переменных (x) в дискретные или категориальные выходные переменные (y).

В случае набора данных о ценах на жилье, дома будут классифицироваться независимо от того, подпадают ли их цены в две отдельные категории: выше или ниже указанной цены.

Регрессия против Классификации

Основное различие между ними состоит в том, что выходная переменная в регрессии является числовой (или непрерывной), тогда как переменная для классификации является категориальной (или дискретной).

Что такое обучение без учителя?

Обучение без учителя - это метод машинного обучения, при котором вам не нужно контролировать модель. Вместо этого вам нужно позволить модели работать самостоятельно для обнаружения информации. В основном это касается немаркированных данных.

Необучаемые алгоритмы обучения позволяют выполнять более сложные задачи обработки по сравнению с контролируемым обучением.


Сегодня я сосредоточусь на проблеме регрессии (контролируемое обучение).

Набор данных, который я выбрал, можно скачать сВот

О наборе данных

База данных была создана с записями поведения городского движения города Сан-Паулу в Бразилии с 14 декабря 2009 года по 18 декабря 2009 года (с понедельника по пятницу). Регистрируется с 7:00 до 20:00 каждые 30 минут.

Импорт библиотек

Предложение: пакеты установки pip (в случае возникновения ошибки)

Получение данных

Исследование / анализ данных

Обучающий набор имеет 135 примеров и 17 функций + целевая переменная (Замедление в движении,%), 1 из функций - число с плавающей точкой, остальные 17 - целые числа.

Проверка, какие столбцы имеют значения NaN.

Мы видим, что только «Slowness in traffic (%)» имеет значения NaN. Мы должны заменить эти значения NaN.

Обсуждение: важна ли предварительная обработка данных?

Да!!!

Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на уровень успеха проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечисты.

Данные считаются нечистыми, если в них отсутствуют атрибуты, значения атрибутов, они содержат шум или выбросы, а также дублируют или ошибочные данные. Наличие любого из них ухудшит качество результатов

Предложение: не забудьте предварительно обработать набор данных перед применением модели.

Предварительная обработка данных

«Час» можно разделить на утро, полдень, полдень, вечер, ночь, которые могут быть дополнительными кодами, использующими однократное кодирование.

Мы видим, что количество столбцов значительно сократилось (с 18 до 9).

Модели машинного обучения

Теперь мы обучим несколько моделей машинного обучения и сравним их результаты.

Линейная регрессия

Предложение: постарайтесь визуализировать столько, сколько можете. Это действительно помогает в построении понимания.

Ридж / L2 Регуляризация

альфа = 0,01

альфа = 100

Лассо / Регуляризация L1

альфа = 0,01

альфа = 0,0001


Мы можем видеть, что регуляризация L1 и L2 несколько улучшила оценку R2 для некоторых значений альфа.

Полиномиальная Регрессия

Древо решений

Давайте изменим параметры и посмотрим, что будет

Случайный Лес

Нейронная сеть


Обсуждение: Какая, по вашему мнению, лучшая модель здесь ???

Какая модель лучше?

Модель полиномиальной регрессии имеет показатель R2, ближайший к 1 и наименьший MSE. Поэтому она является лучшей моделью в нашем случае.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map