Дата публикации Oct 3, 2019
Машинное обучение - это применение искусственного интеллекта (ИИ), которое предоставляет системам возможность автоматически учиться и совершенствоваться на основе опыта без явного программирования.
Алгоритмы машинного обучения часто классифицируются как контролируемые или неконтролируемые.
При обучении под наблюдением вы тренируете машину, используя данные, которые хорошо«меченый. »Это означает, что некоторые данные уже помечены с правильным ответом. Это можно сравнить с обучением, которое происходит в присутствии руководителя или учителя.
Алгоритм контролируемого обучения учится на помеченных данных обучения и помогает вам прогнозировать результаты непредвиденных данных.
В контролируемом обучении используется алгоритм для изучения функции отображения из входной переменной (x) в выходную переменную (y); то есть y = f (X).
Задача такой проблемы состоит в том, чтобы максимально точно аппроксимировать функцию отображения (f) так, чтобы при появлении новых входных данных (x) можно было прогнозировать выходную переменную (y) для набора данных.
Контролируемое обучение может быть далее разделено на 2 категории: регрессия и классификация
В машинном обучении регрессионные алгоритмы пытаются оценить функцию отображения (f) от входных переменных (x) до числовых или непрерывных выходных переменных (y).
Например, если вам предоставляется набор данных о домах, и вас просят предсказать их цены, это задача регрессии, потому что цена будет непрерывным выходом.
С другой стороны, алгоритмы классификации пытаются оценить функцию отображения (f) из входных переменных (x) в дискретные или категориальные выходные переменные (y).
В случае набора данных о ценах на жилье, дома будут классифицироваться независимо от того, подпадают ли их цены в две отдельные категории: выше или ниже указанной цены.
Основное различие между ними состоит в том, что выходная переменная в регрессии является числовой (или непрерывной), тогда как переменная для классификации является категориальной (или дискретной).
Обучение без учителя - это метод машинного обучения, при котором вам не нужно контролировать модель. Вместо этого вам нужно позволить модели работать самостоятельно для обнаружения информации. В основном это касается немаркированных данных.
Необучаемые алгоритмы обучения позволяют выполнять более сложные задачи обработки по сравнению с контролируемым обучением.
Сегодня я сосредоточусь на проблеме регрессии (контролируемое обучение).
Набор данных, который я выбрал, можно скачать сВот
База данных была создана с записями поведения городского движения города Сан-Паулу в Бразилии с 14 декабря 2009 года по 18 декабря 2009 года (с понедельника по пятницу). Регистрируется с 7:00 до 20:00 каждые 30 минут.
Предложение: пакеты установки pip (в случае возникновения ошибки)
Обучающий набор имеет 135 примеров и 17 функций + целевая переменная (Замедление в движении,%), 1 из функций - число с плавающей точкой, остальные 17 - целые числа.
Проверка, какие столбцы имеют значения NaN.
Мы видим, что только «Slowness in traffic (%)» имеет значения NaN. Мы должны заменить эти значения NaN.
Обсуждение: важна ли предварительная обработка данных?
Да!!!
Предварительная обработка данных имеет решающее значение в любом процессе интеллектуального анализа данных, поскольку они напрямую влияют на уровень успеха проекта. Это снижает сложность анализируемых данных, поскольку данные в реальном мире нечисты.
Данные считаются нечистыми, если в них отсутствуют атрибуты, значения атрибутов, они содержат шум или выбросы, а также дублируют или ошибочные данные. Наличие любого из них ухудшит качество результатов
Предложение: не забудьте предварительно обработать набор данных перед применением модели.
«Час» можно разделить на утро, полдень, полдень, вечер, ночь, которые могут быть дополнительными кодами, использующими однократное кодирование.
Мы видим, что количество столбцов значительно сократилось (с 18 до 9).
Теперь мы обучим несколько моделей машинного обучения и сравним их результаты.
Предложение: постарайтесь визуализировать столько, сколько можете. Это действительно помогает в построении понимания.
альфа = 0,01
альфа = 100
альфа = 0,01
альфа = 0,0001
Мы можем видеть, что регуляризация L1 и L2 несколько улучшила оценку R2 для некоторых значений альфа.
Давайте изменим параметры и посмотрим, что будет
Обсуждение: Какая, по вашему мнению, лучшая модель здесь ???
Модель полиномиальной регрессии имеет показатель R2, ближайший к 1 и наименьший MSE. Поэтому она является лучшей моделью в нашем случае.
© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map