www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Как получить максимум от данных машинного обучения

Дата публикации 2018-04-16

Данные, которые вы используете, и то, как вы их используете, скорее всего, определят успех вашей задачи прогнозного моделирования.

Данные и формулировка вашей проблемы могут стать основным рычагом в вашем проекте.

Выбор неправильных данных или неправильного кадрирования для вашей проблемы может привести к модели с низкой производительностью или, в худшем случае, к модели, которая не может сходиться.

Невозможно аналитически рассчитать, какие данные использовать или как их использовать, но можно использовать метод проб и ошибок, чтобы определить, как наилучшим образом использовать имеющиеся у вас данные.

В этом посте вы узнаете, как извлечь максимальную пользу из ваших данных в проекте машинного обучения.

Прочитав этот пост, вы узнаете:

  • Важность изучения альтернативных рамок вашей задачи прогнозного моделирования.
  • Необходимость разработки пакетаПросмотрыНа ваши входные данные и систематически проверять каждый.
  • Понятие, что выбор функций, разработка и подготовка - это способы создания большего количества представлений о вашей проблеме.

Давайте начнем.

обзор

Этот пост разделен на 8 частей; они есть:

  1. Постановка проблемы
  2. Соберите больше данных
  3. Изучите ваши данные
  4. Размер выборки обучающих данных
  5. Выбор функций
  6. Характеристика
  7. Подготовка данных
  8. Идти дальше

1. Постановка проблемы

Мозговой штурм несколько способов, чтобы сформулировать вашу проблему прогнозного моделирования.

Постановка задачи означает сочетание:

  • входные
  • Выходы
  • Тип проблемы

Например:

  • Можете ли вы использовать больше или меньше данных в качестве входных данных для модели?
  • Можете ли вы предсказать что-то еще вместо этого?
  • Можете ли вы изменить проблему на регрессию / классификацию / последовательность / и т. Д.?

Чем креативнее вы становитесь, тем лучше.

Используйте идеи из других проектов, статей и самого домена.

Мозговой штурм. Запишите все идеи, даже если они сумасшедшие.

У меня есть некоторые рамки, которые помогут с мозговым штурмом здесь:

Я немного расскажу об изменении типа проблемы в этом посте:

2. Соберите больше данных

Получите больше данных, чем нужно, даже данные, которые косвенно связаны с прогнозируемым результатом.

Мы не можем знатьсколько данных потребуется,

Данные - это валюта, потраченная во время разработки модели. Это кислород, необходимый проекту, чтобы дышать. Каждый раз, когда вы используете некоторые данные, их становится меньше для других задач.

Вам нужно тратить данные на такие задачи, как:

  • Модельное обучение.
  • Модель оценки.
  • Модельный тюнинг.
  • Проверка модели.

Далее проект новый. Никто не делал ваш конкретный проект раньше, смоделировал ваши конкретные данные. Вы еще не знаете, какие функции будут полезны. У вас могут быть идеи, но вы не знаете. Собери их всех; сделайте их доступными на этом этапе.

3. Изучите ваши данные

Используйте каждую визуализацию данных, о которой вы только можете подумать, чтобы посмотреть на свои данные со всех сторон.

  • Глядя на необработанные данные помогает. Вы заметите вещи.
  • Глядя на сводную статистику помогает. Опять вы заметите вещи.
  • Визуализация данных - это прекрасное сочетание этих двух способов обучения. Вы заметите намного больше вещей.

Потратьте много времени на ваши необработанные данные и сводную статистику. Затем перейдите к последним визуализациям, так как они могут занять больше времени для подготовки.

Используйте каждую визуализацию данных, которую вы можете придумать и почерпнуть из книг и статей о ваших данных.

  • Обзор сюжетов.
  • Сохранить участки.
  • Аннотировать участки.
  • Показать графики для экспертов домена.

Вы ищете немного больше информации о данных. Идеи, которые вы можете использовать для лучшего выбора, проектирования и подготовки данных для моделирования. Это окупится.

4. Размер выборки обучающих данных

Выполните анализ чувствительности с вашей выборкой данных, чтобы увидеть, сколько (или мало) данных вам действительно нужно.

У вас нет всех наблюдений. Если бы вы это сделали, вам не нужно было бы делать прогнозы для новых данных.

Вместо этого вы работаете с образцом данных. Таким образом, остается открытым вопрос о том, сколько данных потребуется для соответствия модели.

Не думайте, что чем больше, тем лучше. Тестовое задание.

  • Планируйте эксперименты, чтобы увидеть, как навыки модели изменяются с размером выборки.
  • Используйте статистику, чтобы увидеть, как важные тренды и тенденции меняются в зависимости от размера выборки.

Без этих знаний вы не будете знать достаточно о своем тестовом жгуте, чтобы разумно прокомментировать навыки модели.

Узнайте больше о размере выборки в этом посте:

5. Выбор функций

Создайте много разных видов ваших входных функций и протестируйте каждый из них.

Вы не знаете, какие переменные будут полезны или наиболее полезны в вашей задаче прогнозного моделирования.

  • Вы можете догадаться.
  • Вы можете воспользоваться советами экспертов по предметной области.
  • Вы даже можете использовать предложения из методов выбора функций.

Но они все только догадки

Каждый набор предлагаемых функций ввода представляет собой «представление» о вашей проблеме. Идея о том, какие функции могут быть полезны для моделирования и прогнозирования выходной переменной.

Проведите мозговой штурм, вычислите и соберите как можно больше разных видов ваших входных данных.

Проектируйте эксперименты и тщательно проверяйте и сравнивайте каждый вид. Используйте данные, чтобы сообщить вам, какие функции и какой вид наиболее предсказуемы.

Подробнее о выборе функций читайте в этом посте:

6. Особенности разработки

Используйте конструкцию объектов для создания дополнительных функций и представлений о проблеме прогнозирующего моделирования.

Иногда у вас есть все данные, которые вы можете получить, но данная функция или набор функций блокирует знания, которые слишком плотны для обучения машинным методам, и сопоставляют их с конечной переменной.

Примеры включают в себя:

  • Дата / время.
  • Сделки.
  • Описания.

Разбейте эти данные на более простые дополнительные компоненты, такие как счетчики, флаги и другие элементы.

Сделайте все как можно проще для процесса моделирования.

Для получения дополнительной информации о разработке функций см. Пост:

7. Подготовка данных

Предварительно обрабатывайте данные всеми возможными способами, чтобы соответствовать ожиданиям алгоритмов и многому другому.

Предварительная обработка данных, таких как выбор функций и разработка функций, создает дополнительные представления для ваших входных функций.

Некоторые алгоритмы имеют предпочтения относительно предварительной обработки, такие как:

  • Нормализованные функции ввода.
  • Стандартизированные функции ввода.
  • Сделать входные функции стационарными.

Подготовьте данные в ожидании этих ожиданий, но затем идите дальше.

Примените каждый метод предварительной обработки данных, который вы можете использовать в своих данных. Продолжайте создавать новые взгляды на вашу проблему и тестируйте их с помощью одной или нескольких моделей, чтобы увидеть, что работает лучше всего.

Ваша цель здесь состоит в том, чтобы открыть представление о данных, которое лучше всего раскрывает неизвестную основную структуру проблемы отображения в алгоритме обучения.

8. Идти дальше

Вы всегда можете пойти дальше.

Как правило, вы можете собирать больше данных, больше просмотров вы можете создавать для своих данных.

Мозговой штурм.

Одна легкая победа, когда вы почувствуете, что находитесь в конце пути, - это начать исследовать ансамбли моделей, созданных на основе разных представлений о вашей проблеме моделирования.

Это просто и очень эффективно, особенно если представления показывают различные структуры основной проблемы отображения (например, модели имеют некоррелированные ошибки).

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

Резюме

В этом посте вы узнали о методах, которые вы можете использовать для получения максимальной отдачи от ваших данных по проблеме прогнозного моделирования.

В частности, вы узнали:

  • Важность изучения альтернативных рамок вашей задачи прогнозного моделирования.
  • Необходимость разработки набора «представлений» о ваших входных данных и систематического тестирования каждого из них.
  • Понятие, что выбор функций, разработка и подготовка - это способы создания большего количества представлений о вашей проблеме.

Есть ли у вас еще какие-то идеи для получения максимальной отдачи от ваших данных?
Что вы обычно делаете в проекте?
Позвольте мне знать в комментариях ниже.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map