www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Утро, день или ночь? Кластеризация часов недели с использованием подхода, основанного на данных.

Дата публикации Mar 25, 2017

В Lawfty наша главная цель заключается в том, чтобы вести соответствующие дела к нашим партнерским юридическим фирмам, используя лучшее распределение нашего рекламного бюджета. Команда специалистов в области данных вносит свой вклад в эту задачу, оптимизируя наши ставки AdWords таким образом, чтобы максимально увеличить количество запросов, которые мы получаем, оставаясь в рамках нашего бюджета. В этом посте я собираюсь кратко представить эту проблему и подробно обсудить одну часть решения: почему мы группируем часы дня / недели, используя исторические данные.

Одним из центральных проектов для команды специалистов по науке данных является создание наилучшей модели для прогнозирования расходов на рекламу в зависимости от ставки. Ставка является одной из наиболее важных независимых переменных, которые мы можем контролировать в этой модели. Установите слишком высокую ставку, и мы просочимся в наш ежемесячный бюджет слишком быстро и пропустим потенциальных клиентов позже в этом месяце. Установите слишком низкую ставку, и мы не сможем показывать наши объявления в достаточной степени, чтобы получать желаемое количество запросов для отправки нашим фирмам-партнерам.

При определении ставок мы делаем это на почасовом уровне для каждой недели. Таким образом, при построении модели в модели будут добавлены 168 категориальных переменных для учета каждого из часов недели. Это нежелательно по ряду причин. Наличие такого количества переменных в модели делает ее менее понятной. Наличие такого количества категориальных переменных в модели означает, что матрица проектирования для обучения будет иметь большое количество нулей, которые необходимо переносить для вычислений. Более того, в каждой категории должно быть достаточно данных для обучения и проверки модели. Во время обучения в USF у меня был профессор, который одобрил:скупость«Сложность при построении регрессионных моделей. На этой ноте давайте обсудим подход, который использовала команда специалистов по науке данных в Lawfty, чтобы уменьшить сложность нашей модели назначения ставок.

Я начну с описания формата данных, которые мы используем для обучения и проверки модели. Тогда я буду обсуждать, как мы используемKMeansалгоритм кластеризации, чтобы уменьшить количество категориальных переменных, которые мы используем в модели. Чтобы завершить пост, я покажу некоторые графики нормализованных данных до и после кластеризации, чтобы дать некоторую визуальную интуицию о том, почему это работает.


Основными числовыми функциями, на которых мы обучаем модель, являются стоимость, клики и показы. Детальность данных на часовом уровне. Мы берем эти необработанные данные и добавляем метку для одного из 168 часов недели по формулеday_of_week * 24 + hour_of_day, Теперь, чтобы сгруппировать часы вместе, почему бы не просто сгруппировать их в соответствии с «утром», «днем», «ночью»? Это похоже на естественную группировку, но основано наанализМы знаем, что определенные часы недели имеют сходное поведение с точки зрения стоимости, кликов и показов. Итак, мы используемKMeansалгоритм кластеризации, чтобы найти лучший способ сгруппировать часы недели вместе, чтобы мы могли уменьшить количество категориальных переменных с 168 до некоторого меньшего числаК, Обратите внимание, что для определения количества кластеровКмы проводим перекрестную проверку прогнозируемой еженедельной стоимости для группыК-значения от истинной еженедельной стоимости и выберитеКэто дает минимальную среднюю абсолютную ошибку. Мы используем этот метод вместо теоретических методов, таких каклокотьа такжеразрывпотому что это дает нам более ориентированный на бизнес способ измерения успеха модели.

Теперь, когда мы представили, как мы используем KMeans для уменьшения количества категориальных переменных в нашей модели, группируя часы недели, которые ведут себя одинаково, давайте рассмотрим некоторые графики этого метода в действии, чтобы получить некоторую визуальную интуицию происходящего.

Рассмотрим следующий сюжет.

Это наши числовые данные, агрегированные по часам недели, всего 168 точек данных. Используя метод, упомянутый выше, мы обнаружили, что для этого конкретного рынка 12 кластеров дали минимальную среднюю абсолютную прогнозируемую погрешность затрат.

Теперь, есть основополагающая циклическая природа к часам недели. Они оборачиваются, так сказать. Воскресенье в 12 часов утра «близко» к субботе в 11 часов вечера. Итак, предположим, что мы также добавили отображение часов недели в круг единиц. Видетьэтоилиэтопост для справки. Результат дает нам следующий сюжет.

Мы можем видеть, что есть несколько часов недели, которые имеют более высокую стоимость, и аналогично есть часы недели, которые имеют более низкую стоимость. Создание аналогичных графиков с помощью кликов и показов по оси Z дает аналогичные результаты. Некоторые часы недели ведут себя не так, как другие. Это то, что мы надеемся зафиксировать с помощью кластеризации часов.


Теперь, когда у нас есть кластеризация часов, мы можем создать регрессионные модели, используя эти часовые кластеры в качестве категориальных переменных в модели. Мы сократили размерность пространства объектов с 167+ (часы недели плюс любые другие числовые / категориальные функции) до 3+ (метки часовых кластеров и другие функции). Это позволяет нам создавать более надежные модели, потому что теперь у нас гораздо больше точек данных при агрегировании до 3-х часовых кластеров, а не каждый час недели в отдельной категории.


В настоящее время мы все еще работаем с алгоритмами, основанными на показателях, основанных на объеме, которые использовались выше. Тем не менее, мы провели анализ, который привел нас к убеждению, что добавление дополнительных показателей, основанных на стоимости. Следите за обновлениями поста, когда мы реализовали эти новые дополнения.

В то же время, не стесняйтесь найти нас наfacebook,LinkedIn, и нашдомашняя страница,


Lawfty разрабатывает технологию, которая превращает цифровую рекламу для юристов и юридических фирм в науку. Благодаря поисковому маркетингу и социальным сетям наша технологическая платформа прокладывает путь следующему поколению успешных адвокатов по травмам и массовым правонарушениям.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map