www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Исследовательский анализ данных о связи между различными видами преступлений в Лондоне

Дата публикации May 23, 2017

Недавно я создалкартазаговоры о местонахождении 14 различных видов преступлений, зарегистрированных полицейской службой в Лондоне. Это заставило меня задуматься о том, могут ли быть определенные виды преступлений, которые с большей вероятностью совершаются вместе (то есть, если существует связь между преступлениями).

Мое первоначальное предположение состоит в том, что, поскольку мы имеем дело с преступностью, и если в районе более высокий уровень преступности, он, как правило, будет выше по всем видам преступлений, и наоборот. Тем не менее, я хотел бы глубже изучить взаимосвязь между различными видами преступлений и местом их возникновения.

Большое количество данных затрудняет простое использованиеинтерактивный сюжетЯ создан, чтобы визуально увидеть, имеют ли место некоторые преступления вместе.

Резюме данных

Данные, использованные в этом анализе, такие же, как те, которые я использовал в моих предыдущих постах, только в этот раз я заменил переменные широты и долготы для области, в которой произошли преступления, определяемой именем LSOA (супер выходной области нижнего уровня). Это потому, что меня не интересует точное место каждого преступления, а скорее область, в которой произошли различные преступления. Не вдаваясь в подробности, LSOA - это показатель переписи для небольших районов, основанный на численности населения в диапазоне от 1000 до 3000 и домохозяйств в диапазоне от 400 до 1200. Более подробную информацию можно найти наСайт Национального Архиваи наСайт Лондонского хранилища данных,

Всего в наборе данных было определено 5149 районов LSOA, в которых в 2016 году был зарегистрирован как минимум один из 14 различных видов преступлений.

метод

Во-первых, мне нужно было провести некоторый предварительный анализ с использованием основных описательных статистических данных и визуализаций, чтобы обеспечить обобщение и понимание данных, а также выявить любые закономерности и характеристики. Для наблюдения за тем, какие преступления могут совершаться вместе, я предполагаю использовать кластеризацию k-средних для группировки этих конкретных преступлений вместе. Прежде чем я смогу выполнить кластеризацию, мне нужно уменьшить размеры данных с 14 переменных (типы преступлений) до объема, который легче интерпретировать и визуализировать, при этом все еще рассматривая все виды преступлений. Для этого я решил использовать анализ основных компонентов.

Код, используемый для этого анализа, можно найти наGithub,

Часть 1: Исследовательский анализ данных

Начиная с основного резюме данных, становится очевидным, что каждый тип преступления имеет очень широкий диапазон случаев. Пять из 14 преступлений испытали первый квартиль 0, и все виды преступлений имеют максимальную ценность, которая значительно выше, чем их соответствующий третий квартиль. Это можно увидеть, составив рамочный сюжет из 14 различных видов преступлений (рисунок 1). Также ясно, что существует большое количество выбросов для каждого преступления. В результате этот рамочный график не очень полезен для визуализации распределения каждого преступления, поэтому я создал еще один (рисунок 2) без выбросов для этой цели.

Рисунок 1: Рамочный график 14 различных видов преступлений, включая все данные
Рисунок 2: Рамочный график 14 видов преступлений без выбросов

Большое количество выбросов и нулевых значений для каждого преступления трудно понять, посмотрев на рис. 1, поэтому я рассчитал значение верхнего внутреннего ограждения для каждого преступления, а затем определил, во скольких областях было зафиксировано количество инцидентов, которое упало выше соответствующего верхнего значение внутреннего забора для каждого вида преступлений (т.е. верхние выбросы). Это можно увидеть в Таблице 1 вместе с колонкой, в которой указано количество областей, в которых зарегистрировано 0 случаев по каждому виду преступлений.

Таблица 1: Список 14 видов преступлений и их соответствующих значений верхнего внутреннего забора, количество областей, в которых зафиксированы выбросы, и количество областей, в которых зафиксировано ноль инцидентов для любого конкретного вида преступления.

Сейчас это начинает давать некоторые характеристики данных и различия в распределении между 14 видами преступлений. Мы также получаем больше представления о том, насколько различия объясняются каждым преступлением. Я рассчитал дисперсию для каждого преступления, и «антисоциальное поведение» имеет наибольшую дисперсию 3437,2, в то время как наименьшее было отнесено к «обладанию оружием» со значением только 4,3. Создание гистограммы для этих двух переменных позволяет более подробно интерпретировать их распределение.

Рисунок 3: Гистограмма антисоциального поведения
Рисунок 4: Гистограмма для владения оружием

Можно видеть, что для «обладания оружием» более 4000 из 5149 районов испытали один или ноль инцидентов. Это также подтверждается в приведенной выше таблице, где мы можем сказать, что большинство из этих значений на самом деле равны нулям, поскольку «владение оружием» имеет 3022 области, в которых произошло 0 случаев.

«Антисоциальное поведение» имеет гораздо более широкое распространение в числе случаев, зарегистрированных в каждой области. Из приведенной выше таблицы видно, что «антисоциальное поведение» имело 279 областей с нулевым числом случаев, что меньше, чем число верхних выбросов (345).

Часть 2: Связь типов преступлений

Следующим шагом будет более детальное понимание данных и определенных характеристик, которые необходимо предпринять, чтобы изучить взаимосвязь между различными видами преступлений.

Можно начать с составления корреляционной матрицы для 14 видов преступлений. Даже при том, что матрица корреляции идентифицирует определенные типы преступлений, имеющих более высокую корреляцию, чем другие, трудно понять эти отношения по всем 14 преступлениям. Создание разбросанных графиков по всем 14 типам преступлений также будет трудно интерпретировать.

Таким образом, не вдаваясь в подробности, анализ основных компонентов (PCA) можно использовать для уменьшения размеров данных до меньшего числа компонентов, которые сохранят как можно большую изменчивость, выраженную исходными данными. Меньшее количество компонентов помогло бы описать взаимосвязь между исходными переменными, проецируя их на двумерную сетку, позволяющую упростить визуализацию, из которой могут быть сгруппированы сходные типы преступлений.

Результаты PCA дают 14 компонентов (равных количеству переменных), и важность компонентов может быть определена по соотношению дисперсии каждого компонента. В этом анализе первые два компонента составляют 60% и 7% дисперсии соответственно. Первый компонент значительно выше, чем остальные компоненты, и 80% общей дисперсии относится к первым 4 компонентам. Это можно визуализировать с помощью линейного графика суммарной доли дисперсии для каждого компонента (рис. 5).

Рисунок 5: Доля дисперсии, объясненная каждым отображаемым компонентом, показывающим совокупную долю дисперсии.

Этот график может помочь в определении количества компонентов, которые следует сохранить для анализа. Ясно, что первый компонент является наиболее важным компонентом, и существует очень небольшое изменение в величине дисперсии, объясненной компонентами там после, и в результате только первые два компонента должны быть сохранены для этого анализа.

Наконец, чтобы определить взаимосвязь между различными типами преступлений, для визуальной интерпретации можно использовать биплот (рисунок 6) с использованием первых двух основных компонентов. Биплот отображает векторы, представляющие каждую переменную, которые указывают от начала координат на значения, назначенные каждой переменной первыми двумя основными компонентами. Он также включает в себя значения, присвоенные двум компонентам для каждой из областей (5149) в наборе данных, однако в центре внимания этого анализа больше находится связь между векторами переменных (типы преступлений).

Рисунок 6: Биплот, представляющий значения, присвоенные переменным (типам преступлений) и точкам данных (областям) первыми двумя основными компонентами.

При интерпретации этого графика необходимо учитывать два фактора: длину векторов и угол между ними. Более длинный вектор означает, что переменная хорошо представлена ​​графиком и наоборот. Размер угла между векторами определяет соотношение переменных, которое является желаемым показателем для достижения цели этого анализа. Небольшой угол указывает на сильную положительную корреляцию, 90 градусов - отсутствие корреляции, а 180 градусов - отрицательную корреляцию.

Трудно истолковать заговор из-за перегруженности, однако ясно, что «другое преступление» выглядит немного более резко, если сравнивать его связь с другими видами преступлений. Диаграмма разброса значений первых двух компонентов, присвоенных 14 типам преступлений, может быть создана для того, чтобы лучше визуализировать взаимосвязь между другими типами преступлений из биплота. Не отображая двух очень похожих графиков, один для диаграммы рассеяния сам по себе, а затем другой только с добавлением вывода кластеризации K-средних, я только что включил последний (рисунок 7).

Рисунок 7: Диаграмма разброса, отображающая 14 различных типов преступлений вместе с их соответствующими кластерами.

Отношения между различными видами преступлений начинают становиться более очевидными благодаря этому сюжету. Помимо «другого преступления», которое уже было определено как выделение и повторяется здесь, есть два других кластера (1 и 3), в которые сгруппированы переменные. В кластерах 1 и 3 определенные виды преступлений могут быть определены, чтобы иметь более сильные отношения, чем другие. Например, в группе 1 «криминальный ущерб и поджоги», «антисоциальное поведение», «наркотики», «общественный порядок» и «насилие и сексуальные преступления» рассматриваются как тесно связанные. В то время как в кластере 3 «кража велосипедов», «кража со взломом», «грабеж» и «кража от человека» тесно связаны

Не вдаваясь в подробности анализа конкретных областей, в которых происходят эти преступления, я буду нарушать рамки этого анализа, поэтому оставлю это для другой должности, я подготовил таблицу, чтобы увидеть, в какой области произошли наибольшее количество инцидентов для каждого преступления. Это можно увидеть в Таблице 2, где есть список областей с количеством инцидентов, с которыми они столкнулись по каждому преступлению, с выделенными ячейками, представляющими самые высокие показатели, зарегистрированные для данного конкретного вида преступления.

Таблица 2: Список областей, в которых зарегистрирован самый высокий показатель по каждому виду преступлений.

Интересное наблюдение из этого состоит в том, что было две области (Вестминстер 018A и Вестминстер 013E), в каждой из которых были зафиксированы самые высокие показатели по 4 отдельным видам преступлений:

Вестминстер 018A - «антисоциальное поведение», «уголовный ущерб и поджог», «общественный порядок» и «насилие и сексуальные преступления».

Вестминстер 013E - «кража со взломом», «иная кража», «кража в магазине» и «кража от человека».

Эти преступления очень похожи на две четко различимые группы типов преступлений, которые определены как связанные друг с другом в кластерах, созданных в предыдущем сюжете.

Вывод

Цель, изложенная в начале этого поста, заключалась в том, чтобы глубже изучить различные типы преступлений, зарегистрированных в Лондоне в 2016 году, и определить, существуют ли какие-либо связи между определенными видами преступлений.

Это было проанализировано с помощью некоторых исследовательских методов анализа данных, чтобы определить характеристики данных, а затем с помощью принципа анализа компонентов, чтобы уменьшить размеры данных, чтобы можно было визуализировать отношения между определенными типами преступлений с помощью кластеризации K-средних.

Этот анализ был проведен в результате некоторого любопытства, которое я получил от моих предыдущих постов, где я изобразил географическое положение различных преступлений. Следующим шагом, о котором я уже начал думать, является изучение характеристик преступности в различных областях и определение, могут ли определенные области совершать аналогичные преступления и где они связаны друг с другом.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map