1 of 41

Автомобильные аварии

в Москве

ПАНДЫ

Амелия Алаева�Филипп Бельдюшкин�Елизавета Сычёва�Татьяна Краснопивцева�Александр Скворцов

DANO: олимпиада по анализу данных

2 of 41

Исследовательский вопрос

Какие территории Москвы наиболее опасны для пешеходов и почему?

3 of 41

Summary

Разведывательный анализ (EDA)

Гипотеза

Отбор и кластеризация ДТП по координатам

Анализ существенных кластеров

Подтверждение гипотезы

Рекомендации для реальных кейсов и перспективы

4 of 41

Предварительное

изучение датасета

5 of 41

Датасет

Данные об автомобильных авариях в Москве за 2020 год, взятые с сайта ГИБДД

Всего - 7964 ДТП

Ограничения для результатов:

смещение в сторону более тяжелых аварий
евклидово расстояние

Все аварии на карте Москвы

6 of 41

Переменные

Основные категории переменных:

Место ДТП
Условия ДТП
Нарушения участников перед ДТП
Последствия ДТП

7 of 41

Переменные

Особенность базы данных:

много качественных переменных, мало количественных
маленький диапазон числовых метрик (Например, NFatal = [0;3], NVehicles = [1;8])

8 of 41

Тип ДТП

Столкновение

Наезд на пешехода

Наезд на препятствие

10%

20%

30%

40%

Наезд на велосипедиста

Другие

9 of 41

Можно ли пешеходу находиться на этом участке дороги?

20%

40%

60%

Запрещено

Разрешено

10 of 41

Объекты рядом

10%

20%

30%

Остановка общественного транспорта

Административные здания

Многоквартирные жилые дома

Крупные ТЦ

Другие объекты

11 of 41

Гипотеза и причинно-следственная цепочка

12 of 41

Гипотеза

Наиболее опасны точки общественного притяжения, рядом с которыми нет мест, оборудованных для безопасного движения пешеходов

13 of 41

Причинно-следственная цепочка

Чтобы попасть в место общественного притяжения, нужно пересечь улицу

Пешеход вынужден пересекать дорогу в запрещенном для него месте

Случается ДТП

В некоторых случаях условия для перехода улицы отсутствуют

14 of 41

Проверка гипотезы

15 of 41

План проверки гипотезы

Выбор дорожно-транспортных происшествий для исследования
Кластеризация выбранных ДТП по координатам
Выбор существенных кластеров для исследования
Анализ ДТП по кластерам

16 of 41

Отбор ДТП для исследования

Тип ДТП = Наезд на пешехода
Условия места ДТП = Запрещено для пешехода�(Перегон, АЗС и т.д.)

Всего исследовано: 475 ДТП из 7964

Среднее количество участников: 2

Среднее количество пострадавших: 0.9

Среднее количество фатальных случаев: 0.13

17 of 41

Кластеризация ДТП по координатам

Деление по районам и округам:

условное
проблема аварий “на стыке”

Кластеризация по координатам:

позволяет увидеть места скопления ДТП

Поиск места стоянок такси в Йоханнесбурге

Пример использования гео-кластеризации для поиска места для стоянки такси

18 of 41

K-Means

model = cluster.KMeans�N_clusters = 26

Init = k-means++, default = k-means++�N_init = 10, default = 10

Max_iter = 300, default = 300

Метод локтя

Широта

олгота

19 of 41

Affinity Propagation

model = cluster.AffinityPropagation�Clustering k = 26�Affinity = euclidean, default = euclidean�max_iter = 1000, default = 200�Convergence iter = 15, default = 15

Широта

олгота

20 of 41

Схожесть независимых моделей

Affinity Propagation и K-Means - 88.5%

Широта

олгота

Широта

олгота

21 of 41

Выбор существенных кластеров

Топ-4 кластера:

22 of 41

Выбор существенных кластеров

Все наезды на пешеходов

Топ-4 кластера

23 of 41

Анализ существенных кластеров

Объекты рядом с местами ДТП (в опасных кластерах)

Остановка общественного транспорта -�49,4 %

Административные здания

АЗС

Прочее

Отсутствие объектов

Крупный торговый объект

24 of 41

Подтверждение гипотезы

Самый частый случай - остановка общественного транспорта

25 of 41

Разработка рекомендаций

26 of 41