Автомобильные аварии
в Москве
ПАНДЫ
1
Амелия Алаева�Филипп Бельдюшкин�Елизавета Сычёва�Татьяна Краснопивцева�Александр Скворцов
DANO: олимпиада по анализу данных
Исследовательский вопрос
Какие территории Москвы наиболее опасны для пешеходов и почему?
2
Summary
Разведывательный анализ (EDA)
Гипотеза
Отбор и кластеризация ДТП по координатам
Анализ существенных кластеров
Подтверждение гипотезы
Рекомендации для реальных кейсов и перспективы
3
Предварительное
изучение датасета
4
Датасет
Данные об автомобильных авариях в Москве за 2020 год, взятые с сайта ГИБДД
Всего - 7964 ДТП
Ограничения для результатов:
5
Все аварии на карте Москвы
Переменные
Основные категории переменных:
6
Переменные
Особенность базы данных:
7
Тип ДТП
8
0%
Столкновение
Наезд на пешехода
Наезд на препятствие
10%
20%
30%
40%
Наезд на велосипедиста
Другие
Можно ли пешеходу находиться на этом участке дороги?
9
0%
20%
40%
60%
Запрещено
Разрешено
Объекты рядом
10
0%
10%
20%
30%
Остановка общественного транспорта
Административные здания
Многоквартирные жилые дома
Крупные ТЦ
Другие объекты
Гипотеза и причинно-следственная цепочка
11
Гипотеза
12
Наиболее опасны точки общественного притяжения, рядом с которыми нет мест, оборудованных для безопасного движения пешеходов
Причинно-следственная цепочка
13
Чтобы попасть в место общественного притяжения, нужно пересечь улицу
Пешеход вынужден пересекать дорогу в запрещенном для него месте
Случается ДТП
В некоторых случаях условия для перехода улицы отсутствуют
Проверка гипотезы
14
План проверки гипотезы
15
Отбор ДТП для исследования
Всего исследовано: 475 ДТП из 7964
Среднее количество участников: 2
Среднее количество пострадавших: 0.9
Среднее количество фатальных случаев: 0.13
16
Кластеризация ДТП по координатам
17
Деление по районам и округам:
Кластеризация по координатам:
Поиск места стоянок такси в Йоханнесбурге
K-Means
18
model = cluster.KMeans�N_clusters = 26
Init = k-means++, default = k-means++�N_init = 10, default = 10
Max_iter = 300, default = 300
Метод локтя
Широта
Д
олгота
Affinity Propagation
19
model = cluster.AffinityPropagation�Clustering k = 26�Affinity = euclidean, default = euclidean�max_iter = 1000, default = 200�Convergence iter = 15, default = 15
Широта
Д
олгота
Схожесть независимых моделей
20
Affinity Propagation и K-Means - 88.5%
Широта
Д
олгота
Широта
Д
олгота
Выбор существенных кластеров
21
Топ-4 кластера:
Выбор существенных кластеров
22
Все наезды на пешеходов
Топ-4 кластера
Анализ существенных кластеров
23
Объекты рядом с местами ДТП (в опасных кластерах)
Остановка общественного транспорта -�49,4 %
Административные здания
АЗС
Прочее
Отсутствие объектов
Крупный торговый объект
Подтверждение гипотезы
Наиболее опасны точки общественного притяжения, рядом с которыми нет мест, оборудованных для безопасного движения пешеходов
24
Самый частый случай - остановка общественного транспорта
Разработка рекомендаций
25
Как сократить участие пешеходов в ДТП?
26
55°39'58.2"N 37°25'35.2"E
Домостроительная ул., 1
Как сократить участие пешеходов в ДТП?
27
55°53'08.1"N 37°40'22.3"E
VMPF+64Q р-н Северное Медведково
Как сократить участие пешеходов в ДТП?
28
55°37'18.7"N 37°42'42.5"E
Каширское шоссе
Как сократить участие пешеходов в ДТП?
29
55°35'44.3"N 37°36'10.7"E
р-н Чертаново Южное
Как сократить участие пешеходов в ДТП?
30
55°52'12.4"N 37°39'36.4"E
ул. Менжинского
Подведение итогов исследования
31
Выводы и результаты
Вывод:
Проведенные исследования подтвердили гипотезу о том, что существуют опасные для пешеходов места, в которых часто происходят ДТП с их участием. Мы выяснили, что в большинстве случаев это остановки общественного транспорта
Практический результат:
Предложены рекомендации по повышению безопасности пешеходов в конкретных 5 местах Москвы
32
Дальнейшее применение исследования
33
Другие возможные проекты
Нужны данные о времени смерти и о расположении близлежащих пунктов скорой помощи
Нужны данные по предыдущим годам
34
Спасибо за внимание!
35
Материалы проекта
Код проекта: https://drive.google.com/drive/folders/1g43UWvFsEUSJ3diDvvNDd-xSdTfGYhzm?usp=sharing
Используемая литература и tools:
https://towardsdatascience.com/clustering-geospatial-data-f0584f0b04ec
36
Линейная регрессия
37
Линейный регрессионный анализ ДТП где были пострадавшие показал наличие зависимости только между:
- количеством участников ДТП и количеством пострадавших
- количеством участников и автомобилей
Количественными переменные:
NInjured - число пострадавших
NFatal - число погибших
NVehicles - число автомобилей-участников
NPatricipants - число людей-участников
Количество участников ДТП и количество пострадавших
Количество участников и автомобилей
Корреляционный анализ данных
38
t-тест
39
Условие | p-value |
Плохая погода | 0.168 |
Плохое покрытие | 0.1 |
Выходные дни | 0.012 |
Будние дни | 0.021 |
Прогнозирование пробок с помощью Логической регрессии
Метрики, влияющие на возникновение пробок: okrug, additionalFactor, lightConditions, weatherConditions, closeObjects, pokritie, placeConditions
40
has_traffic_jam = 1 (пробка)
has_traffic_jam = 0 (нет)
Прогнозирование пробок с помощью
Random Forest
41