1 of 41

Автомобильные аварии

в Москве

ПАНДЫ

1

Амелия Алаева�Филипп Бельдюшкин�Елизавета Сычёва�Татьяна Краснопивцева�Александр Скворцов

DANO: олимпиада по анализу данных

2 of 41

Исследовательский вопрос

Какие территории Москвы наиболее опасны для пешеходов и почему?

2

3 of 41

Summary

Разведывательный анализ (EDA)

Гипотеза

Отбор и кластеризация ДТП по координатам

Анализ существенных кластеров

Подтверждение гипотезы

Рекомендации для реальных кейсов и перспективы

3

4 of 41

Предварительное

изучение датасета

4

5 of 41

Датасет

Данные об автомобильных авариях в Москве за 2020 год, взятые с сайта ГИБДД

Всего - 7964 ДТП

Ограничения для результатов:

  • смещение в сторону более тяжелых аварий
  • евклидово расстояние

5

Все аварии на карте Москвы

6 of 41

Переменные

Основные категории переменных:

  1. Место ДТП
  2. Условия ДТП
  3. Нарушения участников перед ДТП
  4. Последствия ДТП

6

7 of 41

Переменные

Особенность базы данных:

  • много качественных переменных, мало количественных
  • маленький диапазон числовых метрик (Например, NFatal = [0;3], NVehicles = [1;8])

7

8 of 41

Тип ДТП

8

0%

Столкновение

Наезд на пешехода

Наезд на препятствие

10%

20%

30%

40%

Наезд на велосипедиста

Другие

9 of 41

Можно ли пешеходу находиться на этом участке дороги?

9

0%

20%

40%

60%

Запрещено

Разрешено

10 of 41

Объекты рядом

10

0%

10%

20%

30%

Остановка общественного транспорта

Административные здания

Многоквартирные жилые дома

Крупные ТЦ

Другие объекты

11 of 41

Гипотеза и причинно-следственная цепочка

11

12 of 41

Гипотеза

12

Наиболее опасны точки общественного притяжения, рядом с которыми нет мест, оборудованных для безопасного движения пешеходов

13 of 41

Причинно-следственная цепочка

13

Чтобы попасть в место общественного притяжения, нужно пересечь улицу

Пешеход вынужден пересекать дорогу в запрещенном для него месте

Случается ДТП

В некоторых случаях условия для перехода улицы отсутствуют

14 of 41

Проверка гипотезы

14

15 of 41

План проверки гипотезы

  1. Выбор дорожно-транспортных происшествий для исследования
  2. Кластеризация выбранных ДТП по координатам
  3. Выбор существенных кластеров для исследования
  4. Анализ ДТП по кластерам

15

16 of 41

Отбор ДТП для исследования

  1. Тип ДТП = Наезд на пешехода
  2. Условия места ДТП = Запрещено для пешехода�(Перегон, АЗС и т.д.)

Всего исследовано: 475 ДТП из 7964

Среднее количество участников: 2

Среднее количество пострадавших: 0.9

Среднее количество фатальных случаев: 0.13

16

17 of 41

Кластеризация ДТП по координатам

17

Деление по районам и округам:

  • условное
  • проблема аварий “на стыке”

Кластеризация по координатам:

  • позволяет увидеть места скопления ДТП

Поиск места стоянок такси в Йоханнесбурге

18 of 41

K-Means

18

model = cluster.KMeans�N_clusters = 26

Init = k-means++, default = k-means++N_init = 10, default = 10

Max_iter = 300, default = 300

Метод локтя

Широта

Д

олгота

19 of 41

Affinity Propagation

19

model = cluster.AffinityPropagation�Clustering k = 26�Affinity = euclidean, default = euclidean�max_iter = 1000, default = 200�Convergence iter = 15, default = 15

Широта

Д

олгота

20 of 41

Схожесть независимых моделей

20

Affinity Propagation и K-Means - 88.5%

Широта

Д

олгота

Широта

Д

олгота

21 of 41

Выбор существенных кластеров

21

Топ-4 кластера:

22 of 41

Выбор существенных кластеров

22

Все наезды на пешеходов

Топ-4 кластера

23 of 41

Анализ существенных кластеров

23

Объекты рядом с местами ДТП (в опасных кластерах)

Остановка общественного транспорта -�49,4 %

Административные здания

АЗС

Прочее

Отсутствие объектов

Крупный торговый объект

24 of 41

Подтверждение гипотезы

Наиболее опасны точки общественного притяжения, рядом с которыми нет мест, оборудованных для безопасного движения пешеходов

24

Самый частый случай - остановка общественного транспорта

25 of 41

Разработка рекомендаций

25

26 of 41

Как сократить участие пешеходов в ДТП?

26

55°39'58.2"N 37°25'35.2"E

Домостроительная ул., 1

27 of 41

Как сократить участие пешеходов в ДТП?

27

55°53'08.1"N 37°40'22.3"E

VMPF+64Q р-н Северное Медведково

28 of 41

Как сократить участие пешеходов в ДТП?

28

55°37'18.7"N 37°42'42.5"E

Каширское шоссе

29 of 41

Как сократить участие пешеходов в ДТП?

29

55°35'44.3"N 37°36'10.7"E

р-н Чертаново Южное

30 of 41

Как сократить участие пешеходов в ДТП?

30

55°52'12.4"N 37°39'36.4"E

ул. Менжинского

31 of 41

Подведение итогов исследования

31

32 of 41

Выводы и результаты

Вывод:

Проведенные исследования подтвердили гипотезу о том, что существуют опасные для пешеходов места, в которых часто происходят ДТП с их участием. Мы выяснили, что в большинстве случаев это остановки общественного транспорта

Практический результат:

Предложены рекомендации по повышению безопасности пешеходов в конкретных 5 местах Москвы

32

33 of 41

Дальнейшее применение исследования

  • Использовать геокластеризацию для выявления опасных для пешеходов мест по прошествии времени

  • Разработать рекомендации по улучшению ситуации для определенных участков Москвы

  • Использовать геокластеризацию для выявления опасных для пешеходов мест в других городах мира

33

34 of 41

Другие возможные проекты

  • Исследовать правило золотого часа:

Нужны данные о времени смерти и о расположении близлежащих пунктов скорой помощи

  • Как менялись причины аварий в течение X лет?

Нужны данные по предыдущим годам

34

35 of 41

Спасибо за внимание!

35

36 of 41

Материалы проекта

36

37 of 41

Линейная регрессия

37

Линейный регрессионный анализ ДТП где были пострадавшие показал наличие зависимости только между:

- количеством участников ДТП и количеством пострадавших

- количеством участников и автомобилей

Количественными переменные:

NInjured - число пострадавших

NFatal - число погибших

NVehicles - число автомобилей-участников

NPatricipants - число людей-участников

Количество участников ДТП и количество пострадавших

Количество участников и автомобилей

38 of 41

Корреляционный анализ данных

38

39 of 41

t-тест

39

Условие

p-value

Плохая погода

0.168

Плохое покрытие

0.1

Выходные дни

0.012

Будние дни

0.021

40 of 41

Прогнозирование пробок с помощью Логической регрессии

Метрики, влияющие на возникновение пробок: okrug, additionalFactor, lightConditions, weatherConditions, closeObjects, pokritie, placeConditions

40

has_traffic_jam = 1 (пробка)

has_traffic_jam = 0 (нет)

41 of 41

Прогнозирование пробок с помощью

Random Forest

41