1 of 39

Rosomachine

Detección de sonidos en carreteras

Murcia, 22 diciembre 2021

Javier Abellán, José Miguel Bolarín

Raquel Espinosa, Miguel Miñano

Federico Pardo

CENTIC

Centro Tecnológico de las Tecnologías de la Información y las Comunicaciones de la

Región de Murcia

2 of 39

Índice

2

  1. ¿Por qué surge este proyecto?
  2. Investigación de ML + Audio
  3. ¿Qué hemos desarrollado?
    • Dataset generado
    • Entrenamiento red neuronal
    • Demo en carreteras murcianas

3 of 39

1

¿Por qué surge este proyecto?

3

4 of 39

4

Objetivo principal:

Monitorizar el estado, funcionamiento y tránsito de las carreteras

5 of 39

5

¿Cómo?

Mediante la identificación de eventos

6 of 39

6

Mediante una cámara

7 of 39

7

Mediante un micrófono

8 of 39

8

Ventajas

Desventajas

  • Mayor información espacial
  • Mayor cantidad de datos a transmitir
  • Mayor coste del hardware
  • Problemas en la oscuridad

  • Hardware barato
  • Funciona en oscuridad
  • Coste de transmisión menor
  • Imposibilidad de detección eventos silenciosos (peatones, carretera en mal estado...)

Ventajas VS Desventajas

9 of 39

9

El sonido supone un mayor componente de investigación debido a menor uso respecto a la imagen.

10 of 39

2

Investigación acerca de

Deep Learning + Audio

10

11 of 39

11

Representación del sonido

De onda a imagen

12 of 39

12

Representación del sonido

Espectrograma: Aplicación de la transformada Fourier (FFT) en cada instante de tiempo.

Logaritmo del espectrograma Dar más resolución a la frecuencias bajas.

Espectrograma de Mel: Dar más resolución a la frecuencias bajas (imita oído humano).

Escalograma: Transformación basada en Wavelets.

MFCC: Coeficientes Cepstrales en las Frecuencias de Mel.

13 of 39

Modelo de Deep learning

Modelos de imágenes

14 of 39

Modelo de Deep learning

Modelos de imágenes

15 of 39

3

¿Qué hemos hecho?

  1. Creación de un dataset
  2. Entrenamiento de un modelo
  3. Pruebas en calles de Murcia

15

16 of 39

Creación de un dataset

Muchos datasets, pero la mayoría

muy pequeños y con pocas clases.

  • DCASE: annual challenge of several sound tasks.
  • FSDKaggle2019
  • Urbansound
  • ESC: Dataset for Environmental Sound Classification
  • Kaggle Audio Tagging 2019
  • Kaggle emergency-vehicle-siren-sounds

17 of 39

Creación de un dataset

Excepto Freesound y Audioset,

Los datasets grandes

(sonidos de todo tipo)

18 of 39

Creación de un dataset

Se han seleccionado sólo aquellas clases que nos interesaban (sonidos de carreteras)

19 of 39

Creación de un dataset

Sounds_of_things Vehicle Motor_vehicle_(road) Car Car_passing_by Skidding Tire_squeal Race_car_Auto_racing Vehicle_horn_Car_horn_Honking Truck Air_horn_Truck_horn Bus Emergency_vehicle Police_car_(siren) Ambulance_(siren) Fire_engine_Fire_truck_(siren) Motorcycle Traffic_noise_Roadway_noise Engine Light_engine_(high_frequency) Chainsaw Medium_engine_(mid_frequency) Heavy_engine_(low_frequency) Engine_starting Idling Accelerating_Revving_Vroom Alarm Siren Source-ambiguous_sounds Generic_impact_sounds Smash_Crash Breaking Natural_sounds Wind Howl_(wind) Rustling_leaves Wind_noise_(microphone) Water Rain Raindrop Rain_on_surface Thunderstorm Thunder Animal Wild_animals Bird Bird_vocalization_Bird_call Chirp_Tweet Squawk Bird_flight_Flapping_wings Insect Cricket Mosquito Fly_Housefly Buzz Bee_Wasp

20 of 39

Creación de un dataset

Sounds_of_things Vehicle Motor_vehicle_(road) Car Car_passing_by Skidding Tire_squeal Race_car_Auto_racing Vehicle_horn_Car_horn_Honking Truck Air_horn_Truck_horn Bus Emergency_vehicle Police_car_(siren) Ambulance_(siren) Fire_engine_Fire_truck_(siren) Motorcycle Traffic_noise_Roadway_noise Engine Light_engine_(high_frequency) Chainsaw Medium_engine_(mid_frequency) Heavy_engine_(low_frequency) Engine_starting Idling Accelerating_Revving_Vroom Alarm Siren Source-ambiguous_sounds Generic_impact_sounds Smash_Crash Breaking Natural_sounds Wind Howl_(wind) Rustling_leaves Wind_noise_(microphone) Water Rain Raindrop Rain_on_surface Thunderstorm Thunder Animal Wild_animals Bird Bird_vocalization_Bird_call Chirp_Tweet Squawk Bird_flight_Flapping_wings Insect Cricket Mosquito Fly_Housefly Buzz Bee_Wasp

21 of 39

Creación de un dataset

Sounds_of_things Vehicle Motor_vehicle_(road) Car Car_passing_by Skidding Tire_squeal Race_car_Auto_racing Vehicle_horn_Car_horn_Honking Truck Air_horn_Truck_horn Bus Emergency_vehicle Police_car_(siren) Ambulance_(siren) Fire_engine_Fire_truck_(siren) Motorcycle Traffic_noise_Roadway_noise Engine Light_engine_(high_frequency) Chainsaw Medium_engine_(mid_frequency) Heavy_engine_(low_frequency) Engine_starting Idling Accelerating_Revving_Vroom Alarm Siren Source-ambiguous_sounds Generic_impact_sounds Smash_Crash Breaking Natural_sounds Wind Howl_(wind) Rustling_leaves Wind_noise_(microphone) Water Rain Raindrop Rain_on_surface Thunderstorm Thunder Animal Wild_animals Bird Bird_vocalization_Bird_call Chirp_Tweet Squawk Bird_flight_Flapping_wings Insect Cricket Mosquito Fly_Housefly Buzz Bee_Wasp

22 of 39

Creación de un dataset

Sounds_of_things Vehicle Motor_vehicle_(road) Car Car_passing_by Skidding Tire_squeal Race_car_Auto_racing Vehicle_horn_Car_horn_Honking Truck Air_horn_Truck_horn Bus Emergency_vehicle Police_car_(siren) Ambulance_(siren) Fire_engine_Fire_truck_(siren) Motorcycle Traffic_noise_Roadway_noise Engine Light_engine_(high_frequency) Chainsaw Medium_engine_(mid_frequency) Heavy_engine_(low_frequency) Engine_starting Idling Accelerating_Revving_Vroom Alarm Siren Source-ambiguous_sounds Generic_impact_sounds Smash_Crash Breaking Natural_sounds Wind Howl_(wind) Rustling_leaves Wind_noise_(microphone) Water Rain Raindrop Rain_on_surface Thunderstorm Thunder Animal Wild_animals Bird Bird_vocalization_Bird_call Chirp_Tweet Squawk Bird_flight_Flapping_wings Insect Cricket Mosquito Fly_Housefly Buzz Bee_Wasp

23 of 39

Creación de un dataset

24 of 39

3

¿Qué hemos hecho?

  1. Creación de un dataset
  2. Entrenamiento de un modelo
  3. Pruebas en calles de Murcia

24

25 of 39

Entrenamiento del modelo

Modelos de imágenes

MODELO

(CNN)

26 of 39

Entrenamiento del modelo

27 of 39

¿Qué recursos se han utilizado?

Software

Hardware

28 of 39

Evolución del modelo durante entrenamiento

Loss (BCE)

Accuracy

29 of 39

3

¿Qué hemos hecho?

  1. Creación de un dataset
  2. Entrenamiento de un modelo
  3. Pruebas en calles de Murcia

29

30 of 39

Ejemplo de audio en la autovía A30

31 of 39

Ejemplo de audio en carretera secundaria

32 of 39

Ejemplo de audio en centro de Murcia ciudad

33 of 39

34 of 39

35 of 39

36 of 39

36

Código

https://github.com/CenticMurcia/proyecto-ROSOMACHINE

37 of 39

Casi todos los dispositivos electrónicos en la actualidad cuentan con micrófonos.

Comparada con las imágenes, el sonido no se ha utilizado tanto para monitorización.

Esta tecnología se pueden diferentes tipos de ámbitos: industria, logística, agricultura, ganadería, etc.

Conclusión

38 of 39

Muchas gracias

CENTIC

Centro Tecnológico de las Tecnologías de la Información y las Comunicaciones de la

Región de Murcia

39 of 39

39

Desde el Centic además ofrecemos:

Formación

Asesoría

Proyecto

centic@centic.es