1 of 26

Extracción Automatizada Datos Web

2 of 26

Tres ejemplos

  • Minar base de datos espacial de ciudades con fecha de fundación Wikipedia
  • Uso de API Open Street Map en Google Colab para generar isocronas
  • Web Scraping de La Gaceta para minar datos sobre inundaciones

3 of 26

Dos maneras de interactuar con la Web

  • Application Programming Interface (API)
  • Web Scraping

4 of 26

Application programing interface API

  • Conjunto de funciones a través del cual se comunican dos computadoras
  • Mayor esfuerzo del lado del servidor en estructurar los datos
  • Acceso más sencillo a la información
  • Por otro lado, más restricciones de acceso a la info

5 of 26

END POINT de API

  • https://en.wikipedia.org/w/api.php?action=query&titles=Necocl%C3%AD&prop=extracts&format=xml

6 of 26

7 of 26

Web Scraping

  • Necesario interactuar con la estructura cruda (HTML) de una página
  • Mayor esfuerzo del lado del cliente para encontrar y extraer la info
  • Menos restricciones

8 of 26

HTML

9 of 26

WIKIPEDIA

  • Mapear ciudades con su fecha de fundación como proxy de patrones históricos de uso de la tierra “globalizada”
  • Comenzamos usando google earth y wikipedia manualmente

10 of 26

API vs Web Scraping

11 of 26

12 of 26

13 of 26

Script Cliente

14 of 26

resultados

  • 702 ciudades bien distribuidas método manual para América
  • 5400 ciudades con sesgos método automático para América
  • 7300 ciudades en el mundo a partir de 1490

15 of 26

Ciudades Wikipedia

16 of 26

Riesgos e impactos hídricos de la expansión urbana en el pedemonte de Yerba Buena, Tucumán.

  • Usar web scraping de registros mediáticos como herramienta complementaria a entrevistas para lograr un diagnóstico de la percepción social.
  • Decidimos usar La Gaceta para hacer una prueba piloto
  • Hacer una busqueda con el motor interno de LG
  • Listar los resultados (SERP)
  • Hacer un analisis exploratorio en submuestra de HTML
  • Parsear cada articulo para extraer: fecha, seccion, titulo, texto

17 of 26

Buscador la gaceta

18 of 26

Fragmento de HTML de la gaceta

19 of 26

Articulos sobre mundial de futbol desde 2002

20 of 26

Lexical Dispersion Plot

21 of 26

Sustantivos frecuentes

{'obras': 3452, 'agua': 3352, 'inundaciones': 2818, 'río': 1812, 'gobernador': 1429, 'vecinos': 1160, 'trabajo': 1152, 'sur': 944, 'lluvias': 910, 'proyecto': 870, 'problemas': 869, 'pueblo': 856, 'autoridades': 824, 'ruta': 811, 'funcionarios': 805, 'gestión': 802, 'ley': 743}

22 of 26

IsoCronas utilizando API de OSM

23 of 26

OSM API endPoint

24 of 26

OSMnx libreria de python

25 of 26

OSMnx

  • Libreria de cliente que interactua directamente con la API
  • Descargar redes en cualquier lugar del mundo
  • Correccion y simplificaion topologica de redes
  • Analisis de redes (caminos optimos, isocronas)
  • Lo utilizamos en google colab

26 of 26

Isocronas Parque Guillermina