Scrapy
Un framework para el desarrollo ágil de arañas web
Web crawlers
Robots que recorren sitios web, partiendo de una lista de urls (seed urls), siguiendo los links encontrados y descargado las páginas para su posterior procesamiento
Web crawlers - Tipos
Web crawlers - Componentes
Web crawlers - Ejemplos
Web scrapers
Utilizados para extraer datos estructurados (ej: diccionarios) a partir de contenido no estructurado, o semi-estructurado (HTML)
Web scrapers - Tecnologías
Web scrapers - Ejemplos
Scrapy = Crawler + Scraper
Scrapy - Orígenes
Scrapy - Características generales
Scrapy - Arquitectura
Scrapy - Spiders
Scrapy - Selectores y loaders
Scrapy - Pipelines y exports
Scrapy - Línea de comando
Scrapy - Shell
$ scrapy shell http://insophia.com/
>>> hxs.select("//h2/text()").extract()
[u'Who we are?']
Scrapy - Otros servicios
Scrapy - Servicios online
Caso de ejemplo - PyDay speakers
Caso de ejemplo - PyDay speakers
Caso de ejemplo - PyDay speakers
Caso de ejemplo - PyDay speakers
Scrapy - Algunas estadísticas
Scrapy - Comunidad hoy
Scrapy - Links principales
Home
Documentación
Código
https://github.com/insophia/scrapy
http://twitter.com/scrapyproject
Blog
Scrapy - Obteniendo ayuda
Google group:
https://groups.google.com/group/scrapy-users
IRC
#scrapy @ freenode
Scrapy snippets
StackOverflow
¿Preguntas?
¿Te gustaría trabajar con Scrapy?