1 of 38

Taller de web scraping

Marzo 2018

Fernando Blat @ferblape

Fernando Blat @ferblape

2 of 38

Fernando Blat @ferblape

3 of 38

  • ¿Qué es el web scraping?
  • Conceptos básicos web
  • Herramientas navegador
  • Programación
  • Scraping PDFs

Fernando Blat @ferblape

4 of 38

¿Qué es el web scraping?

Fernando Blat @ferblape

5 of 38

Fernando Blat @ferblape

6 of 38

¿Para qué lo utilizamos?

Fernando Blat @ferblape

7 of 38

  • crear una pequeña base de datos
  • analizar los datos
  • reutilizar los datos
  • combinar los datos con otras fuentes
  • liberar los datos y ponerlos a disposición de todo el mundo

Fernando Blat @ferblape

8 of 38

Fernando Blat @ferblape

9 of 38

Fernando Blat @ferblape

10 of 38

Fernando Blat @ferblape

11 of 38

Fernando Blat @ferblape

12 of 38

Fernando Blat @ferblape

13 of 38

Conceptos básicos web

Fernando Blat @ferblape

14 of 38

https://rocixcode.wordpress.com/2011/05/05/codigos-errores-http/

Fernando Blat @ferblape

15 of 38

Fernando Blat @ferblape

16 of 38

Fernando Blat @ferblape

17 of 38

Fernando Blat @ferblape

18 of 38

Fernando Blat @ferblape

19 of 38

Selectores CSS

Fernando Blat @ferblape

20 of 38

<!DOCTYPE HTML>�<html>� <head>� <meta charset="utf-8" />� </head>� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>� <footer>� <ul>� <li class="menu-link" id="link1"><a href="http://link1.com">link1</a></li>� <li class="menu-link" id="link2"><a href="http://link1.com">link2</a></li>� <li class="menu-link" id="link3"><a href="http://link1.com">link3</a></li>� </ul>� </footer>� </body>�</html>�

Fernando Blat @ferblape

21 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por tag: header

Fernando Blat @ferblape

22 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1"><h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2"><h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por tag: article h1

Fernando Blat @ferblape

23 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por atributo id: #article1

Fernando Blat @ferblape

24 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por atributo id + tag: #article1 h1

Fernando Blat @ferblape

25 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por atributo clase: .menu-link

Fernando Blat @ferblape

26 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p class=”active”>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por atributo clase: .menu-link.active

Fernando Blat @ferblape

27 of 38

� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li> <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p class=”active”>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�

seleccionar por atributo clase y tag: p.active

Fernando Blat @ferblape

28 of 38

Fernando Blat @ferblape

29 of 38

Herramientas navegador

Fernando Blat @ferblape

30 of 38

Fernando Blat @ferblape

31 of 38

Fernando Blat @ferblape

32 of 38

Fernando Blat @ferblape

33 of 38

Programación

Fernando Blat @ferblape

34 of 38

  • Python es un lenguaje de scripting
  • sintaxis muy sencilla
  • librerías
  • gran comunidad
  • tutoriales:

Fernando Blat @ferblape

35 of 38

Fernando Blat @ferblape

36 of 38

Scraping PDFs

Fernando Blat @ferblape

37 of 38

Fernando Blat @ferblape

38 of 38

¡Gracias!

fernando@populate.tools

@ferblape

Fernando Blat @ferblape