Taller de web scraping
Marzo 2018
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
¿Qué es el web scraping?
Fernando Blat @ferblape
Fernando Blat @ferblape
¿Para qué lo utilizamos?
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Conceptos básicos web
Fernando Blat @ferblape
https://rocixcode.wordpress.com/2011/05/05/codigos-errores-http/
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Selectores CSS
Fernando Blat @ferblape
<!DOCTYPE HTML>�<html>� <head>� <meta charset="utf-8" />� </head>� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>� <footer>� <ul>� <li class="menu-link" id="link1"><a href="http://link1.com">link1</a></li>� <li class="menu-link" id="link2"><a href="http://link1.com">link2</a></li>� <li class="menu-link" id="link3"><a href="http://link1.com">link3</a></li>� </ul>� </footer>� </body>�</html>�
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por tag: header
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por tag: article h1
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por atributo id: #article1
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por atributo id + tag: #article1 h1
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por atributo clase: .menu-link
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p class=”active”>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por atributo clase: .menu-link.active
Fernando Blat @ferblape
� <body>� <header>� <ul>� <li class="menu-link active"><a href="http://link1.com">link1</a></li>� <li class="menu-link"><a href="http://link1.com">link2</a></li>� <li class="menu-link"><a href="http://link1.com">link3</a></li>� </ul>� </header>� <article id="article1">� <h1>Titular artículo 1</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p class=”active”>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�� <article id="article2">� <h1>Titular artículo 2</h1>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� <h2>Otra subsección</h2>� <p>Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos. Un bloque de texto con párrafos.</p>� </article>�
seleccionar por atributo clase y tag: p.active
Fernando Blat @ferblape
Fernando Blat @ferblape
Herramientas navegador
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Programación
Fernando Blat @ferblape
Fernando Blat @ferblape
Fernando Blat @ferblape
Scraping PDFs
Fernando Blat @ferblape
Fernando Blat @ferblape
¡Gracias!
fernando@populate.tools
@ferblape
Fernando Blat @ferblape