1 of 13

CIÊNCIA DE DADOS: AULA 03

Coleta de Dados Online

Explorando Web Scraping, APIs e integração prática com Power BI e datasets do Kaggle.��Profa. Semíramis Assis

Extraindo Inteligência da Web

2026

2 of 13

A Coleta de Dados como Início da Jornada Analítica

A coleta de dados online é o processo fundamental de extrair informações de fontes digitais para alimentar análises e modelos de Ciência de Dados.

Dominar as técnicas de extração permite ao profissional acessar informações em tempo real e construir bases personalizadas.

Por que Coletar Online?

Acesso em Tempo Real

Bases Personalizadas

Vantagem Competitiva

3 of 13

Web Scraping: Extração Direta de Páginas Web

Como Funciona

Automatiza a leitura do código HTML de um site.

O script simula um navegador e solicita a página.

Utiliza seletores (tags, CSS ou XPath) para localizar dados.

Ideal quando não há uma API oficial disponível.

Ferramentas e Desafios

BeautifulSoup

: Análise de HTML estático.

Selenium

: Interação com sites dinâmicos.

Desafio

: Mudanças frequentes na estrutura do site.

Proteção

: Bloqueios contra bots e CAPTCHAs.

4 of 13

Ferramentas de Scraping Sem Código (No-Code)

Para quem não deseja programar, existem ferramentas visuais e extensões de navegador que facilitam a coleta de dados de forma gratuita e intuitiva.

Ferramenta

Tipo

Destaque

Katalon Recorder

Extensão de Navegador

Permite gravar ações de navegação e extrair dados para CSV de forma automatizada.

Web Scraper (io)

Extensão de Navegador

Cria "sitemaps" visuais para navegar em múltiplas páginas e extrair dados estruturados.

Octoparse

Software Desktop

Ferramenta visual poderosa que lida bem com sites complexos e paginação.

Instant Data Scraper

Extensão de Navegador

Usa IA para detectar tabelas e listas em qualquer página e baixar os dados instantaneamente.

5 of 13

Limites Legais e Ética no Web Scraping

O scraping deve ser executado com responsabilidade ética e conformidade legal, especialmente sob a LGPD no Brasil, tratando dados públicos com o devido cuidado.

Princípio

Descrição e Boas Práticas

Dados Públicos

Colete apenas informações acessíveis sem necessidade de login ou quebra de paywalls.

Robots.txt

Respeite as diretrizes do arquivo robots.txt do site, que indica quais áreas podem ser rastreadas.

Cortesia Técnica

Evite sobrecarregar os servidores; use intervalos entre as requisições para não causar lentidão.

Finalidade

Garanta que o uso dos dados tenha uma base legal clara e não infrinja direitos autorais.

6 of 13

APIs: A Forma Estruturada e Oficial de Coleta

Uma API (Application Programming Interface) é um conjunto de regras que permite que dois sistemas se comuniquem de forma segura e organizada.

Estabilidade

Projetadas para serem estáveis e raramente mudam sem aviso prévio do provedor.

Estrutura

Os dados já chegam em formatos prontos para processamento (JSON/XML).

Controle e Segurança

Autenticação (API Key)

Permite que o provedor controle quem acessa os dados e em qual volume.

Rate Limiting

Limites de requisições por hora para garantir a saúde do servidor.

Dica Profissional:

Sempre prefira APIs ao Web Scraping quando disponíveis, pela confiabilidade e permissão explícita.

7 of 13

Exemplo Real: APIs Públicas para Prática

Para praticar no Power BI, você pode usar URLs reais que retornam dados em formato JSON. Estas fontes são ideais para testar conexões e transformações.

Banco Central do Brasil

Dados econômicos como Câmbio (Dólar).

https://olinda.bcb.gov.br/olinda/servico/PTAX/versao/v1/odata/CotacaoDolarDia(dataCotacao=@dataCotacao)?@dataCotacao='03-06-2026'&$top=100&$format=json

JSONPlaceholder

API de testes para desenvolvimento (Posts).

https://jsonplaceholder.typicode.com/posts

Open Weather Map

Dados meteorológicos globais (Exige API Key).

https://api.openweathermap.org/data/2.5/weather?q=Sao+Paulo&appid=SUA_CHAVE_AQUI

8 of 13

Formatos de Dados: JSON, CSV e XML

Ao coletar dados online, você encontrará diferentes formas de organização da informação. Compreender esses formatos é essencial para a integração correta.

Formato

Características Principais

Uso Comum

JSON

Baseado em pares de chave-valor. Leve, flexível e fácil de ler por máquinas.

Padrão ouro para APIs modernas e aplicações web.

CSV

Formato tabular simples onde valores são separados por vírgulas.

Datasets estáticos (Kaggle) e exportações de planilhas.

XML

Baseado em tags hierárquicas. Mais verboso e estruturado que o JSON.

Sistemas governamentais, financeiros e legados.

9 of 13

Datasets Gratuitos: Explorando o Kaggle

O Kaggle é a principal plataforma para encontrar datasets gratuitos e de alta qualidade para prática de Ciência de Dados, oferecendo temas que vão de finanças a saúde pública.

Exemplos de Datasets

Online Sales Data

Excelente para praticar dashboards de vendas e comportamento do consumidor.

COVID-19 Global Data

Ideal para estudos de séries temporais e visualizações geográficas.

US Store Data

Um dataset clássico para aprender as funcionalidades do Power BI.

Dica:

Sempre verifique a licença do dataset (ex: CC0, CC

BY-SA) para garantir conformidade com as regras do autor.

10 of 13

Roteiro Prático: Conectando APIs no Power BI

1

Conexão Web

Vá em Obter Dados > Web e insira a URL da API JSON.

2

Conversão em Tabela

No Power Query, clique em Converter em Tabela na guia Transformar.

3

Expansão de Registros

Use o ícone de setas duplas no cabeçalho para expandir os campos em colunas.

Dica de Power Query

O segredo da API no Power BI está na expansão correta da hierarquia do JSON.

Defina tipos de dados (Data, Decimal).

Remova colunas de metadados inúteis.

Clique em

Fechar e Aplicar

.

11 of 13

Roteiro Prático: Importando CSV do Kaggle

1

Importação de Arquivo

Selecione Obter Dados > Texto/CSV e escolha o arquivo baixado do Kaggle.

2

Verificação de Delimitador

Confirme se o Power BI detectou corretamente a vírgula ou ponto-e-vírgula.

3

Transformação de Dados

No Power Query, remova colunas irrelevantes e trate valores nulos ou inconsistentes.

Diferença de Estrutura

O CSV é um formato "plano", enquanto o JSON é "hierárquico". O Power BI converte ambos em tabelas.

Formato ideal para grandes volumes.

Limpeza essencial no Power Query.

Correlação direta com conceitos de aula.

12 of 13

Dúvidas e Discussão

Em que situações o Web Scraping é a única opção viável?

Como a LGPD impacta o trabalho diário de um analista de dados?

Qual a vantagem real de usar uma API em vez de baixar um CSV?

Como lidar com limites de requisições (Rate Limiting)?

Vamos Conversar?

ESPAÇO ABERTO PARA PERGUNTAS

13 of 13

Próximos Passos

Prática de Coleta

Conecte-se a uma API pública (como a do Banco Central ou Previsão do Tempo) e explore a estrutura dos dados no Power BI.

Limpeza e Preparação

Na próxima aula, avançaremos para a fase de Limpeza e Transformação Avançada, tratando ruidos e outliers dos dados coletados.

"Dados brutos são como petróleo; seu valor real surge após o refinamento e a análise estratégica."

JORNADA DA CIÊNCIA DE DADOS