CIÊNCIA DE DADOS: AULA 03
Coleta de Dados Online
Explorando Web Scraping, APIs e integração prática com Power BI e datasets do Kaggle.��Profa. Semíramis Assis
Extraindo Inteligência da Web
2026
A Coleta de Dados como Início da Jornada Analítica
A coleta de dados online é o processo fundamental de extrair informações de fontes digitais para alimentar análises e modelos de Ciência de Dados.
Dominar as técnicas de extração permite ao profissional acessar informações em tempo real e construir bases personalizadas.
Por que Coletar Online?
Acesso em Tempo Real
Bases Personalizadas
Vantagem Competitiva
Web Scraping: Extração Direta de Páginas Web
Como Funciona
Automatiza a leitura do código HTML de um site.
O script simula um navegador e solicita a página.
Utiliza seletores (tags, CSS ou XPath) para localizar dados.
Ideal quando não há uma API oficial disponível.
Ferramentas e Desafios
BeautifulSoup
: Análise de HTML estático.
Selenium
: Interação com sites dinâmicos.
Desafio
: Mudanças frequentes na estrutura do site.
Proteção
: Bloqueios contra bots e CAPTCHAs.
Ferramentas de Scraping Sem Código (No-Code)
Para quem não deseja programar, existem ferramentas visuais e extensões de navegador que facilitam a coleta de dados de forma gratuita e intuitiva.
Ferramenta
Tipo
Destaque
Katalon Recorder
Extensão de Navegador
Permite gravar ações de navegação e extrair dados para CSV de forma automatizada.
Web Scraper (io)
Extensão de Navegador
Cria "sitemaps" visuais para navegar em múltiplas páginas e extrair dados estruturados.
Octoparse
Software Desktop
Ferramenta visual poderosa que lida bem com sites complexos e paginação.
Instant Data Scraper
Extensão de Navegador
Usa IA para detectar tabelas e listas em qualquer página e baixar os dados instantaneamente.
Limites Legais e Ética no Web Scraping
O scraping deve ser executado com responsabilidade ética e conformidade legal, especialmente sob a LGPD no Brasil, tratando dados públicos com o devido cuidado.
Princípio
Descrição e Boas Práticas
Dados Públicos
Colete apenas informações acessíveis sem necessidade de login ou quebra de paywalls.
Robots.txt
Respeite as diretrizes do arquivo robots.txt do site, que indica quais áreas podem ser rastreadas.
Cortesia Técnica
Evite sobrecarregar os servidores; use intervalos entre as requisições para não causar lentidão.
Finalidade
Garanta que o uso dos dados tenha uma base legal clara e não infrinja direitos autorais.
APIs: A Forma Estruturada e Oficial de Coleta
Uma API (Application Programming Interface) é um conjunto de regras que permite que dois sistemas se comuniquem de forma segura e organizada.
Estabilidade
Projetadas para serem estáveis e raramente mudam sem aviso prévio do provedor.
Estrutura
Os dados já chegam em formatos prontos para processamento (JSON/XML).
Controle e Segurança
Autenticação (API Key)
Permite que o provedor controle quem acessa os dados e em qual volume.
Rate Limiting
Limites de requisições por hora para garantir a saúde do servidor.
Dica Profissional:
Sempre prefira APIs ao Web Scraping quando disponíveis, pela confiabilidade e permissão explícita.
Exemplo Real: APIs Públicas para Prática
Para praticar no Power BI, você pode usar URLs reais que retornam dados em formato JSON. Estas fontes são ideais para testar conexões e transformações.
Banco Central do Brasil
Dados econômicos como Câmbio (Dólar).
https://olinda.bcb.gov.br/olinda/servico/PTAX/versao/v1/odata/CotacaoDolarDia(dataCotacao=@dataCotacao)?@dataCotacao='03-06-2026'&$top=100&$format=json
JSONPlaceholder
API de testes para desenvolvimento (Posts).
https://jsonplaceholder.typicode.com/posts
Open Weather Map
Dados meteorológicos globais (Exige API Key).
https://api.openweathermap.org/data/2.5/weather?q=Sao+Paulo&appid=SUA_CHAVE_AQUI
Formatos de Dados: JSON, CSV e XML
Ao coletar dados online, você encontrará diferentes formas de organização da informação. Compreender esses formatos é essencial para a integração correta.
Formato
Características Principais
Uso Comum
JSON
Baseado em pares de chave-valor. Leve, flexível e fácil de ler por máquinas.
Padrão ouro para APIs modernas e aplicações web.
CSV
Formato tabular simples onde valores são separados por vírgulas.
Datasets estáticos (Kaggle) e exportações de planilhas.
XML
Baseado em tags hierárquicas. Mais verboso e estruturado que o JSON.
Sistemas governamentais, financeiros e legados.
Datasets Gratuitos: Explorando o Kaggle
O Kaggle é a principal plataforma para encontrar datasets gratuitos e de alta qualidade para prática de Ciência de Dados, oferecendo temas que vão de finanças a saúde pública.
Exemplos de Datasets
Online Sales Data
Excelente para praticar dashboards de vendas e comportamento do consumidor.
COVID-19 Global Data
Ideal para estudos de séries temporais e visualizações geográficas.
US Store Data
Um dataset clássico para aprender as funcionalidades do Power BI.
Dica:
Sempre verifique a licença do dataset (ex: CC0, CC
BY-SA) para garantir conformidade com as regras do autor.
Roteiro Prático: Conectando APIs no Power BI
1
Conexão Web
Vá em Obter Dados > Web e insira a URL da API JSON.
2
Conversão em Tabela
No Power Query, clique em Converter em Tabela na guia Transformar.
3
Expansão de Registros
Use o ícone de setas duplas no cabeçalho para expandir os campos em colunas.
Dica de Power Query
O segredo da API no Power BI está na expansão correta da hierarquia do JSON.
Defina tipos de dados (Data, Decimal).
Remova colunas de metadados inúteis.
Clique em
Fechar e Aplicar
.
Roteiro Prático: Importando CSV do Kaggle
1
Importação de Arquivo
Selecione Obter Dados > Texto/CSV e escolha o arquivo baixado do Kaggle.
2
Verificação de Delimitador
Confirme se o Power BI detectou corretamente a vírgula ou ponto-e-vírgula.
3
Transformação de Dados
No Power Query, remova colunas irrelevantes e trate valores nulos ou inconsistentes.
Diferença de Estrutura
O CSV é um formato "plano", enquanto o JSON é "hierárquico". O Power BI converte ambos em tabelas.
Formato ideal para grandes volumes.
Limpeza essencial no Power Query.
Correlação direta com conceitos de aula.
Dúvidas e Discussão
Em que situações o Web Scraping é a única opção viável?
Como a LGPD impacta o trabalho diário de um analista de dados?
Qual a vantagem real de usar uma API em vez de baixar um CSV?
Como lidar com limites de requisições (Rate Limiting)?
Vamos Conversar?
ESPAÇO ABERTO PARA PERGUNTAS
Próximos Passos
Prática de Coleta
Conecte-se a uma API pública (como a do Banco Central ou Previsão do Tempo) e explore a estrutura dos dados no Power BI.
Limpeza e Preparação
Na próxima aula, avançaremos para a fase de Limpeza e Transformação Avançada, tratando ruidos e outliers dos dados coletados.
"Dados brutos são como petróleo; seu valor real surge após o refinamento e a análise estratégica."
JORNADA DA CIÊNCIA DE DADOS