Crawleando Dados “Abertos”

E provando que captcha não evita o crawler,

o crawler que evita o

~# whoami

>>> '44616e696c6f5f56617a'.decode("hex")

'Danilo_Vaz'

>>> 'Qrfraibyirqbe clguba'.decode(“rot_13”)

u'Desenvolvedor python'

>>> 'aHR0cDovL2dpdGh1Yi5jb20vZGFuaWxvdmF6Yg==\n'.decode("base64")

'http://github.com/danilovazb'

O que é captcha?

CAPTCHA é um acrônimo da expressão "Completely Automated Public Turing test to tell Computers and Humans Apart" (teste de Turing público completamente automatizado para diferenciação entre computadores e humanos)

- Wikipedia

CAPTCHA é umas letrinhas ruim pra diabo de lê, que só atrapalha e não serve pra nada

- Eu

Estudo

  • Será que o captcha impede alguma coisa?

  • Quais os impactos no serviço/servidor com a quebra do captcha?

Falha na implementação do captcha

Receita Federal

Serviços de quebra de captcha

Owned!

Impactos

  • Adulteração em votações

  • Instabilidade no servidor

  • Dor de cabeça com um filho da p!@#$ crawleando seus dados

POC - Votação automatizada

POC - Votação automatizada

Problemas

  • Irregularidade nos votos
  • Negação de serviço(DoS)
  • Aumento de processamento no servidor
  • Gasto com banda excessiva

Contra medidas - com base no que já passei

  • Limitar request por IP
  • Trocar para novo captcha do google
  • Efetivar cookies de sessão
  • Usar camadas de javascript para exibir o captcha

Novo captcha do google, seguro?

Contatos

>>> 'aHR0cDovL2dpdGh1Yi5jb20vZGFuaWxvdmF6Yg==\n'.decode("base64")

'http://github.com/danilovazb'

>>> 'qnavybinmo@tznvy.pbz'.decode("rot_13")

u'danilovazb@gmail.com'

>>> '687474703a2f2f756e6b2d62722e626c6f6773706f742e636f6d'.decode("hex")

'http://unk-br.blogspot.com'

Crawleando Dados “Abertos” - Google Slides