1 of 24

Formação de uma Base de Dados Judiciais Pública

Acessibilidade x Segurança

Roberto Vasconcelos Novaes

Professor Adjunto - Faculdade de Direito da UFMG

Núcleo de Empreendedorismo e Direito - NErD - FDUFMG

IDEIA - Instituto de Direito e Inteligência Artificial

IAMG - Instituto dos Advogados de Minas Gerais

Belo Horizonte - 26 de outubro de 2018

2 of 24

Permitiu a preservação do Direito Romano.

Deu origem ao estudo científico do Direito no mundo medieval (Glosadores).

Corpus Juris Civilis

3 of 24

Fontes de Dados

As informações processuais estão disponíveis eletronicamente.

4 of 24

Indisponibilidade de Dados Públicos

Os tribunais não fornecem todos os dados e criam mecanismos de bloqueio.

5 of 24

Qualidade de Dados

Os cadastros são feitos para gestão processual e não para análise.

6 of 24

O que são dados abertos?

http://opendatahandbook.org/guide/pt_BR/what-is-open-data/

7 of 24

Quais aspectos para dados abertos?

Jurídicos

Internacionais

Técnicos

Econômicos

Éticos

8 of 24

Indisponibilidade de Dados Públicos

Menos da metade dos TRTs emite CEAT

9 of 24

Indisponibilidade de Dados Públicos

Documentos acessíveis apenas pelo login do sistema

10 of 24

Natural Language Processing

11 of 24

Aplicações de NLP

Tradução automática

Text-to-speech - Speech-to-text

Geração de textos

Classificação

Análise de sentimento

Chatbots

12 of 24

Aplicações de NLP

OCR - Optical character recognition

Resumos automáticos

Recuperação de informações

Segmentação em tópicos

NER - Named entity recognition

Corretores automáticos

13 of 24

Corpus - Corpora (pl.)

Base textual

14 of 24

Terefas

Part-of-speech

Nomeação de entidades

Lematização

Criação de Word Embeddings

15 of 24

Part-of-speech

16 of 24

NER

Paris Hilton foi vista entrando no hotel Hilton em Paris.

Créditos: Esse exemplo me foi repassado pelo amigo Danilo Silveira, da IBM

17 of 24

Lematização

18 of 24

Word Embedding

19 of 24

Corpus do Português

https://corpus.byu.edu/

20 of 24

Corpus do Português

1.15 bilhões de palavras

25 milhões de novas palavras/mês

Alimentado automaticamente a partir de 3000 fontes de notícias

21 of 24

Proposta

Criação de um corpus jurídico

UFMG + Judiciário + ?

22 of 24

Proposta

Fontes de Dados

Processamento

Armazenamento

23 of 24

Enquanto isso...

Banco de varas e comarcas

Padronização dos DJEs e acesso eletrônico

24 of 24

O conteúdo desta apresentação está licenciado com uma licença Creative Commons Atribuição-Não Comercial 4.0 Internacional

Copyright 2018 Roberto Vasconcelos Novaes

www.robertonovaes.com.br

rnovaes@ufmg.br

Obrigado!