ABC
1
Processo de revisão de bases da Base dos Dados (jul/2021)
2
Iniciamos este processo pois notamos que algumas de nossas bases no datalake possuiam erros:

- Tabelas de municípios chamadas de "municipios" ao invés de "municipio"
- Coluna de código de municípios chamada de "estado_abrev" ao invés de "id_município"
- Chaves identificadoras que estavam tipadas como "INT64" ao invés de "STRING" (id_municipio e id_escola)
3
"Tipagem" é o tipo que uma variável assume - por exemplo: se uma variável representa o número de bananas plantadas no ano, ou seja, um valor inteiro e contável, ela será tipada como "INT64"; agora se a variável é um nome de município, ou uma uma variável que represente uma categoria (gêneros de filmes, etc), nós a padronizamos como "STRING". Nem todo número porém será um contável, como por exemplo código de municípios, que representa uma chave identificadora, logo padronizamos como "STRING" pois ele pode iniciar com zero, por exemplo, e isso não deve ser desconsiderado (como fazemos com contáveis).
4
5
A planilha "Revisão" lista as tabelas em que erros ainda existem e que estão sendo tratadas
6
7
Etapas dos processo de revisãoContagem
8
1. Tabelas não corrigidas (ainda vão para revisão)0
9
2. Tabelas em revisão (EM ANDAMENTO)16
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100