Os dados não são armazenados diretamente no repositório GitHub do Data Lake, mas os scripts fornecidos direcionam o download e a organização dos dados em ambientes locais configurados pelos usuários. Isso permite uma flexibilidade maior no manejo dos dados e evita a necessidade de armazenamento centralizado no próprio Data Lake. Além disso, esta abordagem protege o Observatório de Dados Educacionais de possíveis vazamentos de dados considerados sigilosos pela Lei Geral de Proteção de Dados (LGPD), garantindo conformidade com regulamentações de privacidade, uma vez que trabalha com dados públicos secundários e disponíveis.
- Fontes de Dados:
- Microdados do INEP: Os dados podem ser baixados diretamente do site do INEP e de outras fontes educacionais.
- Indicadores Educacionais: Extraídos de bancos de dados públicos e outros repositórios oficiais.
- Dados Financeiros: Obtidos via API do Portal da Transparência do Paraná.
- Processo de Extração:
- Os scripts disponíveis no repositório GitHub IND-EDU-PR-META04 automatizam o download e a extração desses dados.
- O diretório de dados local (DATA_DIR) é configurado pelos usuários onde os arquivos extraídos serão armazenados.
- Armazenamento Local:
- Após a execução dos scripts, os dados são armazenados localmente no diretório especificado pela variável DATA_DIR.
- A estrutura de diretórios dentro do DATA_DIR organiza os dados extraídos em subdiretórios, facilitando o acesso e a análise subsequente.
Exemplos de Caminhos de Armazenamento Local
Suponha que a variável DATA_DIR esteja configurada como /caminho/para/diretorio_de_dados. A estrutura dos arquivos armazenados localmente pode ser algo como:
bash
Copiar código
/caminho/para/diretorio_de_dados/