A base de dados do Observatório de Dados Educacionais do Paraná foi estruturada para servir como uma proposta de Data Lake, proporcionando uma solução robusta para a integração entre a Gestão Pública e a Sociedade.
O Data Lake do Observatório de Dados Educacionais do Paraná não armazena diretamente os dados, mas sim direciona o download e processamento desses arquivos por meio de scripts. Através do repositório GitHub, são fornecidas ferramentas e instruções detalhadas para que os usuários possam extrair, transformar e consolidar dados educacionais de diversas fontes. Esses scripts automatizam a coleta de dados brutos e orientam os usuários sobre como organizá-los em seus ambientes locais, permitindo análises eficientes e informadas sem a necessidade de armazenamento centralizado no próprio Data Lake.
O repositório GitHub funciona como um Data Lake, onde dados brutos, estruturados e não estruturados são armazenados em seu formato nativo. Este repositório é projetado para permitir a coleta e manutenção de grandes volumes de dados, promovendo transparência e acessibilidade.