Base de Dados

A base de dados do Observatório é um recurso essencial para pesquisadores, gestores públicos, e cidadãos interessados em acompanhar e entender os indicadores de desempenho educacional no estado.

A base de dados foi estruturada e está disponível no GitHub, no repositório IND-EDU-PR-META04 (https://github.com/rbcip/IND-EDU-PR-META04). Este repositório contém scripts, notebooks e documentação detalhada que orientam a extração, consolidação e análise de indicadores educacionais. As instruções para instalação e utilização dos scripts estão bem descritas, permitindo que os usuários configurem seus ambientes de desenvolvimento de maneira eficiente.

Repositório GitHub

O repositório GitHub serve como o ponto central para a hospedagem dos scripts, notebooks e documentação necessária para a manipulação e análise dos dados educacionais. Este repositório é organizado de maneira a facilitar o acesso e a contribuição da comunidade, garantindo que qualquer interessado possa participar do desenvolvimento e aprimoramento da base de dados.

Definição e Benefícios

Conteúdo e Funcionalidades

Utilização e Análises

Armazenamento e Exemplos

1. O que é um Data Lake da Educação?

A base de dados do Observatório de Dados Educacionais do Paraná foi estruturada para servir como uma proposta de Data Lake, proporcionando uma solução robusta para a integração entre a Gestão Pública e a Sociedade.

O Data Lake do Observatório de Dados Educacionais do Paraná não armazena diretamente os dados, mas sim direciona o download e processamento desses arquivos por meio de scripts. Através do repositório GitHub, são fornecidas ferramentas e instruções detalhadas para que os usuários possam extrair, transformar e consolidar dados educacionais de diversas fontes. Esses scripts automatizam a coleta de dados brutos e orientam os usuários sobre como organizá-los em seus ambientes locais, permitindo análises eficientes e informadas sem a necessidade de armazenamento centralizado no próprio Data Lake.

O repositório GitHub funciona como um Data Lake, onde dados brutos, estruturados e não estruturados são armazenados em seu formato nativo. Este repositório é projetado para permitir a coleta e manutenção de grandes volumes de dados, promovendo transparência e acessibilidade.

2. Quais são os benefícios de um Data Lake?

Centralização dos Dados: Todos os dados de uma organização podem ser armazenados em um único local, facilitando a integração e a análise.
Economia de Custo: Armazenar dados em formato bruto pode ser mais econômico do que em formatos estruturados, especialmente para grandes volumes de dados.
Agilidade nos Negócios: Permite respostas mais rápidas às mudanças nas necessidades de negócios e facilita a inovação através da análise de dados exploratória.

3. Quais são os Conteúdo e Funcionalidades?

Microdados do INEP

Os microdados disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) são fundamentais para análises aprofundadas. Os scripts no repositório permitem a extração desses dados para diversos anos, facilitando o acompanhamento histórico e a análise longitudinal. É possível configurar a extração para anos específicos e adaptar as fontes conforme necessário, garantindo flexibilidade e precisão nas análises.

Indicadores Educacionais

Além dos microdados, a base inclui scripts específicos para a extração de indicadores educacionais. Esses indicadores são cruciais para a avaliação de políticas públicas e a implementação de melhorias no sistema educacional. Os scripts permitem a extração automatizada e a consolidação dos dados em formatos acessíveis, como CSV e TXT, que podem ser facilmente integrados em bancos de dados locais.

Dados do Portal da Transparência do Paraná

Para garantir a transparência e o controle social, a base de dados inclui informações detalhadas sobre as despesas da Secretaria de Educação do Paraná, obtidas via API do Portal da Transparência. Os scripts disponíveis permitem a extração desses dados por ano, consolidando-os em arquivos CSV e XLSX, facilitando o acesso e a análise das informações financeiras.

4. Como utilizar a base de dados?

A base de dados do Observatório de Dados Educacionais do Paraná é uma ferramenta poderosa e acessível que pode ser utilizada por pesquisadores externos para análises detalhadas e desenvolvimento de estudos educacionais. A seguir, apresentamos um guia passo a passo para orientar pesquisadores na utilização desta base de dados.

Acesso ao Repositório GitHub

O primeiro passo para utilizar a base de dados é acessar o repositório GitHub onde estão hospedados os scripts, notebooks e documentação necessária. O repositório pode ser encontrado no seguinte link: IND-EDU-PR-META04.

Configuração do Ambiente de Desenvolvimento

Para utilizar os scripts e notebooks, é necessário configurar um ambiente de desenvolvimento adequado. Siga os passos abaixo para configurar o ambiente:

Instalação do WGET: Baixe e instale o WGET para Windows a partir do link fornecido no README do repositório: wget-1.11.4-1-setup.exe.
Instalação do Python: Instale o Python e marque a opção “Add Python to environment variables” durante a instalação.
Criação de um Virtual Environment (opcional):
- Abra o terminal e execute os seguintes comandos para criar e ativar um virtual environment:
  bash
  Copiar código
  pip install virtualenv
  virtualenv indicadores
  .\indicadores\Scripts\activate
- Instalação das Dependências: Instale todas as dependências necessárias executando o comando:
  bash
  Copiar código
  pip install -r requirements.txt

Extração e Consolidação de Dados

Os scripts no repositório permitem a extração e consolidação de diversos conjuntos de dados, Os dados serão consolidados em arquivos CSV e XLSX, prontos para análise. Abaixo estão os principais passos para utilizar esses scripts:

Microdados do INEP:
- Para extrair microdados, navegue até o diretório de scripts e ative o ambiente virtual:
  bash
  Copiar código
  .\indicadores\Scripts\activate
- Execute o script de extração dos microdados:
  bash
  Copiar código
  python -m scraper_microdados
- Para especificar um ano, utilize o seguinte comando:
  bash
  Copiar código
  python -m scraper_microdados 2021
Indicadores Educacionais:
- Execute o script para baixar os indicadores:
  bash
  Copiar código
  python -m scraper_indicadores
- Extraia os dados para o diretório de dados com o comando:
  bash
  Copiar código
  python -m extrair_zips_indicadores
Dados Financeiros do Portal da Transparência:
- Utilize o script para baixar os dados de despesas da Secretaria de Educação:
  bash
  Copiar código
  python -m scraper_despesas_sec_educacao

5. Como realizar as análises?

Com os dados extraídos e consolidados, os pesquisadores podem realizar diversas análises utilizando ferramentas de análise de dados como Python, R, ou softwares estatísticos como SPSS e Stata. A estrutura dos dados permite realizar análises descritivas, inferenciais, e modelagens avançadas, dependendo das necessidades do estudo.

6. Contribuições nas Análises

Pesquisadores são incentivados a contribuir com a base de dados através do repositório GitHub. Podem relatar problemas, sugerir melhorias ou adicionar novos scripts e funcionalidades. Esta colaboração contínua garante a evolução e a precisão da base de dados.

7. Onde estão armazenados os dados?

O principal objetivo de não armazenar os dados diretamente no Data Lake do Observatório de Dados Educacionais do Paraná é garantir a flexibilidade, a segurança e a eficiência na gestão dos dados. Ao invés de centralizar o armazenamento, a abordagem adotada permite que os dados sejam baixados e processados localmente pelos usuários. Essa metodologia oferece vários benefícios, tanto para os gestores de dados quanto para os pesquisadores e analistas que utilizam essas informações.

Ao não armazenar os dados de forma centralizada, o Observatório permite que os usuários adaptem a estrutura e o armazenamento dos dados conforme suas necessidades específicas. Pesquisadores podem escolher os formatos de dados e as ferramentas de análise que melhor se adequam aos seus projetos, sem ficarem restritos a uma única solução de armazenamento. Além disso, essa abordagem facilita a integração dos dados com sistemas locais existentes, permitindo uma análise mais contextual, personalizada e mais barata.

A decisão de não centralizar o armazenamento dos dados também está ligada a preocupações com segurança e privacidade. Armazenar grandes volumes de dados sensíveis, como informações educacionais, em um único local pode representar um risco significativo em caso de violações de segurança. Ao distribuir o armazenamento e permitir que os dados sejam gerenciados localmente, o Observatório reduz o risco de acesso não autorizado e garante que os dados possam ser protegidos de acordo com as políticas de segurança específicas de cada organização ou indivíduo.

8. Exemplos de Caminhos de Armazenamento Local

Os dados não são armazenados diretamente no repositório GitHub do Data Lake, mas os scripts fornecidos direcionam o download e a organização dos dados em ambientes locais configurados pelos usuários. Isso permite uma flexibilidade maior no manejo dos dados e evita a necessidade de armazenamento centralizado no próprio Data Lake. Além disso, esta abordagem protege o Observatório de Dados Educacionais de possíveis vazamentos de dados considerados sigilosos pela Lei Geral de Proteção de Dados (LGPD), garantindo conformidade com regulamentações de privacidade, uma vez que trabalha com dados públicos secundários e disponíveis.

Fontes de Dados:
- Microdados do INEP: Os dados podem ser baixados diretamente do site do INEP e de outras fontes educacionais.
- Indicadores Educacionais: Extraídos de bancos de dados públicos e outros repositórios oficiais.
- Dados Financeiros: Obtidos via API do Portal da Transparência do Paraná.
Processo de Extração:
- Os scripts disponíveis no repositório GitHub IND-EDU-PR-META04 automatizam o download e a extração desses dados.
- O diretório de dados local (DATA_DIR) é configurado pelos usuários onde os arquivos extraídos serão armazenados.
Armazenamento Local:
- Após a execução dos scripts, os dados são armazenados localmente no diretório especificado pela variável DATA_DIR.
- A estrutura de diretórios dentro do DATA_DIR organiza os dados extraídos em subdiretórios, facilitando o acesso e a análise subsequente.

Exemplos de Caminhos de Armazenamento Local

Suponha que a variável DATA_DIR esteja configurada como /caminho/para/diretorio_de_dados. A estrutura dos arquivos armazenados localmente pode ser algo como:

bash
Copiar código
/caminho/para/diretorio_de_dados/

├── microdados_inep/

  │ ├── censo_escolar_2020.csv

    │ ├── encceja_2021.xlsx

    │ └── …

    ├── indicadores_educacionais/

    │ ├── indicadores_2020.xlsx

    │ ├── indicadores_2021.csv

    │ └── …

    └── dados_financeiros/

         ├── despesas_educacao_2020.csv

         ├── despesas_educacao_2021.xlsx

         └── …

Observatório de
Dados de Educação

Repositório GitHub

Microdados do INEP

Indicadores Educacionais

Dados do Portal da Transparência do Paraná

Acesso ao Repositório GitHub

Configuração do Ambiente de Desenvolvimento

Extração e Consolidação de Dados

Exemplos de Caminhos de Armazenamento Local

Observatório de
Dados de Educação

O Observatório

Base de Dados

Painéis de Indicadores

Aprendizagem

Ensino

Gestão

Câmaras Técnicas

Publicações