Fase 2 Entendimento dos Dados - PadawanXXVI/projeto_ams GitHub Wiki
📊 Fase 2 – Entendimento dos Dados
Nesta fase da metodologia CRISP-DM, exploramos e compreendemos os dados disponíveis, avaliando sua origem, estrutura, variáveis e possíveis limitações. O objetivo é garantir que os dados estejam adequados ao problema de negócio e à tarefa de classificação proposta.
📁 Fonte do Dataset
- Nome: Students’ Academic Performance Dataset
- Origem: Kaggle – Universidade da Jordânia (Kalboard 360 LMS)
- Tecnologia de coleta: xAPI – ferramenta que registra interações dos alunos com a plataforma
🧮 Estrutura dos dados
- Número de registros: 480 estudantes
- Número de atributos (features): 16 colunas explicativas + 1 alvo (
Class
) - Tipos de variáveis: categóricas, numéricas discretas e binárias
- Valores ausentes: Nenhum (segundo a descrição oficial)
🧪 Principais atributos
Tipo | Atributos |
---|---|
Demográficos | gender , NationalITy , PlaceofBirth , Relation |
Acadêmicos | StageID , GradeID , SectionID , Topic , Semester |
Comportamentais | raisedhands , VisITedResources , AnnouncementsView , Discussion |
Envolvimento dos pais | ParentAnsweringSurvey , ParentschoolSatisfaction |
Frequência | StudentAbsenceDays (acima ou abaixo de 7 faltas) |
Class
)
🎯 Variável-alvo (- Representa o nível de desempenho geral do aluno
- Categorias:
H
– High (90–100)M
– Middle (70–89)L
– Low (0–69)
🔁 Transformação para binário:
df['Class'] = df['Class'].apply(lambda x: 1 if x == 'L' else 0)
📊 Análises exploratórias realizadas Visualização da distribuição da variável Class
Frequência de categorias em colunas como gender, Topic, StageID
Identificação de variáveis potencialmente informativas para a predição
Exemplo de gráfico de barras gerado:
df["Class"].value_counts().plot(kind='bar', title="Distribuição da variável-alvo")
✅ Conclusões desta fase O dataset é limpo, completo e equilibrado para fins educacionais
As variáveis disponíveis oferecem conteúdo semântico valioso para inferência
O mapeamento binário da variável Class é coerente com o objetivo do projeto