Fase 2 Entendimento dos Dados - PadawanXXVI/projeto_ams GitHub Wiki

📊 Fase 2 – Entendimento dos Dados

Nesta fase da metodologia CRISP-DM, exploramos e compreendemos os dados disponíveis, avaliando sua origem, estrutura, variáveis e possíveis limitações. O objetivo é garantir que os dados estejam adequados ao problema de negócio e à tarefa de classificação proposta.


📁 Fonte do Dataset

  • Nome: Students’ Academic Performance Dataset
  • Origem: Kaggle – Universidade da Jordânia (Kalboard 360 LMS)
  • Tecnologia de coleta: xAPI – ferramenta que registra interações dos alunos com a plataforma

🔗 Link para o Dataset


🧮 Estrutura dos dados

  • Número de registros: 480 estudantes
  • Número de atributos (features): 16 colunas explicativas + 1 alvo (Class)
  • Tipos de variáveis: categóricas, numéricas discretas e binárias
  • Valores ausentes: Nenhum (segundo a descrição oficial)

🧪 Principais atributos

Tipo Atributos
Demográficos gender, NationalITy, PlaceofBirth, Relation
Acadêmicos StageID, GradeID, SectionID, Topic, Semester
Comportamentais raisedhands, VisITedResources, AnnouncementsView, Discussion
Envolvimento dos pais ParentAnsweringSurvey, ParentschoolSatisfaction
Frequência StudentAbsenceDays (acima ou abaixo de 7 faltas)

🎯 Variável-alvo (Class)

  • Representa o nível de desempenho geral do aluno
  • Categorias:
    • H – High (90–100)
    • M – Middle (70–89)
    • L – Low (0–69)

🔁 Transformação para binário:

df['Class'] = df['Class'].apply(lambda x: 1 if x == 'L' else 0)

📊 Análises exploratórias realizadas Visualização da distribuição da variável Class

Frequência de categorias em colunas como gender, Topic, StageID

Identificação de variáveis potencialmente informativas para a predição

Exemplo de gráfico de barras gerado:

df["Class"].value_counts().plot(kind='bar', title="Distribuição da variável-alvo")

✅ Conclusões desta fase O dataset é limpo, completo e equilibrado para fins educacionais

As variáveis disponíveis oferecem conteúdo semântico valioso para inferência

O mapeamento binário da variável Class é coerente com o objetivo do projeto

🔙 Voltar à Home