001 ‐ Fundamentos da Estatística - NaimeAndere/Study-Area GitHub Wiki

Exemplos de Aplicações de Métricas Estatísticas:

1. Tabela de Frequências:

Contagem de defeitos por tipo: Categorizar e contar os tipos de defeitos encontrados em veículos durante a inspeção de qualidade.
Frequência de acidentes por modelo: Analisar a frequência de acidentes envolvendo diferentes modelos de carros para identificar potenciais problemas de segurança.
Demanda por cores de veículos: Criar uma tabela com a frequência de escolha de cores de carros pelos clientes para otimizar a produção.

2. Descritivas - Quantitativa:

Média de quilometragem de carros usados: Calcular a média de quilometragem de carros usados à venda para determinar seu valor de mercado.
Desvio padrão do tempo de espera para atendimento em uma oficina: Avaliar a variabilidade no tempo de espera para o serviço em uma oficina, ajudando na gestão de filas e satisfação do cliente.
Mediana do preço de carros compactos: Determinar o preço médio de carros compactos, uma medida mais robusta que a média em caso de valores extremos.

3. Associação - Qui²:

Relação entre tipo de veículo e gênero do comprador: Verificar se existe associação entre o tipo de veículo (SUV, Sedan, Hatch) e o gênero do comprador.
Associação entre satisfação do cliente e tempo de espera na oficina: Avaliar se há associação entre a satisfação do cliente e o tempo de espera pelo serviço na oficina.

4. Correlação de Pearson:

Correlação entre investimento em marketing e número de vendas: Analisar a força e direção da relação entre o investimento em campanhas de marketing e o número de vendas de veículos.
Correlação entre idade do veículo e custo de manutenção: Determinar se existe correlação entre a idade de um veículo e os custos de manutenção, auxiliando na precificação de serviços.

5. Distribuição Binomial:

Probabilidade de encontrar um veículo com defeito em uma linha de produção: Calcular a probabilidade de um veículo sair da linha de produção com defeito, com base na taxa de defeitos observada.
Probabilidade de sucesso de uma campanha de recall: Estimar a probabilidade de que um determinado número de proprietários atenda ao chamado de recall para reparo de seus veículos.

6. Distribuição Binomial Negativa:

Número de tentativas até encontrar um defeito em um teste de qualidade: Modelar o número de veículos inspecionados até encontrar um com defeito, útil para determinar o tamanho amostral em testes de qualidade.

7. Distribuição Poisson:

Número de acidentes em um cruzamento por dia: Modelar a frequência de acidentes em um determinado cruzamento, auxiliando na gestão de tráfego e segurança viária.
Número de clientes que chegam em uma concessionária por hora: Estimar o número de clientes que chegam em uma concessionária a cada hora, auxiliando na gestão de pessoal e atendimento.

8. Distribuição Normal:

Tempo de montagem de um motor: Modelar o tempo necessário para montar um motor, considerando a variabilidade natural do processo.
Consumo de combustível de um modelo de carro: Descrever a distribuição do consumo de combustível de um modelo específico, considerando a variação entre os veículos.

9. Distribuição Qui-Quadrado:

Comparar a variância de dois processos de produção: Avaliar se a variabilidade na qualidade de peças produzidas por dois métodos de produção é significativamente diferente.

10. Distribuição t Student:

Comparar a média de consumo de combustível de dois modelos de carros com amostras pequenas: Determinar se a diferença na média de consumo entre dois modelos de carros é estatisticamente significativa, com base em amostras pequenas.

11. Distribuição F Snedecor:

Comparar a variância do tempo de entrega de peças de diferentes fornecedores: Avaliar se a variabilidade no tempo de entrega de peças de diferentes fornecedores é significativamente diferente, auxiliando na escolha do fornecedor ideal.

12. Teste Z Médias:

Comparar a média de vendas de carros em duas cidades: Determinar se a diferença na média de vendas de carros entre duas cidades é estatisticamente significativa, com base em amostras grandes.

13. Teste t Médias:

Comparar a média de satisfação de clientes entre duas concessionárias: Avaliar se a diferença na média de satisfação dos clientes entre duas concessionárias é estatisticamente significativa, com base em amostras pequenas.

14. Teste Qui² Uma Amostra:

Verificar se a distribuição de cores de carros vendidos corresponde à preferência do público: Comparar a frequência observada de cores de carros vendidos com a frequência esperada com base em pesquisas de mercado.

15. Teste F Variâncias:

Comparar a variância no tempo de frenagem de carros com dois tipos de pneus: Determinar se a variabilidade no tempo de frenagem é significativamente diferente entre carros equipados com dois tipos de pneus.

16. Intervalo de Confiança - Média:

Estimar o intervalo de confiança para a média de quilometragem de carros usados: Determinar um intervalo de valores plausível para a verdadeira média de quilometragem de carros usados, com base em uma amostra.

17. Teste t Duas Amostras Independentes:

Comparar a média de salários de homens e mulheres em uma fábrica: Analisar se existe diferença significativa entre os salários médios de homens e mulheres em uma fábrica, considerando amostras independentes.

Testes de Hipóteses

Exemplos Práticos de Testes de Hipóteses:

1. Marketing e Publicidade:

Eficácia de uma campanha publicitária: Uma empresa quer saber se a nova campanha publicitária aumentou as vendas. Eles podem coletar dados de vendas antes e depois da campanha e usar um teste de hipóteses para determinar se o aumento observado é estatisticamente significativo ou apenas uma variação aleatória.
Comparação de designs de sites: Duas versões de um site são testadas para ver qual resulta em mais cliques em um determinado botão. Um teste A/B com teste de hipóteses pode determinar qual design é estatisticamente mais eficaz.

2. Medicina e Saúde:

Efetividade de um novo medicamento: Um novo medicamento para pressão arterial é testado em um grupo de pacientes. Um teste de hipóteses pode determinar se a redução na pressão arterial observada é estatisticamente significativa ou se pode ser atribuída ao acaso.
Impacto de um programa de exercícios: Um estudo investiga se um novo programa de exercícios reduz o colesterol. Um teste de hipóteses pode avaliar se a redução do colesterol observada no grupo que participou do programa é estatisticamente significativa em comparação com um grupo de controle.

3. Manufatura e Engenharia:

Controle de qualidade: Uma fábrica de peças automotivas usa testes de hipóteses para verificar se as peças produzidas estão dentro das especificações de tolerância. Se uma amostra de peças apresentar medidas fora da tolerância, o processo de produção pode precisar ser ajustado.
Durabilidade de um novo material: Um novo tipo de plástico é testado para determinar sua resistência à tração. Um teste de hipóteses pode determinar se a resistência observada é significativamente maior do que a do material atual.

4. Educação:

Eficácia de um novo método de ensino: Um novo método de ensino de matemática é implementado em uma escola. Um teste de hipóteses pode comparar as notas dos alunos que aprenderam com o novo método com as notas dos alunos que aprenderam com o método tradicional para determinar se o novo método é mais eficaz.
Impacto de um programa de tutoria: Um programa de tutoria é oferecido para alunos com dificuldades em leitura. Um teste de hipóteses pode avaliar se o programa teve um impacto estatisticamente significativo na melhora das habilidades de leitura dos alunos.

5. Finanças:

Eficácia de uma estratégia de investimento: Um fundo de investimento alega ter um retorno superior à média do mercado. Um teste de hipóteses pode determinar se o desempenho do fundo é estatisticamente significativo ou apenas devido à sorte.
Previsão de preços de ações: Um analista desenvolve um modelo para prever os preços das ações. Testes de hipóteses podem ser usados para avaliar a precisão do modelo e determinar se ele pode gerar previsões confiáveis.

Em resumo, os testes de hipóteses são ferramentas essenciais para tomar decisões informadas em diversas áreas. Eles permitem que você use dados para verificar a validade de suas suposições e determinar se as diferenças observadas são estatisticamente significativas ou apenas flutuações aleatórias.

Nível de significância de 5%, significa que vc tem uma credibilidade de 95%

Diferença entre “Teste Z” e “Teste T”

Tanto o Teste Z quanto o Teste T são testes de hipóteses paramétricos que avaliam se há uma diferença significativa entre as médias de duas populações. No entanto, eles são usados em situações diferentes, dependendo das informações disponíveis sobre a população e o tamanho da amostra.

Teste Z:

Condições: O teste Z é utilizado quando:
- O desvio padrão populacional (σ) é conhecido.
- O tamanho da amostra (n) é grande (geralmente considerado como n > 30).
Vantagem: Mais preciso quando o desvio padrão populacional é conhecido.

Teste T:

Condições: O teste T é utilizado quando:
- O desvio padrão populacional (σ) é desconhecido.
- O desvio padrão amostral (s) é usado como uma estimativa do desvio padrão populacional.
- O tamanho da amostra (n) pode ser pequeno ou grande.
Vantagem: Mais robusto e confiável quando o desvio padrão populacional é desconhecido, especialmente com amostras pequenas.

Em resumo:

Desvio padrão populacional conhecido e amostra grande: Use o Teste Z.
Desvio padrão populacional desconhecido ou amostra pequena: Use o Teste T.

Exemplo prático:

Teste Z: Uma empresa de alimentos quer comparar o peso médio de dois tipos de biscoitos. Eles sabem o desvio padrão populacional do peso dos biscoitos e coletam uma grande amostra de cada tipo. Eles usariam um teste Z para determinar se há uma diferença significativa no peso médio dos dois tipos de biscoitos.
Teste T: Um pesquisador quer comparar o desempenho de alunos que usaram um novo método de ensino com o desempenho de alunos que usaram o método tradicional. O desvio padrão populacional das notas dos alunos é desconhecido, e a amostra é relativamente pequena. O pesquisador usaria um teste T para avaliar se há uma diferença significativa no desempenho médio dos alunos entre os dois grupos.

Conclusão:

A escolha entre o Teste Z e o Teste T depende principalmente do conhecimento do desvio padrão populacional e do tamanho da amostra. Ao selecionar o teste apropriado, você garante a validade e confiabilidade de seus resultados.

Diferença entre h0 e h1 na estatística

Em estatística, H0 e H1 representam a hipótese nula e a hipótese alternativa, respectivamente. Elas são componentes essenciais do processo de teste de hipóteses, que busca determinar se há evidências suficientes para rejeitar a hipótese nula.

H0 (Hipótese Nula):

É a afirmação inicial que estamos tentando refutar ou negar.
Geralmente representa o status quo, a crença comum ou a ausência de efeito.
É formulada com base em conhecimento prévio ou em uma suposição inicial.
Exemplo: "Não há diferença significativa na altura média de homens e mulheres."

H1 (Hipótese Alternativa):

É a afirmação que estamos tentando apoiar ou encontrar evidências para.
Representa a nova ideia, o efeito que estamos investigando ou a diferença que estamos tentando detectar.
É formulada em oposição à hipótese nula.
Exemplo: "Há uma diferença significativa na altura média de homens e mulheres."

O objetivo do teste de hipóteses é determinar se há evidências suficientes para rejeitar H0 em favor de H1.

Exemplo:

Imagine que queremos testar se um novo medicamento para pressão arterial é eficaz.

H0: O novo medicamento não tem efeito na pressão arterial.
H1: O novo medicamento tem efeito na pressão arterial.

Coletamos dados sobre a pressão arterial de pacientes que tomam o novo medicamento e de pacientes que tomam um placebo. Em seguida, usamos métodos estatísticos para analisar os dados e determinar se há evidências suficientes para rejeitar H0.

Importante:

Nunca "provamos" H1. Apenas encontramos evidências suficientes (ou não) para rejeitar H0.
A escolha de H0 e H1 depende da pergunta de pesquisa e do objetivo do estudo.

Média

Na estatística, a média é uma medida de tendência central que indica o valor central de um conjunto de números. Ela é calculada somando todos os valores numéricos do conjunto de dados e depois dividindo essa soma pelo número total de valores. A média é frequentemente referida como a "média aritmética" e é uma das medidas estatísticas mais comumente usadas para resumir dados.

Por exemplo, se temos um conjunto de números: 3, 5, 7, 10, 15, a média seria calculada como:

Untitled

A média é útil para fornecer uma visão geral do valor típico em um conjunto de dados. No entanto, é importante notar que a média pode ser afetada por valores extremamente altos ou baixos (outliers) no conjunto de dados. Nessas situações, outras medidas de tendência central, como a mediana ou a moda, podem fornecer uma melhor representação do valor central.

Na estatística, a mediana é uma medida de tendência central que indica o valor do meio de um conjunto de números quando esses números são ordenados em ordem crescente ou decrescente. A mediana divide o conjunto de dados em duas metades iguais. Diferentemente da média, a mediana não é afetada por valores extremamente altos ou baixos (outliers), o que a torna uma medida útil de tendência central, especialmente em distribuições assimétricas.

Mediana

Para encontrar a mediana:

Organize os dados em ordem crescente ou decrescente.
Localize o valor do meio:
- Se o número de observações no conjunto de dados for ímpar, a mediana será o valor que ocupa a posição central.
- Se o número de observações for par, a mediana será a média dos dois valores centrais.

Exemplos

Conjunto Ímpar de Dados: Se temos os valores 3, 5, 9, então:

Ordenados: 3, 5, 9
A mediana é 5, pois é o número que está no meio.

Conjunto Par de Dados: Se temos os valores 3, 5, 7, 10:

Ordenados: 3, 5, 7, 10
Os dois números do meio são 5 e 7, então a mediana é a média desses dois números: (5 + 7) / 2 = 6.

A mediana é particularmente útil em situações onde a distribuição dos dados é fortemente inclinada para um lado, já que, nesses casos, a média pode ser puxada para o lado dos valores extremos e não representar adequadamente o "centro" dos dados.

#Moda Na estatística, a moda é a medida de tendência central que representa o valor ou valores mais frequentes em um conjunto de dados. Diferentemente da média e da mediana, a moda pode ser aplicada a dados de qualquer tipo — numérico, ordinal ou nominal — e é possível que um conjunto de dados tenha mais de uma moda ou até mesmo não tenha moda.

Características da Moda

Unimodal: Um conjunto de dados é dito unimodal quando possui uma única moda, ou seja, um único valor que aparece com maior frequência.
Bimodal: Um conjunto de dados é bimodal quando possui duas modas, ou seja, dois valores distintos que aparecem com a maior frequência compartilhada.
Multimodal: Um conjunto de dados é multimodal quando possui mais de duas modas.
Amodal: Um conjunto de dados é considerado amodal quando não há repetições de valores, ou seja, todos os valores aparecem com a mesma frequência, e portanto, não existe um valor que se destaque como mais frequente.

Exemplos

Conjunto Numérico: Para os valores 1, 2, 4, 4, 7, 9, a moda é 4, pois é o número que aparece com mais frequência.
Conjunto Bimodal: Para os valores 1, 2, 2, 3, 4, 4, 5, a moda seria 2 e 4, tornando o conjunto bimodal.
Conjunto de Palavras (Dados Nominais): Em uma pesquisa sobre cores favoritas, onde as cores "azul", "verde", "azul", "vermelho", "verde", "verde" são mencionadas, a moda seria "verde".

Importância da Moda

A moda é particularmente útil para entender características de conjuntos de dados em que os valores mais frequentes são de interesse. Em análises qualitativas, especialmente com dados nominais ou categóricos, a moda pode fornecer insights significativos que outras medidas de tendência central, como média e mediana, não conseguem oferecer. Por exemplo, em marketing, saber qual produto é mais popular (moda) pode ser mais relevante do que conhecer a média de produtos vendidos.

#Variância

Na estatística, a variação (ou variância) é uma medida de dispersão que indica o quão espalhados estão os valores de um conjunto de dados em relação à sua média. De forma mais técnica, a variância mede a média dos quadrados dos desvios de cada valor em relação à média do conjunto. Isso significa que ela fornece uma ideia de quão distante, em média, cada valor está do valor médio do conjunto.

A variância pode ser calculada tanto para uma população inteira quanto para uma amostra dessa população, com pequenas diferenças na fórmula usada em cada caso.

Variância de uma População

A variância de uma população σ ² é calculada usando a fórmula:

Untitled

onde:

σ ² é a variância da população,
N é o número total de elementos na população,
xi é cada valor individual da população,
μ é a média da população.

Variância de uma Amostra

A variância de uma amostra s² é calculada de forma um pouco diferente para evitar o viés decorrente do uso de uma amostra em vez de toda a população. A fórmula é:

Untitled

onde:

s² é a variância da amostra,
n é o número de elementos na amostra,
xi é cada valor individual da amostra,
bar{x} é a média da amostra.

Interpretação

A variância é uma medida fundamental na estatística, fornecendo uma base para várias outras técnicas estatísticas, incluindo o desvio padrão, que é a raiz quadrada da variância. Uma variância alta indica que os dados estão mais espalhados em relação à média, enquanto uma variância baixa indica que os dados estão mais agrupados perto da média.

No entanto, uma característica importante da variância é que ela está em uma unidade de medida ao quadrado dos dados originais, o que pode dificultar a interpretação direta, especialmente quando se tenta entender a dispersão dos dados em sua unidade original. Por isso, o desvio padrão, por estar na mesma unidade dos dados, é frequentemente utilizado juntamente com a variância para fornecer uma compreensão mais intuitiva da dispersão dos dados.

#Desvio Padrão

Na estatística, o desvio padrão é uma medida de dispersão que indica o quão espalhados os valores de um conjunto de dados estão em relação à sua média. Ele mede a variação ou a dispersão dos dados em uma distribuição. O desvio padrão é a raiz quadrada da variância, o que significa que ele retorna a dispersão dos dados para a unidade original de medida dos dados, facilitando a interpretação em comparação à variância, que é expressa em unidades quadradas.

Fórmulas

Para uma população, o desvio padrão (σ) é calculado por:

Untitled

onde:

N é o número total de elementos na população,
xi é cada valor na população,
μ é a média da população.

Para uma amostra, o desvio padrão (s) é calculado por:

Untitled

onde:

n é o número de elementos na amostra,
xi é cada valor na amostra,
bar{x} é a média da amostra.

A diferença no denominador (usando (N) para a população e n-1 para a amostra) ajusta o viés na estimativa da variância (e, portanto, do desvio padrão) de uma amostra. Este ajuste é conhecido como "correção de Bessel".

Interpretação

Baixo Desvio Padrão: Indica que os valores estão mais próximos da média.
Alto Desvio Padrão: Indica que os valores estão mais dispersos em relação à média.

Importância

O desvio padrão é amplamente utilizado nas estatísticas para entender a dispersão ou variabilidade dos dados. Ele é fundamental em diversas aplicações, incluindo:

Avaliação do risco em investimentos financeiros.
Medição da variabilidade em pesquisas científicas e experimentos.
Controle de qualidade em processos de manufatura.

Além disso, o desvio padrão é a base para construir intervalos de confiança e realizar testes de hipóteses, sendo um componente crucial na interpretação de dados e na tomada de decisões baseadas em análises estatísticas.

#Amplitude

Na estatística, a amplitude é uma medida de dispersão que indica a diferença entre o valor máximo e o valor mínimo de um conjunto de dados. Ela é a forma mais simples de medir a variação ou a dispersão dentro de um conjunto de dados. A amplitude é calculada simplesmente subtraindo o menor valor (mínimo) do maior valor (máximo) dentro do conjunto. A fórmula para calcular a amplitude (A) é:

[ A = \text{Valor máximo} - \text{Valor mínimo} ]

Por exemplo, se você tem um conjunto de dados consistindo nos valores [1, 2, 4, 6, 9], a amplitude seria calculada da seguinte maneira:

Valor máximo: 9
Valor mínimo: 1
Amplitude (A) = 9 - 1 = 8

A amplitude é uma medida muito básica de dispersão e, enquanto fornece uma noção da variação total dentro de um conjunto de dados, ela tem suas limitações. Uma delas é que ela só leva em conta os valores extremos do conjunto, ignorando completamente como os dados estão distribuídos entre esses extremos. Por isso, outras medidas de dispersão, como a variância e o desvio padrão, são frequentemente usadas em complemento à amplitude para fornecer uma visão mais completa da dispersão dos dados.

#Quartis

Os quartis são valores que dividem um conjunto de dados ordenados em quatro partes iguais, cada uma contendo aproximadamente um quarto (25%) dos dados. Eles são uma forma de medida de tendência central e dispersão, ajudando a entender a distribuição e a variabilidade dos dados. Os quartis são especialmente úteis para identificar a distribuição dos dados, pontos fora do comum (outliers) e a simetria do conjunto de dados. Existem três quartis principais:

Primeiro Quartil (Q1): Também conhecido como o quartil inferior, divide os 25% menores dados do conjunto dos 75% maiores. Em outras palavras, 25% dos dados são menores ou iguais a Q1.
Segundo Quartil (Q2): Corresponde à mediana do conjunto de dados, dividindo-o ao meio. Portanto, 50% dos dados são menores ou iguais a Q2. A mediana assegura uma ideia do valor central dos dados.
Terceiro Quartil (Q3): Conhecido como o quartil superior, divide os 75% menores dados dos 25% maiores. Isso significa que 75% dos dados são menores ou iguais a Q3.

Para encontrar os quartis, você primeiro precisa ordenar os dados em ordem crescente. A partir daí, a mediana (Q2) é determinada. Para encontrar o Q1, você calcula a mediana da primeira metade dos dados (antes de Q2), e para o Q3, você calcula a mediana da segunda metade dos dados (após Q2).

Por exemplo, considere o conjunto de dados ordenado [1, 3, 4, 7, 8, 9, 10]. A mediana (Q2) é 7, pois é o número central. O Q1 é a mediana da primeira metade [1, 3, 4], que é 3. O Q3 é a mediana da segunda metade [8, 9, 10], que é 9.

Os quartis são uma parte fundamental da caixa de bigodes (box plot), uma representação gráfica que mostra a distribuição dos dados de acordo com os quartis, destacando onde a maioria dos dados se concentra e onde estão os valores extremos.