007 ‐ Modelos Logísticos Binários e Multinomiais - NaimeAndere/Study-Area GitHub Wiki

Modelos Logísticos Binários e Multinomiais

FUNDAMENTAÇÃO e DEFINIÇÃO:

Modelos logísticos binários e multinomiais são tipos de modelos de regressão usados para prever a probabilidade de ocorrência de certos eventos categóricos. Esses modelos são amplamente utilizados em estatística e aprendizado de máquina quando a variável dependente (aquela que se quer prever) é categórica.

Modelo Logístico Binário

Definição: É utilizado quando a variável dependente tem apenas duas categorias, ou seja, o desfecho é binário (sim/não, 0/1, sucesso/falha).
- A regressão logística binária é um tipo de análise estatística usada para prever a probabilidade de um evento que tem duas possibilidades, como "sim" ou "não". Por exemplo, pode ser usada para prever se um cliente vai comprar um produto (sim ou não) com base em suas características. Em vez de prever um número contínuo, como em outras regressões, a regressão logística fornece uma probabilidade entre 0 e 1.
Função Logística: A função logística (ou sigmoid) é usada para mapear os valores preditos a uma probabilidade entre 0 e 1. A fórmula da função logística é:

onde m é a probabilidade do evento de interesse, B é o intercepto, B1 , … , Bk são os coeficientes dos preditores X1, … , Xk.
Interpretação: Os coeficientes B indicam a mudança no logaritmo das chances (log-odds) do evento, dada uma unidade de mudança no preditor.

Modelo Logístico Multinomial

Definição: É utilizado quando a variável dependente tem mais de duas categorias e não há uma ordem natural entre elas (por exemplo, tipos de produtos, categorias de risco).
Generalização do Binário: Enquanto o modelo binário lida com uma única função logística, o multinomial modela uma função logística para cada categoria (exceto uma de referência). A probabilidade para a i-ésima categoria é dada por:

onde m é o número de categorias da variável dependente.
Interpretação: Assim como no modelo binário, os coeficientes B indicam a influência dos preditores nas probabilidades das diferentes categorias em relação à categoria de referência.

Aplicações

Modelo Logístico Binário: Pode ser usado para prever se um cliente irá ou não comprar um produto, se um paciente tem ou não uma doença, etc.
Modelo Logístico Multinomial: Pode ser usado para prever a categoria de um produto que um cliente vai comprar, a escolha de um candidato em uma eleição com mais de dois candidatos, etc.

Ambos os modelos são poderosos em situações onde a resposta é categórica, permitindo a análise e a previsão de probabilidades de desfechos múltiplos com base em variáveis explicativas.

Variável Dicotônicas

Uma variável dicotômica é um tipo de variável categórica que assume apenas dois valores distintos. Esses dois valores representam duas categorias ou estados mutuamente exclusivos, ou seja, um valor exclui o outro.

Exemplos de Variáveis Dicotômicas:

Gênero (binário): Pode ser codificado como 0 para "masculino" e 1 para "feminino" (em contextos onde apenas duas categorias são consideradas).
Resultado de um teste: Pode ser 0 para "falha" e 1 para "sucesso".
Resposta de uma pergunta sim/não: Pode ser 0 para "não" e 1 para "sim".

Importância em Modelagem Estatística:

Variáveis dicotômicas são frequentemente usadas em modelos de regressão logística binária, onde o objetivo é prever a probabilidade de um dos dois possíveis desfechos.

A simplicidade das variáveis dicotômicas facilita a análise, especialmente em estudos onde os resultados podem ser claramente divididos em duas categorias.

Conceito de Probabilidade

A probabilidade é uma medida que quantifica a chance ou a possibilidade de um determinado evento ocorrer. É um conceito fundamental em estatística, matemática e várias áreas da ciência, usado para expressar a incerteza e prever a ocorrência de eventos futuros com base em informações conhecidas.

Conceitos Básicos de Probabilidade:

Evento: Um evento é um resultado ou um conjunto de resultados possíveis em um experimento ou situação aleatória. Por exemplo, em um lançamento de moeda, um evento poderia ser "sair cara".
Espaço Amostral: O espaço amostral é o conjunto de todos os possíveis resultados de um experimento. No caso de um lançamento de moeda, o espaço amostral é {cara, coroa}.
Probabilidade de um Evento: A probabilidade de um evento é a razão entre o número de resultados favoráveis a esse evento e o número total de resultados possíveis. A probabilidade é um número entre 0 e 1:
- 0: Indica que o evento não pode ocorrer.
- 1: Indica que o evento ocorrerá com certeza.
- Entre 0 e 1: Indica a chance relativa de o evento ocorrer. Por exemplo, uma probabilidade de 0,5 indica que o evento tem 50% de chance de ocorrer.
A fórmula básica para calcular a probabilidade de um evento (A) é:

$$ P(A) = \frac{\text{Número de resultados favoráveis a A}}{\text{Número total de resultados possíveis}} $$

Tipos de Probabilidade:

Probabilidade Clássica: Baseada em eventos igualmente prováveis. Exemplo: Lançar um dado equilibrado.
Probabilidade Empírica: Baseada na observação ou na frequência relativa dos eventos após vários experimentos. Exemplo: Probabilidade de chover em um dia específico com base em dados históricos.
Probabilidade Subjetiva: Baseada em crenças ou estimativas pessoais. Exemplo: A probabilidade de uma equipe de futebol ganhar um jogo, estimada por um torcedor.

Aplicações:

A probabilidade é usada para modelar incertezas e tomar decisões em situações onde o resultado não é garantido. Ela tem aplicações em diversas áreas, incluindo:

Estatística: Para testar hipóteses e fazer inferências.
Economia: Para prever mercados e riscos.
Engenharia: Para avaliar a confiabilidade de sistemas.
Ciências da Saúde: Para avaliar o risco de doenças e a eficácia de tratamentos.

Em resumo, a probabilidade fornece uma maneira de quantificar a incerteza e de lidar com a aleatoriedade em diversas situações do dia a dia e na ciência.

Conceito de Change

A chance, também conhecida como odds em inglês, é uma maneira de expressar a probabilidade de um evento ocorrer em relação à probabilidade de ele não ocorrer. Diferentemente da probabilidade, que mede a proporção de vezes que um evento ocorre em relação ao número total de eventos possíveis, a chance mede a razão entre a ocorrência e a não ocorrência de um evento.

Fórmula da Chance

A chance de um evento A ocorrer é dada por:

Onde:

P(A) é a probabilidade do evento A ocorrer.
(1 - P(A)) é a probabilidade do evento A não ocorrer.

Interpretação

Chance maior que 1: Significa que o evento é mais provável de ocorrer do que não ocorrer.
Chance igual a 1: Significa que o evento é tão provável de ocorrer quanto de não ocorrer (probabilidade de 50%).
Chance menor que 1: Significa que o evento é menos provável de ocorrer do que de não ocorrer.

Exemplo

Se a probabilidade de um time ganhar um jogo é 0,75 (ou 75%), a chance de vitória é:

Isso significa que o time tem 3 vezes mais chances de ganhar do que de perder.

Relação com a Probabilidade

Enquanto a probabilidade é expressa como uma fração ou porcentagem do total de possíveis resultados, a chance compara a probabilidade de um evento ocorrer com a probabilidade de ele não ocorrer. É uma medida comum em áreas como apostas, onde é importante entender a relação entre o sucesso e o fracasso de eventos.

Logito

Logit é uma função que mapeia probabilidades (que variam entre 0 e 1) para todo o conjunto dos números reais. A função logit é definida como:

onde p é a probabilidade.

Se você tem z = 1, isso geralmente está relacionado ao valor da variável z antes da aplicação da função logit. Mas, no contexto mais comum:

Logit com z = 1 poderia significar que o valor de z foi obtido por meio da função logit aplicada a uma probabilidade específica.
Para encontrar a probabilidade p correspondente a z = 1, você aplicaria a função inversa do logit, chamada sigmóide:

Substituindo z = 1 :

Então, se z = 1, isso significa que a probabilidade p correspondente é aproximadamente 0,731 (ou 73,1%).

Se o seu contexto for diferente ou específico, por favor, me forneça mais detalhes para que eu possa ajustar a explicação.

Regressão Logística binária

Sobre o modelo de regressão logística binária, podemos afirmar que

Vamos analisar cada uma das afirmações sobre o modelo de regressão logística binária:

Afirmação 1:

Neste tipo de modelo, a variável dependente será sempre quantitativa.

Esta afirmação está incorreta. Em uma regressão logística binária, a variável dependente é qualitativa (categórica) e dicotômica, ou seja, assume dois valores possíveis, geralmente codificados como 0 e 1, representando dois estados (por exemplo, sucesso/falha, sim/não).

Afirmação 2:

Trata-se de uma técnica supervisionada de machine learning para explicar ou predizer a probabilidade de ocorrência de determinado evento dicotômico em função de uma ou mais variáveis explicativas.

Esta afirmação está correta. A regressão logística binária é uma técnica de machine learning supervisionada usada para modelar a probabilidade de ocorrência de um evento dicotômico (com duas categorias), dado um conjunto de variáveis explicativas (que podem ser quantitativas ou qualitativas).

Afirmação 3:

As variáveis X poderão ser somente qualitativas.

Esta afirmação está incorreta. As variáveis explicativas (X) em um modelo de regressão logística podem ser tanto quantitativas quanto qualitativas. O modelo pode incluir variáveis contínuas, categóricas ou uma combinação de ambas.

Afirmação 4:

Não faz sentido estimar um modelo supervisionado de machine learning quando a variável dependente for qualitativa dicotômica.

Esta afirmação está incorreta. Na verdade, a regressão logística binária é precisamente um exemplo de modelo supervisionado de machine learning utilizado quando a variável dependente é qualitativa dicotômica. O modelo é estimado para prever a probabilidade de uma das categorias ocorrer.

Conclusão: A única afirmação correta é a Afirmação 2: Trata-se de uma técnica supervisionada de machine learning para explicar ou predizer a probabilidade de ocorrência de determinado evento dicotômico em função de uma ou mais variáveis explicativas.

Cálculo de probabilidade

Para calcular a probabilidade de conclusão da prova, precisamos primeiro calcular o valor do logito (Z) e, em seguida, transformar esse valor em probabilidade usando a função logística.

Calcular o logito (Z):

Z=a+b1×sexo+b2×idade

Substituindo os valores:

Z=0,34+0,14×1+(−0,047)×37

Z=0,34+0,14−1,739

Z=−1,259

Transformar o logito em probabilidade (P) usando a função logística:

P=1+e−Z1

Substituindo o valor de ZZZ:

P=1+e1,2591

P≈1+3,5231≈4,5231

P≈0,221

Resultado: A probabilidade de uma pessoa do sexo feminino e com 37 anos de idade concluir a prova é de aproximadamente 22,1%.

Você pode copiar e colar diretamente essas fórmulas no Notion.