2023-07-19
Vamos explicar um pouco sobre
⬜ O que é o Regressão Poisson?
⬜ O que é o Regressão Binomial Negativa?
⬜ O que é o que é ser inflâcionada por zeros?
⬜ Aplicação no R!
⬜ Referência
Primeiro vamos da falar sobre distribuição poisson:
\[ f(x) = P(X=x) = \dfrac{e^{-\lambda}\lambda^x}{x!}I_{(0,\infty)}\]
É utilizadas para dados que envolvem dados de contagem.
É utilizada em dados discretos.
Suporte de zero a infinito.
A esperança é igual a variância (\(\lambda\));Equidispersão.
Soma \(n\) v.a.s independetes de poisson lambda é igual a soma dos lambdas.
Equidisperssão (Var(Y) = E(Y)) Padrão aleatório
Subdispersão (Var(Y) < E(Y)) Padrão Uniforme
Superdispersão (Var(Y) > E(Y)) Padrão agragado
\[ \lim_{n \rightarrow \infty \ \ \pi \rightarrow 0} \left[ {n \choose k} \left(\dfrac{\lambda}{n}\right)^k \left(1 - \dfrac{\lambda}{n}\right)^{n-k} \right] = \dfrac{e^\lambda\lambda^k}{k!} \]
Modelo de regressão Poisson ou Log linear de Poisson é comumente utilizado em análise de dados de contagem.
As pressuposições desse modelo é inerente a distribuição Poisson.
\[ f(y_i|x_i) = \dfrac{e^{-\mu_i}(\mu_i)^{y_i}}{y_i!} , I_{y(0,1,2,...,\infty)} \]
\[ \ln(\mu_i) = x_i'\beta , \] Em que \(\beta\)(beta) é o vetor de parâmetros do regressão.
Log-verossimilhança: \(l(\boldsymbol{\beta})=\sum_{i=1}^{n} \{ y_{i}\boldsymbol{x_{i}'\beta}-\exp{(\boldsymbol{x_{i}'\beta})}\}-\ln(y_{i}!));\)
Vetir escore: \(\boldsymbol{S}(\boldsymbol{\beta})=\frac{\partial l(\boldsymbol{\beta};\boldsymbol{y})}{\partial \boldsymbol{\beta}}= \sum_{i=1}^{n}(y_{i}-\exp(\boldsymbol{x_{i}'\beta}))\boldsymbol{x_{i}};\)
Matriz Informação: \(\boldsymbol{I({\beta})} = \sum_{i=1}^n \mu_i \boldsymbol{x_i x'_i} = \exp{(\boldsymbol{x'_i \beta})\boldsymbol{x_i x'_i}};\)
Distribuição assintótica: \(\boldsymbol{\hat{\beta}} \overset{a}{\sim} N \left ( \boldsymbol{\beta}, \left [ \sum_{i=1}^n \mu_i \boldsymbol{x_i x'_i} \right ]^{-1} \right );\)
A Regressão Poisson é um caso particular dos Modelos Lineares Generalizados (MLG). Algumas propriedades dessa classe de modelos:
Os estimadores são consistentes ainda que a distribuição especificada seja incorreta, mas desde que a média condicional de \(Y\) seja declarada corretamente;
Os erros padrões, intervalos de confiança e testes de hipóteses, no entanto, ficam comprometidos;
O ajuste de um MLG requer apenas a especificação:
Da esperança de \(Y\) condicional às covariáveis, mediante especificação do preditor linear e da função de ligação;
Da variância condicional, mediante especificação da função de variância \(V(\mu)\), possível inclusão do parâmetro de dispersão \((\phi)\), ou sua estimação por métodos robustos (abordagem de Quase-Verossimilhança).
Distribuição de probabilidades: \[ P(Y=k) = \left ( \begin{matrix} r+k-1\\ r-1 \end{matrix} \right ) (1-p)^rp^k, \hspace{0,2cm} I_{k(0,1,2,...,\infty)} \] sendo \(r=\alpha\) e \(p=\lambda/(\lambda+\alpha),\) com \(0<p<1\) e \(r>0\).
Modelagem do número de “sucessos” até o r-ésimo “fracasso” (\(r = 1,2,3,...\)), configurando uma generalização da distribuição geométrica (para \(r=1\)).
Modelagem de alguns tipos de processos pontuais envolvendo contágio
\[ E(Y)=\lambda \]
\[ Var(Y)= \lambda+ \alpha^{-1} \lambda^2 \] - Assim, para qualquer \(\alpha>0\), temos \(Var(Y)>\lambda\).
\[ g\left ( \theta;\alpha,\beta \right )=\frac{\beta^{\alpha}}{\Gamma\left ( \alpha \right )}\theta^{\alpha-1}e^{-\beta \theta},\quad \alpha, \beta, \nu>0, \]
com \(E(\theta)=\theta=\alpha /\beta\) e variância \(Var(\theta)=\alpha /\beta^2.\)
O modelo de regressão com resposta binomial negativa pode ser especificado fazendo \(E(y|\boldsymbol{x})=\exp(\boldsymbol{x'\beta}).\)
Para valores fixados de \(\alpha\), a distribuição binomial negativa fica expressa na forma da família exponencial linear, contemplada pela teoria de MLG.
A estimação dos parâmetros do modelo se dá numericamente, segundo um algoritmo em duas etapas, em que \(\alpha\) e \(\boldsymbol{\beta}\) são estimados condicionalmente até convergência.
As estimativas para \(\beta\) e \(\phi\) podem ser obtidas pelo algoritmo de mínimos quadrados ponderados:
\[ \beta^{(m+1)} = (X^T W^{(m)}X)^{-1}X^TW^{(m)}y^{*(m)} \\ \phi^{(m+1)}=\phi^{(m)}-\left( \dfrac{U_\phi^{(m)}}{L_\phi^{(m)}} \right) \]
Para m = 1,2,…, em que :
\[ y^{*} = X\beta+F^{-1}(y-\mu) \\ L_{\phi} = \sum_{i=1}^n\left(\psi'(\phi+y_i)+\dfrac{y_i-2\mu_i-\phi}{(\phi-\mu_i)^2}\right) + n\phi^{-1}(1-\phi\psi'(\phi)) \]
Onde o algoritmo de estimação para \(\beta\) e \(\phi\) são simultâneos, onde :
\(w_i = \dfrac{1}{(\mu_i+\mu_i^2\phi^{-1})}(\dfrac{d\mu_i}{dn_i})\) e \(f_i=\dfrac{d \mu_i}{dn_i}\)
Casos em que a proporção de valores nulos na amostra é superior àquela estimada por um modelo de contagem. No caso Poisson \(e^{-\lambda}\)
Geralmente contagens com um número excessivo de valores nulos apresentam superdispersão (ocasionada pelo excesso de zeros).
Os modelos mais flexíveis abordados não capturam esse excesso de zeros e não se ajustam adequadamente.
Uma limitação das abordagens estudadas é que as contagens nulas e não nulas são provenientes do mesmo processo gerador dos dados.
Para dados com excesso de zeros, é razoável a suposição da haver mais de um processo gerador atuando na geração dos dados.
Assim a ocorrência de valores nulos podem ser caracterizada como:
zeros amostrais: Ocorrem segundo um processo gerador de contagens (e.g Processo Poisson).
zeros estruturais: Ausência de determinada característica da população.
Exemplo: Um estudo que visa avaliar a quantidade de produtos comprados em um mercado por uma família na última semana. A variável de interesse é o número de itens comprados.
zeros estruturais: Se a família não foi ao mercado na última semana. Inevitavelmente o número de produtos será 0.
zeros amostrais: A família foi ao mercado, porém não adquiriu nenhum produto.
Como há dois processos que geram os valores da população, na modelagem deve-se considerar ambos. As principais abordagens nestes casos são via:
Modelos de barreira (Hurdle Models): que desconsidera os zeros amostrais e modela os zeros estruturais e as contagens positivas.
Modelos de mistura (Zero Inflated Models): que modela os zeros (estruturais e amostrais) em conjunto com as contagens positivas .
É um modelo que considera uma mistura de modelos,ou seja, seria um modelo sem restrições ou trucamentos e outros com restrições à direita do ponto \(y\) igual a um.Além disso, os zeros são caracterizados em amostrais e estruturais.
\[ Pr(Y=y) = \begin{cases} f_z(0) + 1(-f_z(0))f_c(Y=y) ,&\ se \ y =0 \\ (1-f_z(0))f_c(Y=y) ,& \ se \ y > \ 0 \end{cases} \]
\[ E(Y) = 1-f_z(0)E(Y^*) \]
\[ Var(Y) = 1-f_z(0)E(Y^*) [E(Y^{*^2})-(1-f_z(0)E^2(Y^*))] \]
Temos um modelo de mistura Y com duas funções(\(f_Z \ e \ f_c\))
\(f_z\) é um função de probabilidade com muitos valores no ponto zero, ou seja, degenerada no ponto y igual a zero.
\(f_c\) é uma função pde probabilidades para dados de contagem.
obs: Mesmo assim \(f_c\) pode apresntar sub,superdispersão ou excesso de valores em outro ponto.
Consideram uma mistura de modelos;
Distribuição de Probabilidade: \[ Pr(Y = y) = \begin{cases} f_z(0) + (1-f_z(0))f_c(Y=y) & \text{se } y = 0,\\ (1 - f_z(0)) f_c(Y = y) & \text{se } y = 1, 2, \dots \end{cases} \] Média e Variância : \[ \begin{cases} E(Y) = (1-f_z(0)E(Y^*)\\ V(Y) = (1-f_z(0)E(Y^*)[ E({Y^*}^2) - (1- f_z(0)E^2(Y^*)] \end{cases} \]
Pode-se propor diferentes distribuições para \(f_z\) e \(f_c\). Uma escolha natural para \(f_z\) é a Bernoulli e para \(f_c\) a Poisson. Assim
$$ \[\begin{align} &f_z \sim Bernoulli(\pi) \\ &f_c \sim Poisson(\lambda) \end{align}\]
\[ Sendo , \] P(Y = y) = \[\begin{cases} (1 - \pi) + \pi e^{-\lambda} & \text{se } y = 0,\\ \pi \left ( \frac{e^{-\lambda} \lambda^y}{y!} \right ) & \text{se } y = 1, 2, \dots \end{cases}\]$$
Embora essa escolha de modelo seja o que tem o maior suporte computacional, ressalta-se que outras distribuições podem ser escolhidas para ambas as partes \(f_z\) e \(f_c\).
\[ \begin{align*} L(\underline{\theta}; &\underline{y}) = \prod_{i=1}^n \textbf{1}^* \left ( (1-f_{z_i}(0)) f_{c_i}(y_i) \right ) \cdot \\ &\prod_{i=1}^n (1-\textbf{1}^*) \left ( f_{z_i}(0) + (1-f_{z_i}(0))f_{c_i}(0) \right ) \end{align*} \]
Sendo \(\textbf{1}^*\) a função indicadora que assume o valor 1 se \(y > 0\) e 0 se \(y = 0\) e \(\underline{\theta}\) o vetor de parâmetros do modelo ( \(\beta\), \(\gamma\) e \(\phi\), se houver).
\[ \begin{align*} l(\underline{\theta}; &\underline{y}) = \sum_{i = 1}^n \textbf{1}^* \left ( \log( 1-f_{z_i}(0)) + \log(f_{c_i}) \right ) + \\ &\sum_{i = 1}^n (1-\textbf{1}^*) \left ( \log(f_{z_i}(0) + (1-f_{z_i}(0))f_{c_i}(0)) \right ) \end{align*} \]
Sendo \(\textbf{1}^*\) a função indicadora que assume o valor 1 se \(y > 0\) e 0 se \(y = 0\) e \(\underline{\theta}\) o vetor de parâmetros do modelo ( \(\beta\), \(\gamma\) e \(\phi\), se houver).
Temos o pacote pscl (Political Science Computational Laboratory, Stanford University) e o pacote VGAM(Vector Generalized Linear and Additive Models).
library(pscl)
zeroinfl(y ~ fc_preditor | fz_preditor, dist = "poisson", link = "logit")
zeroinfl(y ~ fc_preditor | fz_preditor, dist = "negbin", link = "logit")
Temos a base bioChemists que temos uma amostra de 915 bioquímicos graduados.
Sendo:
Paula, G. A. (2013). Modelos de regressão com apoio computacional. IME-USP, São Paulo.
Winkelmann, R. (2008). Econometric analysis of count data (5th Ed.). Springer Science & Business Media.
CONSUL, P. C Generalized Poisson Distributions: Properties and Applications. Statistics: Textbooks and Monographs, New York: Marcel Dekker Inc. 1989.
Long, J. Scott. 1990. The origins of sex differences in science. Social Forces. 68(3):1297-1316.
Long, J. Scott. 1997. Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks, California: Sage.
Slides por Thalis e Robert, feito em Quarto. Código disponível no GitHub.