Este ejercicio se deberá enviar por correo antes de las 11 PM del 1 de junio de 2020. Se debe entregar individualmente.

Este ejercicio tiene un valor de un punto adicional al promedio de los tres examenes parciales.

Notas: No se considera para el promedio final si se realiza un examen de reposición o examen final. En caso de encontrar respuestas iguales para dos alumnos, se eliminará el ejercicio a ambos.

Ejercicio adicional

Considere un vector \({\bf{Y}}=(Y_1,..., Y_k)\) asociado a una variable categórica con \(k\) posibles valores. Cada entrada del vector se define como

\[Y_r = \begin{cases} 1 &\quad\text{si la variable toma la categoría r},\\ 0 &\quad\text{en otro caso,} \\ \end{cases}\] para \(r=1,...,k\). Notar que \(\sum_{r=1}^{k}Y_r=1\), es decir, la variable sólo puede tomar una de las categorías.

Así pues, una variable categórica se puede modelar con este tipo de vector \({\bf{Y}}\) asumiendo una distribución multinomial, es decir,

\[{\bf{Y}} \sim multinomial(1, p_1,...,p_k ),\] donde \(\sum_{r=1}^{k}p_r=1\) y la función de probabilidad es

\[P({\bf{Y}}={\bf{y}})=P(Y_1=y_1,...,Y_k=y_k)= p_1^{y_1}p_2^{y_2}...p_k^{y_k},\] \(y_r \in \{0,1\}\), \(r=1,2,...,k\) tal que \(\sum_{r=1}^{k}y_r=1\). Otra forma alternativa para escribir la función de probabilidad es

\[P({\bf{Y}}={\bf{y}})=P(Y_1=y_1,...,Y_k=y_k)= p_1^{y_1}p_2^{y_2}...(1-p_1-...-p_{k-1})^{1-y_1-...-y_{k-1}}.\] Notar que en el caso de \(k=2\), se obtiene el caso de una distribución \(Bernoulli(p_1)\). En total, para esta distribución hay \(k-1\) parámetros por estimar.

Estimación por el método de máxima verosimilitud.

Se puede verificar que dada una muestra aleatoria de tamaño \(n\), \({\bf{Y}}_1,..., {\bf{Y}}_n\), los estimadores máximo verosímiles de \(p_1,..., p_k\) son

\[\widehat{p}_r= \sum_{i=1}^{n}y_{ir}/n,\]

donde \(y_{ir}\) es el valor que toma la i-ésima observación en la variable \(Y_r\), \(r=1,...,k\).

Sea \(k=3\). Demuestre lo anterior, escribiendo explícitamente la función de verosimilitud. Será necesario usar \(\sum_{r=1}^{k}y_{ir}=1\) y \(\sum_{r=1}^{k}p_r=1\).

Cociente de verosimilitud generalizado

Suponga que se desea contrastar

\[H_0: p_1 = p_1^0,..., p_k = p_k^0 \quad \quad vs \quad \quad H_a: p_r \neq p_r^0\; \text{para alguna }r,\; r=1,...,k,\] donde \(p_1^0,...,p_k^0\) son valores conocidos.

  1. Encuentre la prueba de hipótesis asociada al cociente de verosimilitud generalizado asumiendo \(n\) grande (usando las propiedades asintóticas).
  2. Sea \(\sum_{i=1}^{n}y_{ir}=O_r\) el número de observaciones en la muestra de tamaño \(n\) que toman la categoría \(r\) y sea \(E_r= np_r^0\) el número de observaciones esperadas en la categoría \(r\) cuando \(H_0\) es cierta. Demuestre que \[-2\ln\lambda=2 \sum_{r=1}^{k}O_r\ln\frac{O_r}{E_r}=G^2.\]

Prueba Ji-cuadrada

A la estadística \[X=\sum_{r=1}^{k}\frac{(O_r-E_r)^2}{E_r}\] se le conoce como la estadística de la prueba Ji-cuadrada.

Demuestre que la estadística \(X\) tiene aproximadamente y de forma asintótica una distribución \(\chi^2_{(k-1)}\) realizando lo siguiente:

  1. Considere la aproximación cuadrática alrededor de \(a\) usando Series de Taylor para la función \(x\ln(x/a)\). Con esto demuestre que \[2 \sum_{r=1}^{k}O_r\ln\frac{O_r}{E_r} \approx \sum_{r=1}^{k}\frac{(O_r-E_r)^2}{E_r}\]

  2. Dada la aproximación encontrada en el inciso anterior, concluya que la distribución asintótica de \(X\) tendría la distribución asintótica de \(G^2\).

Usando el resultado anterior se puede concluir que para contrastar

\[H_0: p_1 = p_1^0,..., p_k = p_k^0 \quad \quad vs \quad \quad H_a: p_r \neq p_r^0\; \text{para alguna }r,\; r=1,...,k,\] donde \(p_1^0,...,p_k^0\) son valores conocidos; la regla de decisión: “Rechazar \(H_0\) si \(X >\chi^2_{(k-1), \; 1-\alpha}\)” está asociada a una prueba de hipótesis con significancia \(\alpha\).

Aplicación para pruebas de bondad de ajuste.

En las pruebas de bondad de ajuste el objetivo es contrastar

\(H_0\): las observaciones \(x_1,...,x_n\) provienen de la distribución \(F(\theta)\)

vs

\(H_a\): las observaciones \(x_1,...,x_n\) no provienen de la distribución \(F(\theta)\)

Donde \(F(\theta)\) es una distribución dada que depende del parámetro \(\theta\), por ejemplo, la distribución \(N(\mu, \sigma^2)\) o la distribución \(Poisson(\theta)\).

Consideremos el caso cuando \(\theta\) está completamente dado, es decir, la distribución está completamente especificada, por ejemplo, es una distribución \(N(1, 1)\) o una \(Poisson(5)\). En este caso, se pueden crear \(k\) intervalos disjuntos sobre el soporte de una variable aleatoria \(X\) que sigue la distribución dada. Cada intervalo se puede considerar como una categoría de una variable categórica con \(k\) niveles. Además, bajo \(H_0\) cierta, es posible calcular la probabilidad de que la variable \(X\) tome los valores del intervalo \(r\)-ésimo. Es decir, para el \(r\)-ésimo intervalo \([a_r,b_r)\) se puede calcular \(p_r^0=P(a_r \le X< b_r)\), \(r=1,...,k\). A partir de lo anterior, si “las observaciones \(x_1,...,x_n\) provienen de la distribución \(F(\theta)\)”, entonces las probabilidades de la variable categórica deberían satisfacer que “\(p_1 = p_1^0,..., p_k = p_k^0\)”. Por lo que una opción es realizar la prueba asociada a:

\[H_0: p_1 = p_1^0,..., p_k = p_k^0 \quad \quad vs \quad \quad H_a: p_r \neq p_r^0\; \text{para alguna }r,\; r=1,...,k.\]

Problema.

Un ingeniero industrial ha contado en 50 paquetes aleatorios, cada uno de 13 productos, el número de productos defectuosos. A continuación se resume lo que observó. El número de paquetes con un total de productos defectuosos 0, 1, 2, 3 y más de cuatro son: 10, 24, 10, 4 y 2, respectivamente. ¿Se puede considerar que el número de productos defectuosos observados en la muestra de tamaño \(n=50\) provienen de una distribución \(Poisson(1.3)\)?

Realice la prueba de Bondad de Ajuste usando la estadística Ji-cuadrada con \(\alpha=.05\) y los siguientes \(k=5\) intervalos: \([0,1), [1,2), [2,3), [3,4), [4, \infty)\).