Tarea 1. Precede a examen 1. La tarea se deberá entregar el 17 de marzo. Se puede entregar por equipos de máximo 2 integrantes. Fecha de examen: 24 de marzo.
Usar una confianza de 95% o una significancia de .05 en los casos en donde no se requiera otro nivel de forma explícita.
Ocasionalmente, un modelo en donde el valor del intercepto es conocido a priori y es igual a cero puede ser apropiado. Este modelo está dado por:
\[y_{i}=\beta x_{i}+\epsilon_{i}, \qquad i=1,...,n,\]
donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n.\)
Muestre que el estimador de \(\beta\) obtenido por el método de mínimos cuadrados está dado por \(\widehat{\beta}=\sum_{i=1}^n x_{i}y_{i}\ / \sum_{i=1}^n x_{i}^2\). Argumente que \(\widehat{\beta}\) es un estimador lineal con respecto a las observaciones \(y_i\)’s.
Muestre que \(\widehat{\beta}\) es insesgado y que \(V(\widehat{\beta})=\sigma^2\ / \sum_{i=1}^n x_{i}^2\).
Considere además que \[y_i \sim N(\mu_i, \sigma^2),\] donde \(\mu_i=\beta x_i\) y con \(y_i\) y \(y_j\) variables aleatorias independientes para \(\; i\neq j\). Verifique que el estimador encontrado en i) también se obtiene usando máxima verosimilitud. Además, indique cual es el estimador máximo verosímil de \(\sigma^2\).
Demuestre que bajo el modelo de regresión \[y_i=\alpha + \beta x_i + \epsilon_i,\]
donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n\):
Bajo el modelo de regresión lineal simple: \[y_i=\alpha + \beta x_i + \epsilon_i,\]
donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n\).
Demuestre que el estimador de mínimos cuadrados \(\widehat{\beta}\) satisface:
Nota: Para este ejercicio no usar la versión general del Teorema de Gauss Markov demostrado en clase. Recuerde que \(\widehat{\beta}=\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})y_i}{\sum_{j=1}^{n}(x_j-\overline{x})^2}\).
Considere el modelo de regresión lineal simple \(y_i=\alpha + \beta x_i + \epsilon_i\). Ahora suponga que cada \(x_i\) es reemplazada por \(cx_i\), donde \(c\neq 0\), es decir, \(x_i^*=cx_i\); y que se considera el modelo \(y_i=\alpha^* + \beta^* x_i^* + \epsilon_i^*\). Indique como se relacionan los siguientes estimadores y estadísticas, por ejemplo, si son iguales o si difieren y cómo:
Para las preguntas 5 a 7, considere el modelo de regresión \[y_i=\alpha + \beta x_i + \epsilon_i,\]
donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n\)
Además, que el coeficiente de determinación \(R^2\) y de correlación lineal de Pearson entre \(x\) y \(y\), \(r_{xy}\), se definen como \[ R^2 = \dfrac{\sum_{i=1}^{n}(\widehat{y}_i-\overline{y})^2}{\sum_{i=1}^{n}(y_i-\overline{y})^2} \qquad y \qquad r_{xy}=\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{(\sum_{i=1}^{n}(x_i-\overline{x})^2\sum_{i=1}^{n}(y_i-\overline{y})^2)^{1/2}}.\]
Demuestre que \(R^2=r_{xy}^2\)
Suponga que \(x_1\) y \(x_2\) son dos variables para las cuales se tienen observaciones: \(x_{11},....,x_{1n}\) y \(x_{21},....,x_{2n}\), respectivamente. Suponga que se ajusta el modelo de regresión \[ x_1=\alpha + \beta x_2 + \epsilon\] obteniendose los estimadores por mínimos cuadrados \(\widehat{\alpha}\) y \(\widehat{\beta}\), respectivamente. Ahora suponga que se ajusta el modelo \[ x_2=\alpha^* + \beta^*x_1 + \epsilon^* \] obteniendose los estimadores \(\widehat{\alpha}^*\) y \(\widehat{\beta}^*.\) Muestre que si \(r\) es el coeficiente de correlación lineal de Pearson entre \(x_1\) y \(x_2\), entonces \[r^2 = \widehat{\beta}^* \widehat{\beta}.\]
Suponiendo que \(x\) y \(y\) son variables que siguen una distribución normal bivariada con coeficiente de correlación \(\rho=\rho_{xy}\), la prueba de hipótesis
\[``H_{0}:\rho=0 \quad vs \quad H_{a}:\rho \neq 0"\]
es de interés, pues en caso de rechazar \(H_0\) se puede decir que \(x\) y \(y\) no son independientes. Para realizar esta prueba se usa la siguiente estadística:
\[t^*=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}},\]
donde \(r\) denota la correlación lineal de Pearson \(r_{xy}\). Se puede verificar que esta estadística sigue una distribución \(t_{n-2}\) bajo \(H_0\).
Demuestre \[\hat{\beta}=\Bigg[ \frac{\sum(y_{i}-\bar{y})^2}{\sum(x_{i}-\bar{x})^2}\Bigg]^{1/2} \times r.\]
Demuestre que \(t^*=t\), donde \(t\) es la estadística usada para realizar la prueba \[``H_{0}: \beta=0 \quad vs \quad H_{1}:\beta\neq 0 ",\] es decir, \[t=\frac{\widehat{\beta}}{\sqrt{\frac{\widehat{\sigma}^2}{\sum_{i=1}^n(x_i-\overline{x})^2}}}\]
Una substancia usada en investigación médica es transportada en aviones de carga en paquetes de 1,000 ampolletas. Los datos que se muestran abajo corresponden a 10 envíos. En estos se reportan el número de veces que el paquete es transferido de un avión a otro en la ruta de envío \(x\), y el número de ampolletas encontradas rotas al llegar a su destino \(y\). Suponga que el modelo de regresión lineal simple es apropiado, \(y_i=\alpha + \beta x_i + \epsilon_i\).
i=c(1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10)
x=c(1 , 0 , 2 , 0 , 3 , 1 , 0 , 1 , 2 , 0)
y=c(16 , 9 , 17 , 12 , 22 , 13 , 8 , 15 , 19 , 11)
Datos8=data.frame(cbind(i,x,y))
Datos8
ggplot(data=Datos8, aes(x=x,y=y))+
geom_point(colour="black")+theme_classic()
Los \(ping\ddot{u}inos\) \(Macaroni\) ponen nidadas de dos huevos de tamaño diferente. El peso en gramos de los huevos de 11 nidadas se presenta en la tabla de abajo.
x=c(79, 93, 100, 105, 101, 96, 96, 109, 70, 71, 87)
y=c(133, 143, 164, 171, 165, 159, 162, 170, 127, 133, 148 )
Datos9=data.frame(cbind(x,y))
kable(Datos9)
x | y |
---|---|
79 | 133 |
93 | 143 |
100 | 164 |
105 | 171 |
101 | 165 |
96 | 159 |
96 | 162 |
109 | 170 |
70 | 127 |
71 | 133 |
87 | 148 |
ggplot(data=Datos9, aes(x=x,y=y))+
geom_point(colour="black")+theme_classic()
En una gran universidad se seleccionó al azar a 7 estudiantes de economía y se les aplicó una encuesta. Dos de las preguntas fueron: (1) ¿Cuál es el porcentaje de GPA en el semestre anterior?, (2) En promedio ¿Cuántas horas a la semana pasó durante el último semestre en el bar X? El bar X es un lugar muy conocido por los estudiantes.
Est=c(1 , 2 , 3 , 4 , 5 , 6 , 7 )
G=c(3.6, 2.2, 3.1, 3.5, 2.7, 2.6, 3.9)
H=c(3, 15, 8, 9, 12, 12, 4)
Datos10=data.frame(cbind(Est,G,H))
Datos10
ggplot(data=Datos10, aes(x=H,y=G))+
geom_point(colour="black")+theme_classic()