Examen 1. Regresión lineal simple

Examen 1. Debe responder sólo 4 de los 5 ejercicios y mandar la solución a más tardar a las 7:30 PM.

Usar una confianza de 95% o una significancia de .05 en los casos en donde no se requiera otro nivel de forma explícita.

1. Regresión a través del origen.

Ocasionalmente, un modelo en donde el valor del intercepto es conocido a priori y es igual a cero puede ser apropiado. Este modelo está dado por:

\[y_{i}=\beta x_{i}+\epsilon_{i}, \qquad i=1,...,n,\]

donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n.\)

Muestre que el estimador de \(\beta\) obtenido por el método de mínimos cuadrados está dado por \(\widehat{\beta}=\sum_{i=1}^n x_{i}y_{i}\ / \sum_{i=1}^n x_{i}^2\). Argumente que \(\widehat{\beta}\) es un estimador lineal con respecto a las observaciones \(y_i\)’s.
Demuestre que \(\sum_{i=1}^n y_{i}^2= \sum_{i=1}^n (y_{i}-\hat{y}_{i})^2+\sum_{i=1}^n \hat{y}_{i}^2\).

2. Teorema Gauss-Markov

Bajo el modelo de regresión lineal simple: \[y_i=\alpha + \beta x_i + \epsilon_i,\]

donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n\).

Demuestre que el estimador de mínimos cuadrados \(\widehat{\alpha}\) satisface:

es un estimador lineal e insesgado de \(\alpha\) y
su varianza es mínima dentro del conjunto de estimadores lineales insesgados de \(\alpha\).

Nota: Para este ejercicio no usar la versión general del Teorema de Gauss Markov demostrado en clase.

3.

Bajo el modelo de regresión lineal simple: \[y_i=\alpha + \beta x_i + \epsilon_i,\]

donde \(E(\epsilon_i)=0, \; V(\epsilon_i)=\sigma^2 \;\; \text{y} \;\; Cov(\epsilon_i, \epsilon_j)=0 \; \forall \; i\neq j; \; \; i,j = 1,...,n\).

Demuestre que el estimador insesgado de \(\sigma^2\) satisface

\[\begin{align} \widehat{\sigma}^2 = \dfrac{\sum_{i=1}^n (y_i-\overline{y})^2-\widehat{\beta}^2\sum_{i=1}^n (x_i-\overline{x})^2}{n-2}\end{align} \]

Demuestre \[\sum_{i=1}^n Cov(y_i-\overline{y},\widehat{\beta}(x_i-\overline{x}))=\sigma^2.\]

4.

Una substancia usada en investigación médica es transportada en aviones de carga en paquetes de 1,000 ampolletas. Los datos que se muestran abajo corresponden a 10 envíos. En estos se reportan el número de veces que el paquete es transferido de un avión a otro en la ruta de envío \(x\), y el número de ampolletas encontradas rotas al llegar a su destino \(y\). Suponga que el modelo de regresión lineal simple es apropiado, \(y_i=\alpha + \beta x_i + \epsilon_i\).

Dé la recta ajustada, realice una prueba de hipótesis para decidir si existe una relación lineal entre el número de veces que un paquete de ampolletas es transferido (Y) y el número de ampolletas rotas (X), finalmente interprete \(R^2\).
Debido a cambios repentinos en las rutas de la aerolínea, los envíos podrían ser transferidos de la siguiente forma: en el 40% se realizarán 2 transferencias, en un 30% se realizarán 3 y en el resto 4. De seguir ese comportamiento de cambios repentinos en las rutas de la aerolínea, se desea saber cuál sería el número medio de ampolletas rotas que se tendrían. Dé una estimación intervalar.
En los días siguientes, se harán dos envíos independientes, en cada uno habrá tres transferencias. Obtenga un intervalo al \(90\%\) para el número total de ampolletas rotas en los dos envíos.

\(\sum x_i= 10\), \(\sum y_i= 142\), \(\sum (x_i-\overline{x})^2=\sum x_i^2-n\overline{x}^2= 10\), \(\sum (y_i-\overline{y})^2=\sum y_i^2-n\overline{y}^2= 177.6\), y \(\sum (x_i-\overline{x})(y_i-\overline{y})=\sum x_iy_i-n\overline{x}\overline{y}= 40\).

i=c(1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10)
x=c(1 , 0 , 2 , 0 , 3 , 1 , 0 , 1 , 2 , 0)
y=c(16 , 9 , 17 , 12 , 22 , 13 , 8 , 15 , 19 , 11)

Datos8=data.frame(cbind(i,x,y))
Datos8

fit1=lm(y~x, data=Datos8)
options(digits=10)
summary(fit1)

## 
## Call:
## lm(formula = y ~ x, data = Datos8)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##   -2.2   -1.2    0.3    0.8    1.8 
## 
## Coefficients:
##               Estimate Std. Error  t value   Pr(>|t|)    
## (Intercept) 10.2000000  0.6633250 15.37708 3.1783e-07 ***
## x            4.0000000  0.4690416  8.52803 2.7487e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.48324 on 8 degrees of freedom
## Multiple R-squared:  0.9009009,  Adjusted R-squared:  0.8885135 
## F-statistic: 72.72727 on 1 and 8 DF,  p-value: 2.748669e-05

5.

Los \(ping\ddot{u}inos\) \(Macaroni\) ponen nidadas de dos huevos de tamaño diferente. El peso en gramos de los huevos de 11 nidadas se presenta en la tabla de abajo.

Ajuste la recta de regresión del peso del huevo mayor en el peso del huevo menor. Comente sobre el ajuste del modelo.
Pruebe si la pendiente de la regresión difiere significativamente (estadísticamente) de la unidad. Interprete. En el caso de que no se rechace que la pendiente es igual a uno, dé un intervalo para \(\alpha\) e inteprete asumiendo que la pendiente vale 1.
Posteriormente se observa el peso de los huevos de una nueva nidada, observándose un peso de 75 y 115 gramos. Usando un intervalo adecuado, comente sobre la sospecha de que la nidada de huevos no proviene de pinguinos \(Macaroni.\)

\(\sum x_i= 1007\), \(\sum y_i= 1675\), \(\sum (x_i-\overline{x})^2=\sum x_i^2-n\overline{x}^2= 1752.727\), \(\sum (y_i-\overline{y})^2=\sum y_i^2-n\overline{y}^2= 2590.182\), y \(\sum (x_i-\overline{x})(y_i-\overline{y})=\sum x_iy_i-n\overline{x}\overline{y}= 2042.364\).

x=c(79, 93, 100, 105, 101, 96, 96, 109, 70, 71, 87)
y=c(133, 143, 164, 171, 165, 159, 162, 170, 127, 133, 148 )

Datos9=data.frame(cbind(x,y))
kable(Datos9)

x	y
79	133
93	143
100	164
105	171
101	165
96	159
96	162
109	170
70	127
71	133
87	148

fit1=lm(y~x, data=Datos9)
options(digits=10)
summary(fit1)

## 
## Call:
## lm(formula = y ~ x, data = Datos9)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -10.967635  -1.389263   1.536618   2.462500   4.667842 
## 
## Coefficients:
##              Estimate Std. Error  t value   Pr(>|t|)    
## (Intercept) 45.599481  10.670584  4.27338    0.00207 ** 
## x            1.165249   0.115468 10.09153 3.3167e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.834135 on 9 degrees of freedom
## Multiple R-squared:  0.9188012,  Adjusted R-squared:  0.9097791 
## F-statistic:  101.839 on 1 and 9 DF,  p-value: 3.316721e-06

Examen 1. Regresión lineal simple

Gonzalo Pérez, Dioney Rosas y Jonnathan Gutiérrez

25 de marzo de 2020

1. Regresión a través del origen.

2. Teorema Gauss-Markov

3.

4.

5.