REGRESIÓN LINEAL



1
Se sabe que entre el consumo de papel y el número de litros de agua por metro cuadrado que se recogen en una ciudad no existe relación. Responde razonadamente a las siguientes cuestiones:
a) ¿Cuál es el valor de la covarianza de estas variables?
b) ¿Cuánto vale el coeficiente de correlación lineal?
c) ¿Qué ecuaciones tienen las rectas de regresión y cuáles son sus ecuaciones en el plano?

Solución:
a)   El valor de la covarianza Sxy = 0.
b)   El valor del coeficiente de correlación r = 0.
c)   Las ecuaciones de las rectas de regresión son:
       y
Por tanto, son paralelas a los ejes y, en consecuencia, perpendiculares.

2
Calcula la recta de regresión de la distribución siguiente:
                 
Altura sobre el nivel del mar m
0
184
231
481
730
911
1550
Presión atmosférica mm de Hg
760
745
740
720
700
685
650

¿Qué presión atmosférica habría sobre Peña Vieja (2600 m de altitud aproximadamente)?
Nota: Utiliza la calculadora; pero indica también cómo se ordenarían y efectuarían los cálculos a mano.

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
Recta de regresión de la presión Y, sobre la altura X:
Para una altura x = 2600 m, se obtiene, substituyendo en la recta anterior una presión de y = 573,16  mm de Hg.

3
Las rectas de regresión de cuatro distribuciones bidimensionales son las siguientes:

Di en qué casos es significativa la correlación lineal.

Solución:
Basta con representar en un mismo diagrama los pares de rectas de cada apartado.
Será más significativa la correlación lineal, cuanto menor sea el ángulo formado por las dos rectas de regresión.
                               
Luego la correlación más significativa es la del apartado d), en segundo lugar b), seguida de a)
Las rectas de regresión del apartado c) son perpendiculares, y por tanto, las variables están incorreladas.

4
En una distribución bidimensional la recta de regresión de Y sobre X es  siendo   la media de la distribución de la variable Y. ¿Cuál es la recta regresión de X sobre Y? ¿Existe dependencia funcional entre Y y X? Razona la respuesta.

Solución:
Si la recta de regresión de Y sobre X es , la recta de regresión de X sobre Y es .
En este caso no existe ningún tipo de dependencia funcional entre las variables X e Y, por tanto están incorreladas.

5
Los números 0,1; 0,99; 0,6 y 0,89 son los valores absolutos del coeficiente de correlación de las distribuciones bidimensionales cuyas nubes de puntos adjuntamos. Asigna a cada diagrama su coeficiente de correlación cambiando el signo cuando sea necesario.
                                    

Solución:
a) r = 0,89          b) r = 0,1          c) r = -0,6          d) r = -0,99

6
¿Qué significa que en una distribución bidimensional el coeficiente de correlación sea?
a) r = 1          b) r = -1          c) r = 0,75          d) r = 0          e) r = 0,1          f) r =0,9

Solución:
a)   r = 1, significa que existe dependencia funcional positiva.
b)   r = -1, significa que existe dependencia funcional negativa.
c)   r = 0,75; significa que existe dependencia aleatoria positiva fuerte.
d)   r = 0; significa que existe independencia aleatoria.
e)   r = 0,1; significa que existe independencia aleatoria.
f) r = 0,9; significa que existe dependencia aleatoria positiva y muy fuerte.

7
Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
a) Halla la ecuación de la recta de regresión de la edad sobre el peso.
b) ¿Cuál sería el peso aproximado de una niña de 6 años?

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones:
Covarianza:
a)   Recta de regresión de X sobre Y:
b)   Recta de regresión de Y sobre X:
Para una niña cuya edad sea x = 6 años, se obtiene un peso de y = 35,55 kilos

8
Dada esta distribución bidimensional:
                                                   x
5
6,5
8
4
3
y
4,5
7
7,5
5
3,5

a) Calcula el coeficiente de correlación lineal, interpretando el resultado.
b) Determina la recta de regresión de Y sobre X.
c) Halla el punto donde se cortan las dos rectas de regresión.

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones:
Covarianza:
a)   Coeficiente de correlación:
Al ser positivo y próximo a la unidad, la correlación es positiva (al aumentar X aumenta Y) y fuerte.
b)   Recta de regresión de Y sobre X:
c) El punto donde se cortan las dos rectas de regresión es:

9
A partir de los siguientes datos de horas trabajadas en un taller (X), y unidades producidas (Y). Determina la recta de regresión de Y sobre X, el coeficiente de correlación lineal e interprétalo.
 
Horas rabajo X
80
79
83
84
78
60
82
85
79
84
80
62
Unidad prod. Y
300
302
315
330
300
250
300
340
315
330
310
240


Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
Recta de regresión de Y sobre X:
Coeficiente de correlación:
Correlación positiva (cuando aumenta la variable X, aumenta la variable Y) y fuerte, ya que su valor es próximo a 1.

10
En una empresa trabajan 4 conductores, cuyos años de antigüedad en sus permisos (X) y número de infracciones (Y) vienen dados por la tabla siguiente:
X
3
4
5
6
Y
4
3
2
1
a) Representa gráficamente estos datos. ¿Tienen correlación positiva o negativa?
b) Calcula el coeficiente de correlación e interprétalo en términos de la situación real.


Solución:
a)
La correlación es negativa.
b)
La correlación es perfecta, es decir, la recta de regresión contiene a todos los puntos, e inversa. El número de infracciones desciende a la vez que la antigüedad de los conductores aumenta.



11
En las gráficas siguientes se muestran rectas de regresión en tres estudios de regresión lineal.
a) ¿En cuál de las gráficas A o B el coeficiente de correlación lineal sería mayor?
b) ¿En cuál de las tres gráficas sería negativo?


Solución:
a) En la B, pues los puntos están más ajustados a la recta.
b) En la C, pues la pendiente es negativa.


12
Observando la tabla siguiente, estima el gasto de electricidad de una familia con ingresos de 250 euros semanales y explica por qué.
Gasto
2
3
5
9
10
19
Ingreso
40
60
80
100
120
200


Solución:
Se halla la recta de regresión de x sobre y:


13

Un conjunto de datos bidimensionales (xi, yi) tiene coeficiente de correlación r = - 0,9, siendo  e . Se sabe que una de las cuatro ecuaciones siguientes corresponde a la recta de regresión de y sobre x.
a) y = -x + 2                 b) 3x - y = 1                 c) 2x + y = 4                 d) y = x + 1
Selecciona cuál, razonadamente.


Solución:
Como r es negativa, la pendiente de la recta de regresión es también negativa, por lo que las rectas b y d quedan descartadas. Como  e , la recta pasa por el punto (1, 2), por lo que la recta de regresión es la c.


14
Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a partir de la relación entre éstas y la renta nacional. Para investigar la relación, cuenta con los siguientes datos:
                        
Donde X representa la renta nacional en millones de dólares e Y representa las ventas de la compañía en miles de dólares en el período desde 1980 hasta 1990 (ambos inclusive). Se pide:
a) Obtén la recta de regresión de Y sobre X. Brevemente, ¿qué representa esa recta?
b) Calcula el coeficiente de correlación lineal entre X e Y, e interprétalo.
c) En 1991 se espera que la renta nacional del país sea de 325 millones de dólares. ¿Cuál será la predicción para las ventas de la compañía en este año?

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
a)   Recta de regresión de Y sobre X:
                      
Esta recta es la que mejor se ajusta a la nube de puntos y permite estimar el valor de la variable Y, conocido un valor de la variable X.
b)  Coeficiente de correlación:
      
Existe un alto grado de correlación positiva (al aumentar la variable X aumenta la variable Y) dado que el coeficiente de correlación obtenido es muy próximo a la unidad.
Para una renta nacional x = 325 millones de dólares, el valor de las ventas, se obtiene substituyendo ese valor de la x en la recta de regresión hallada en el apartado a). Se tiene y = 475,16 miles de dólares.

15
Considera esta serie estadística bidimensional:
                                                       
Calcula el coeficiente de correlación lineal, indica qué significa el valor obtenido y calcula las dos rectas de regresión

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
Coeficiente de correlación:
Como r = 0, las dos variables están incorreladas.
Recta de regresión de Y sobre X:
Recta de regresión de X sobre Y:

16
El número de horas dedicadas al estudio de una asignatura (X) y la calificación obtenida en el examen de dicha asignatura (Y) de 8 personas, están representados en la siguiente tabla:
X
20
16
34
23
27
32
18
22
Y
6,5
6
8,5
7
9
9,5
7,5
8
a) Obtén la recta de regresión.
b) Estima qué calificación obtendría una persona que estudie 28 horas.


Solución:
a)
b)


17
La siguiente tabla ofrece los resultados sobre 6 pares de observaciones, realizadas para analizar el grado de relación existente entre dos variables X e Y:
                                                
Obtén:
a) La recta de regresión de Y sobre X.
b) Representación gráfica de la misma.
c) ¿Qué grado de relación lineal existe entre ambas variables?

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones:
Covarianza:
Coeficiente de correlación:
a)    Recta de regresión de Y sobre X:

b)  Representación:
                                                                
c)  Como r = 0,69, la correlación es positiva (al aumentar X, aumenta Y) pero no es fuerte dado que r no es próximo a 1.


18
La estadística de ingresos de determinadas empresas, en miles de millones de euros y de empleados, en miles, es la siguiente:
                                       
Ingresos
5,7
3,8
1,9
1
1
Empleados
16
29
17
6
9

a) Estudia la correlación existente entre ambas variables.
b) Determina la recta de regresión de: Ingresos, en miles de millones; sobre empleados, en miles.

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
a)   Coeficiente de correlación lineal:
b)   Recta de regresión de X sobre Y:

xi
yi
xi2
yi2
xi ×yi
5,7
16
32,49
256
91,2
3,8
29
14,44
841
110,2
1,9
17
3,61
289
32,3
1,0
6
1,00
36
6,0
1.0
9
1.00
81
9,0
13,4
77
52,54
1503
248,7


19
Los valores de dos variables X e Y se distribuyen según la tabla siguiente.  Determina el coeficiente de correlación y la recta de regresión de Y sobre X. Comenta lo fiables que son las predicciones basadas en esa recta.
                                                               

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
Coeficiente de correlación:
Recta de regresión de Y sobre X:
Como el coeficiente de correlación r presenta un valor absoluto muy alejado de la unidad, las predicciones que se puedan hacer con la recta de regresión calculada no serán fiables.


20
Se ha observado una variable estadística bidimensional y se ha obtenido la siguiente tabla:
                                                             
Se pide:
a) Calcula la covarianza.
b) Obtén e interpreta el coeficiente de correlación lineal.
c) Ecuación de la recta de regresión de Y sobre X.

Solución:
Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
a)   Covarianza:
b)   Coeficiente de correlación:
Se trata de una correlación negativa (al aumentar una variable, disminuye la otra) y débil ya que su valor absoluto está muy alejado de la unidad.
c)   Recta de regresión de Y sobre X:



21
Para realizar unos estudios sobre energía solar se ha medido la temperatura máxima y el número de horas de sol durante una semana, obteniéndose los siguientes resultados:


Lunes
Martes
Miércoles
Jueves
Viernes
Sábado
Domingo
Temp. máx.
12
14
7
10
15
20
18
Núm. horas
12,35
12,36
12,16
12,36
12,38
12,45
12,40

a) Halla las temperaturas mediana y modal máximas diarias.
b) Halla la recta de regresión de las temperaturas en función del número de horas de sol.
c) El lunes siguiente a la realización de la experiencia se rompió el medidor del número de horas de sol. ¿Podemos estimar este número a partir de la función obtenida en el apartado anterior? Justifica la respuesta y obtén esta estimación si sabemos que la temperatura máxima fue de 19 ºC.


Solución:
a)   Temperaturas mediana y modal máximas diarias:
Ordenamos de menor a mayor: 7, 10, 12, 14, 15, 18, 20
La temperatura mediana es M = 14 ºC
Todas las temperaturas presentan igual frecuencia. Por tanto no hay temperatura modal máxima diaria.
b)   Formamos la siguiente tabla:
Medias:
Desviaciones típicas:
Covarianza:
Recta de regresión de X (temperatura) sobre Y (horas de sol):
c)   Para estimar el número de horas de sol en función de la temperatura debemos hallar la recta de regresión de Y sobre X:
Para x = 19 ºC, substituyendo en la ecuación anterior, obtenemos y = 12,46 horas diarias de sol.

22
La media de los pesos de una población es de 65 kg y la de la estatura de 170 cm, mientras que las desviaciones típicas son de 5 kg y de 10 cm, respectivamente, y la covarianza de ambas variables es 40. Calcula la recta de regresión de los pesos respecto de las estaturas. ¿Cuánto se estima que pesará un individuo de 180 cm de estatura?

Solución:
Del enunciado se obtienen los siguientes datos:
Recta de regresión de los pesos sobre las alturas:
Para estimar el peso de un individuo que mide y = 180 cm, basta con substituir dicho valor en la recta anterior, se tiene: