Forum Docentis

Buscador

Forum Docentis - Sección MD, Vol. 2023, Núm. 1 (2023)
ISSN: 2952-3052
doi: https://doi.org/10.33732/FD.v2023.n1.19

Recepción: 06/03/2024, Aceptación: 18/04/2024

El Modelo de Regresión Lineal y el Problema de Mínimos Cuadrados

Elena Castilla1, Pedro J. Chocano1*

1Departamento de Matemática Aplicada, CC. e Ingeniería de los Materiales y Tec. Electrónica, URJC, España

*Autor de correspondencia: pedro.chocano@urjc.es

Resumen

En este artículo hacemos una introducción al Modelo de Regresión Lineal y la técnica de Mínimos Cuadrados para la estimación de sus parámetros. Motivamos estas técnicas con algún ejemplo práctico y lo ilustramos gráficamente.

Palabras clave
Álgebra Matricial — Análisis de Datos — Mínimos cuadrados — Regresión Lineal

© 2023 Los autores. Publicado por URJC. Este es un artículo de acceso abierto con licencia CC BY.
Cómo citar este artículo: Chocano, P. y Castilla, E. El Modelo de Regresión Lineal y el Problema de Mínimos Cuadrados. Forum Docentis - MD vol. 2023, (1), e19, 2023

Índice

1Introducción

2El Modelo de Regresión Lineal

3El método de Mínimos Cuadrados para la estimación de los parámetros

4Algunos comentarios sobre el Modelo de Regresión Lineal

5Ejercicios

Referencias

1. Introducción

Dos son los principales objetivos de la estadística: descriptivo y predictivo. La estadística descriptiva hace uso de los datos recolectados para describir acontecimientos pasados o presentes, mientras que la estadística predictiva pretende estimar, a partir de observaciones pasadas, lo que sucedería bajo condiciones alternativas, o, visto de otra manera, intenta “predecir el futuro”. En el primer grupo nos encontramos con estadísticos descriptivos (como por ejemplo la media, mediana o medidas de simetría o curtosis), gráficos (histogramas, diagramas de tarta, qqplots) o técnicas estadísticas más avanzadas (componentes principales o análisis de correspondencia). En la estadística predictiva encontramos técnicas tan diversas como las series temporales, modelos de supervivencia o modelos de regresión. Dentro de estos últimos, sin duda uno de los más conocidos es el Modelo de Regresión Lineal.

En este artículo vamos a intentar explicar, de manera sencilla, en qué consiste el Modelo de Regresión Lineal. Para ello, motivaremos el problema e introduciremos el concepto de Mínimos Cuadrados para la estimación de parámetros. Para poder entender el modelo de manera más profunda, y ser estrictos en lo matemático, es necesario el conocimiento de ciertos conceptos estadísticos algo más avanzados. Asumiendo que estas notas van dirigidas a alumnos de primeros años de grado, que en muchos casos no han cursado todavía ninguna asignatura de estadística, evitaremos dar detalles técnicos, dejando al lector la posibilidad de ampliar sus conocimientos gracias a las referencias facilitadas.

2. El Modelo de Regresión Lineal

Supongamos que tenemos k variables explicativas, X1,…,Xk, relacionadas con otra variable continua a la que daremos la categoría de variable respuesta, Y. Supongamos, además, que observamos n réplicas de estas variables. A los valores de la i-ésima observación, i = 1,…, n, los denotamos como xi1,…,xik e yi. No es descabellado pensar que nuestras variables estaín relacionadas de forma lineal. De esta manera, un incremento en el valor de una variable explicativa puede influir en el aumento o disminución del valor de la variable respuesta. Veamos el siguiente ejemplo:

Ejemplo 2.1. Supongamos que tenemos los siguientes datos, que relacionan la estatura (en cm) y el peso (en kg) de n =10 personas. Aquí consideramos que nuestra variable respuesta es la estatura, y la variable explicativa es el peso.

peso (y)

75.3

59.7

64.8

91.3

58.4

76.4

93.7

77.1

63.3

76.7

estatura (x)

176

154

158

196

152

176

191

169

155

177

Si representamos estos datos en el plano (parte izquierda de la Figura 1), podemos observar cierta correlación positiva entre ambas variables, esto es, parece que a mayor peso, mayor altura. Esta relación se podría representar linealmente mediante rectas en el plano. Sabemos que una recta en el plano tendría la forma y=β0+β1x. En la parte derecha de la Figura 1 podemos ver distintas rectas que podrían reflejar de mejor o peor manera la relación entre ambas variables.

Figura 1. Peso y estatura de una muestra de 10 personas (Ejemplo 2.1).

Ejemplo 2.2. Supongamos ahora que añadimos una segunda variable explicativa a nuestro modelo, en este caso la edad. Podríamos tener unos datos de la siguiente forma:

peso (y)

75.3

59.7

64.8

91.3

58.4

76.4

93.7

77.1

63.3

76.7

estatura (x1)

176

154

158

196

152

176

191

169

155

177

edad (x2)

23

18

24

35

18

26

44

33

20

27

En este caso, para representar nuestros datos, necesitaríamos tres dimensiones (parte izquierda de la Figura 2). Aquí, podríamos intentar ajustar un plano que reflejara la relación que hay entre la variable respuesta y las dos variables explicativas. Sabemos que el plano tendrá la forma y=β0+β1x1+β2x2. Un ejemplo podría ser el que vemos en la parte derecha de la Figura 2.

Figura 2. Peso, estatura y edad de una muestra de 10 personas (Ejemplo 2.2).

Observamos en los ejemplos previos que parece poco probable que nuestra recta, plano (o, de manera general, hiperplano) pase por cada uno de nuestros puntos u observaciones. Por tanto, asumimos que hay cierto error ε inevitable en cada observación. Teniendo en cuenta esto, damos la siguiente definición.

Definición 2.1. Sea Y una variable respuesta y sean las variables explicativas X1,…, Xk, el Modelo de Regresión Lineal (MRL), relaciona la variable respuesta con las variables explicativas de la siguiente forma

Y=β0+β1X1+...+βkXK+ε,                     (1)

donde β0,β1,…,βk son los parámetros que determinan la forma del hiperplano. Al parámetro β0 se le conoce con el nombre de intercepto. En particular, para la i-ésima observación, i = 1,...,n, el Modelo de Regresión Lineal establece la siguiente relación

yi=β0+β1X1+...+βkXK+εi.                     (2)

A la hora de trabajar con datos, es muy cómodo almacenar éstos en matrices, que de alguna manera se pueden ver como tablas. Así, si definimos los siguientes vectores y matrices

X=1x11x1k1x21x2k1xn1xnk,Y=y1y2yn,β=β0β1βk,=12n,

el Modelo de Regresión Lineal dado en la Ecuación (2) se puede expresar como

Y = Xβ+ε                     (3)

En el caso de que sólo tuviéramos una variable explicativa (k = 1) hablamos de MRL simple, como sería el caso del Ejemplo 2.1. En caso de tener dos o más variables explicativas (k ≥ 2) hablamos de MRL múltiple, como en el Ejemplo 2.2.

Nuestro objetivo ahora será estimar nuestro vector de parámetros β de manera que nuestro modelo ajuste de la mejor manera posible los datos. A la hora de abordar este problema, se podría adoptar un enfoque puramente estadístico con el estimador de máxima verosimilitud (EMV). En este caso, sin embargo, vamos a introducir el estimador de mínimos cuadrados, que puede ser mucho más intuitivo para un estudiante sin muchos conocimientos de estadística y que, se puede demostrar, es equivalente al estimador de máxima verosimilitud.

3. El método de Mínimos Cuadrados para la estimación de los parámetros

La idea de este método es sencilla: minimizar el error que se produce al ajustar nuestros datos mediante un hiperplano. Si nos fijamos en la Ecuación (3), ε=Y - X β, y podemos dar la siguiente definición:

Definición 3.1. Dado el Modelo de Regresión Lineal definido en (3), el estimador de mínimos cuadrados de β,β^, viene dado por

β^=mínβYXβ                     (4)

donde ∥⋅∥ denota la norma euclídea.

Observación 3.1. Nótese que (4) es equivalente a minimizar la suma de las distancias más cortas de los puntos al hiperplano de regresión, que representará los puntos estimados. Por ejemplo, en caso de tratarse de un Modelo de Regresión Lineal simple (una sóla variable explicativa), sería minimizar la suma de las verticales de los puntos a la recta de regresión, tal y como se representa en la Figura 3:

Figura 3. Minimización de distancias de los puntos a la recta de regresión (Ejemplo 2.1).

Proposición 3.2. Si el rango por columnas de la matriz X es máximo, el estimador de mínimos cuadrados definido en (4) viene dado por

β^=(XTX)1XTY                     (5)

Demostración. Minimizar ∥Y - ∥ es equivalente a minimizar

S(β)=(YXβ)T(YXβ) 

Para ello, diferenciamos respecto a β e igualamos a 0, obteniendo

XTXβ^=XTY,

de donde se deriva directamente el resultado sabiendo que al tener X rango por columnas máximo, (XTX) es invertible (véase, por ejemplo, el capítulo 2.4.7 de [1] sobre inversas generalizadas o el Lema de la página 376 de [2]).

Ejemplo 3.3. Volvamos de nuevo a los ejemplos 2.1 y 2.2: En estos casos, los valores estimados de β son, para el primer casomientras que para el segundo caso,(β0^,β^1)=(57,5218,0,7699),, mientraus que para el segundo caso, (β0^,β^1,β^2)=(30,6167,0,5262,0,5454). Véase la Figura 4.

Figura 4. Recta y plano de regresión ajustados para los ejemplos 2.1 y 2.2.

4. Algunos comentarios sobre el Modelo de Regresión Lineal

A lo largo de esta breve nota hemos motivado el método de mínimos cuadrados para la estimación de parámetros de un MRL viendo cómo se resuelve como un simple ejercicio de álgebra básica. Ahora bien, para garantizar que esta aproximación es válida, se necesitan cumplir ciertas condiciones a nivel estadístico. Estas son: relación lineal entre las variables, normalidad, independencia y homocedasticidad (varianza constante) de los errores y no colinealidad, es decir, que las variables explicativas no están relacionadas entre sí (lo cuál se verificaba al asumir que el rango por columnas de la matriz X es máximo). Un análisis estadístico nos puede proporcionar, además, una interpretación mucho más precisa como el grado de relación lineal entre las variables (correlación) o intervalos de confianza para los parámetros estimados [1, 3].

5. Ejercicios

1. Para el MRL interpretar qué significa que el parámetro βj sea nulo, positivo o negativo. Particulariza este razonamiento para el MRL simple.

2. Estima los parámetros de los ejemplos 2.1 y 2.2 usando la función lm() del programa estadístico R. Compáralos con los de la Ecuación (5). Véase la documentación en [4].

Referencias

1 D. Peña et al., Análisis de datos multivariantes (McGraw-Hill España Cambridge, 2013).

2 L. Merino y E. Santos, Álgebra Lineal con métodos elementales (Paraninfo, 2006).

3 J. M. Chambers, Statistical Models in S (Wadsworth & Brooks/Cole, Advanced Books & Software, 1992), pág. 608.

4 R Core Team, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing (Vienna, Austria, 2021).