Estadística aplicada

Regresión Lineal Simple

Ajusta una recta a tus datos por mínimos cuadrados. Calcula la ecuación, el coeficiente de determinación R², la correlación de Pearson, y genera el gráfico de dispersión con la recta de regresión. Pega tus datos de Excel o ingrésalos uno por uno.

Ecuación ajustada

-

Recta de mínimos cuadrados.

R² (coef. de determinación)

-

% de la variación de Y explicada por X.

r (Pearson)

-

Correlación entre X e Y, de -1 a +1.

Pendiente (β₁)

-

Cambio en Y por cada unidad de X.

Intercepto (β₀)

-

Valor de Y cuando X = 0.

Error estándar

-

Desviación típica de los residuales.

Ingresa al menos 3 pares de datos

Pega tus datos en el cuadro de la izquierda. Acepta formato de Excel con tabs o comas.

Diagrama de dispersión con recta ajustada

Datos observados Recta ajustada Residuales

Predicción para un valor de X

Y estimado: -

Tabla de cálculo

Cada observación con su predicción y residual (ε = y - ŷ).

i X Y Ŷ (predicho) Residual Residual²

Cómo se calcula y cómo interpretar

El modelo de regresión simple
Asume que existe una relación lineal entre dos variables: una independiente (X) y una dependiente (Y). La forma del modelo es
Y = β₀ + β₁ · X + ε
donde β₀ es el intercepto, β₁ la pendiente y ε el término de error aleatorio.
Mínimos cuadrados (OLS)
El método busca los valores de β₀ y β₁ que minimizan la suma de los cuadrados de los residuales: Σ(y - ŷ)². Las fórmulas cerradas son:
β₁ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²
β₀ = ȳ - β₁ · x̄
donde x̄ y ȳ son las medias muestrales.
Coeficiente de determinación R²
Es la fracción de la varianza de Y que el modelo explica: R² = 1 - SSE/SST, donde SSE es la suma de cuadrados de los residuales y SST es la suma total de cuadrados de Y respecto a su media. Se interpreta como un porcentaje (0 a 100%).
  • R² > 0.90: ajuste excelente, casi toda la variación de Y se explica por X.
  • R² 0.70-0.90: ajuste fuerte, típico en relaciones económicas o físicas claras.
  • R² 0.40-0.70: ajuste moderado, hay relación pero también ruido o variables omitidas.
  • R² < 0.40: ajuste débil, la relación lineal es poca o las observaciones tienen mucho error.
Coeficiente de correlación r de Pearson
Mide la fuerza y dirección de la relación lineal: -1 ≤ r ≤ +1.
  • r ≈ +1: correlación positiva perfecta (Y sube cuando X sube).
  • r ≈ -1: correlación negativa perfecta (Y baja cuando X sube).
  • r ≈ 0: no hay relación lineal (puede haber relación no lineal).
Para regresión simple: R² = r², así que r = ±√R² (signo igual a la pendiente).
Residuales
Son la diferencia entre el valor observado y el predicho por el modelo: εᵢ = yᵢ - ŷᵢ. Idealmente:
  • Suman cero (la recta pasa por el "centro de masa" de los datos).
  • Tienen varianza constante (homocedasticidad).
  • No muestran patrón sistemático al graficarlos contra X o contra ŷ.
Si ves un patrón claro en los residuales, la relación lineal NO es adecuada y deberías probar una transformación (logaritmo, cuadrado) o un modelo no lineal.
Limitaciones del modelo
Esta calculadora asume:
  • Relación lineal entre X e Y. Si los datos forman una curva, OLS te da una mala aproximación.
  • X exógena: X no está correlacionada con ε. En econometría, esto se viola frecuentemente y se requieren métodos más sofisticados (variables instrumentales).
  • Sin outliers extremos: un solo punto muy alejado puede arruinar el ajuste.
  • Independencia de las observaciones: no aplica directo a series de tiempo (necesitas tests de autocorrelación).

Tip pedagógico: antes de mirar el R², siempre grafica los datos. R² alto puede ocultar problemas (curvatura, outliers, agrupamientos). R² bajo puede esconder una relación real con un par de outliers. El cuarteto de Anscombe ilustra perfectamente este punto.