Recursos 15 min de lectura

Estadística para tesis de economía: la guía completa

La estadística inferencial es la herramienta más importante de cualquier tesis cuantitativa, y al mismo tiempo el área donde más se cometen errores graves. Esta guía cubre los siete temas que cualquier tesis empírica debe manejar bien, con las 11 calculadoras gratuitas que necesitas para aplicarlos.

Después de haber asesorado decenas de tesis de pregrado y posgrado en economía, hay un patrón claro: los estudiantes saben las fórmulas pero no saben cuándo aplicarlas, ni cómo interpretar los resultados. Y eso es lo que separa una tesis aprobada con observaciones de una con honores.

Esta guía es el orden lógico que sigo cuando trabajo en la sección estadística de una tesis: empieza por entender los datos, sigue con inferencia básica, profundiza con regresión, y termina con series de tiempo si el problema lo amerita. Cada paso con su calculadora.

Paso 1: Estadística descriptiva (entender los datos)

Antes de cualquier inferencia, mira tus datos. Cualquier tesis seria empieza con una sección de estadística descriptiva que incluya:

  • Medidas de tendencia central: media, mediana, moda. La distancia entre ellas dice mucho sobre la forma de la distribución.
  • Medidas de dispersión: varianza, desviación estándar, coeficiente de variación, rango intercuartílico.
  • Forma de la distribución: simetría (skewness) y curtosis. ¿Es normal? ¿Hay colas pesadas?
  • Visualización: histograma, boxplot, gráfico de dispersión si tienes pares.

El error clásico aquí es saltarse esta etapa. Si tu variable es asimétrica o tiene outliers extremos, muchos métodos posteriores van a fallar o dar resultados engañosos. Detectarlo aquí te ahorra problemas mayores después.

Paso 2: Conocer las distribuciones de probabilidad

La estadística inferencial se construye sobre distribuciones. Las cinco que cualquier tesis cuantitativa debe manejar:

  • Normal (μ, σ²): la reina. Aparece por TCL, residuos de regresión, errores de medición. Base del CAPM, BSM, casi todo.
  • Binomial (n, p): eventos discretos con éxito/fracaso. Encuestas, ensayos clínicos.
  • Poisson (λ): eventos raros en intervalo fijo. Llegadas, fallas, terremotos.
  • Uniforme: incertidumbre completa entre dos límites. Para variables aleatorias en simulación.
  • Exponencial (λ): tiempos entre eventos. Vida útil, tiempos de espera.

Usa la calculadora de distribuciones para visualizar PDF/PMF, calcular P(X≤a), P(a≤X≤b) y cuantiles inversos. Es el playground antes de aplicar inferencia.

Paso 3: Intervalos de confianza

Después de estimar un parámetro (media muestral, proporción muestral, diferencia entre dos grupos), nunca lo reportes como un único número. Reporta un intervalo de confianza.

La interpretación correcta no es lo que la mayoría piensa. Un IC del 95% para la media NO significa "hay 95% de probabilidad de que la media real esté en este intervalo". Significa: si repitiéramos el muestreo muchas veces y construyéramos un IC en cada uno, el 95% de esos intervalos contendrían la media real. El parámetro es fijo (aunque desconocido); el intervalo es aleatorio.

La calculadora de intervalos de confianza hace IC para:

  • Una media (con σ conocida → Z, desconocida → t-Student).
  • Diferencia de medias (Welch para varianzas distintas).
  • Una proporción (Wald).
  • Diferencia de proporciones.

Niveles típicos: 95% (estándar), 99% (más conservador), 90% (más relajado). Más confianza = más ancho. La elección depende del costo de equivocarse en cada dirección.

Paso 4: Tests de hipótesis

El otro pilar de la inferencia. Plantear una hipótesis nula H₀ (típicamente "no hay efecto" o "no hay diferencia"), una alternativa H₁, y testear si los datos son lo suficientemente extraños bajo H₀ como para rechazarla.

Los pasos canónicos:

  1. Formular H₀ y H₁ (la H₀ debe contener el signo de igualdad).
  2. Elegir nivel de significancia α (típicamente 0.05).
  3. Identificar el estadístico de prueba (Z, t, χ², F según el caso).
  4. Calcular el p-valor.
  5. Decidir: si p ≤ α, rechazar H₀.
  6. Interpretar en términos del problema, no solo "rechazo / no rechazo".

Usa la calculadora de tests de hipótesis para los cuatro casos clásicos:

  • Una media (Z si σ conocida, t si no).
  • Dos medias independientes (Z o t-Welch).
  • Una proporción.
  • Dos proporciones.

El error monumental que NO debes cometer

No rechazar H₀ NO prueba que H₀ sea verdadera. Solo significa que con los datos actuales no tienes evidencia suficiente para descartarla. Quizás necesitabas más muestra, o el efecto era pequeño, o la varianza alta. "No rechazar" ≠ "aceptar". Esta confusión arruina miles de tesis cada año.

La interpretación correcta de "no rechazar H₀": "con los datos disponibles, no tenemos evidencia estadísticamente significativa para concluir que [H₁ es cierta]. Puede que el efecto exista pero la muestra sea insuficiente para detectarlo".

Paso 5: Cálculo del tamaño de muestra (antes de recolectar)

Una decisión que muchos posponen y que les cuesta caro: ¿cuántos casos necesito para que mi análisis tenga potencia estadística? Si tu n es muy chico, no vas a detectar efectos reales (error tipo II). Si es muy grande, gastas tiempo y dinero innecesariamente.

Usa la calculadora de tamaño de muestra con tres inputs:

  • Tamaño del efecto que esperas detectar (qué diferencia es "relevante" para tu tesis).
  • Nivel de significancia α (típicamente 0.05).
  • Potencia (1-β): probabilidad de detectar el efecto si existe. Típicamente 0.80.

Para una encuesta con margen de error del 5% al 95% de confianza, la regla rápida es ~400 casos. Para detectar efectos pequeños o moderados en regresión, varía mucho según el modelo.

Idealmente, este cálculo lo haces ANTES de salir a campo, no después. Hacerlo después es solo justificación.

Paso 6: Regresión lineal (la herramienta estrella)

El método más usado en economía aplicada. Estima cómo Y depende de una o más variables X. Las dos versiones:

Regresión simple: Y = β₀ + β₁X + u

Usa la calculadora de regresión simple para:

  • Pegar pares (x, y) desde Excel.
  • Obtener pendiente β₁, intercepto β₀, R², coeficiente de Pearson r.
  • Gráfico de dispersión con recta ajustada.
  • Predicción puntual para nuevos valores de X.

Caso clásico de uso: relación entre dos variables económicas con base en una muestra.

Regresión múltiple: Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + u

Cuando Y depende de varias variables. La calculadora de regresión múltiple te da:

  • Coeficientes con sus errores estándar, t-stats y p-valores.
  • R² y R² ajustado.
  • F global (test conjunto).
  • AIC y BIC (para comparar modelos).
  • Tabla de residuos.

Lo que tu tesis debe reportar al usar regresión múltiple:

  1. Ecuación estimada con coeficientes redondeados.
  2. Errores estándar entre paréntesis debajo de cada coeficiente.
  3. Significancia con asteriscos (*** p<0.01, ** p<0.05, * p<0.1).
  4. R² y R² ajustado.
  5. F estadístico y su p-valor.
  6. N (tamaño de muestra).

Supuestos clásicos de OLS (Gauss-Markov)

  1. Linealidad en parámetros.
  2. Muestra aleatoria e independiente.
  3. Exogeneidad: E(u|X) = 0.
  4. Sin colinealidad perfecta.
  5. Homocedasticidad: Var(u|X) = σ² constante.

Cuando alguno falla, hay soluciones específicas: errores robustos (HC0-HC3), regresión ponderada (WLS), variables instrumentales, etc. Una tesis seria discute al menos brevemente cuáles supuestos verificó y cómo.

Paso 7: Series de tiempo (si tus datos son temporales)

Si tu tesis usa datos macroeconómicos, financieros o sectoriales medidos en el tiempo (PIB trimestral, inflación mensual, ventas semanales, precios diarios), necesitas técnicas específicas. NO puedes aplicar regresión clásica sin verificar antes.

El flujo obligado:

  1. Análisis exploratorio con la calculadora de series de tiempo: tendencia, estacionalidad, autocorrelación.
  2. Test de raíz unitaria con la calculadora Dickey-Fuller: ¿es estacionaria?
  3. Si NO es estacionaria, tomar primera diferencia y volver a testear.
  4. Si tienes dos series I(1), test de cointegración Engle-Granger con la calculadora correspondiente.
  5. Si hay cointegración, modelo de corrección de error (ECM). Si no, regresión con primeras diferencias.

Lee mi guía del flujo de econometría con series para el detalle paso a paso. Saltarse este flujo y aplicar OLS a series I(1) es el camino directo a una tesis con regresiones espurias.

Reportar resultados: lo que tu jurado va a buscar

Una tesis cuantitativa bien hecha incluye:

  1. Descripción de variables y fuentes: cada variable usada, su definición operacional, fuente, período cubierto.
  2. Estadísticas descriptivas: tabla con N, media, sd, mín, máx, percentiles relevantes para cada variable.
  3. Matriz de correlaciones: para detectar multicolinealidad y relaciones bivariadas.
  4. Análisis exploratorio gráfico: histogramas, scatter plots, boxplots.
  5. Resultados del modelo principal: ecuación estimada con todos los estadísticos.
  6. Test de supuestos: normalidad de residuos, heterocedasticidad, autocorrelación (en series).
  7. Análisis de robustez: probar especificaciones alternativas, ver si los resultados son sensibles a quitar outliers.
  8. Interpretación económica: NO solo "el coeficiente es 0.5", sino "un aumento de 1% en X está asociado con un aumento de 0.5% en Y, manteniendo lo demás constante".
  9. Limitaciones: ser honesto sobre lo que el modelo no captura.

Errores típicos en la sección estadística de tesis

  1. Reportar p-valor sin tamaño del efecto. Con muestra grande, todo es "significativo". Lo importante es si el efecto es relevante en magnitud, no solo en signo estadístico.
  2. "No rechazar H₀" = "aceptar H₀". El error de interpretación más común.
  3. R² alto = buen modelo. Falso en series de tiempo no estacionarias. Falso en sobreajuste. R² ajustado y validación cruzada son mejores criterios.
  4. No reportar errores estándar. Solo el coeficiente no permite juzgar precisión.
  5. Causalidad de correlación. Una regresión significativa NO prueba causa-efecto. Para eso necesitas diseño experimental o instrumentos válidos.
  6. Multicolinealidad ignorada. Si dos X están muy correlacionadas, sus coeficientes individuales son poco confiables aunque el modelo global ajuste bien.
  7. Outliers no tratados. Un solo punto puede dominar la regresión completa. Diagnóstico con leverage y distancia de Cook.
  8. Datos no estacionarios sin diferenciar. Trampa de las regresiones espurias.
  9. Errores estándar OLS con heterocedasticidad. Hay que usar errores robustos (HC).
  10. Series con autocorrelación residual. Errores estándar OLS están subestimados. Usar errores HAC (Newey-West).

Programas para hacer todo esto

Las calculadoras del sitio cubren los cálculos básicos. Para tesis más avanzadas necesitarás software:

  • Stata: estándar en economía. Comandos compactos. Caro pero potente.
  • R: gratuito, flexible, abierto. Lenguaje completo. Es lo que recomiendo a estudiantes.
  • Python (pandas + statsmodels + scikit-learn): para tesis con componente de datos grandes o machine learning.
  • EViews: específico para series de tiempo. Interfaz amigable.
  • SPSS: amigable pero limitado. Más usado en ciencias sociales que en economía.

Las calculadoras del sitio son útiles para entender los conceptos, verificar cálculos, y para tesis de pregrado donde el alcance no requiere software profesional. Para tesis de máster/doctorado con datasets grandes, necesitarás R o Stata sí o sí.

Las 11 calculadoras del programa estadístico completo

  1. Tablas estadísticas - Z, t, χ², F
  2. Distribuciones de probabilidad - Normal, Binomial, Poisson, Uniforme, Exponencial
  3. Intervalos de confianza - media, proporción, diferencias
  4. Test de hipótesis - 4 casos clásicos
  5. Tamaño de muestra - antes de recolectar datos
  6. Regresión lineal simple - 1 variable independiente
  7. Regresión múltiple OLS - varias variables
  8. Series de tiempo - descomposición, ACF
  9. Dickey-Fuller - test de estacionariedad
  10. Cointegración Engle-Granger - relación de largo plazo
  11. Phillips/Okun - regresiones clásicas macro

Si necesitas asesoría personalizada

Si tu tesis está atascada en la parte cuantitativa, o necesitas alguien que revise tu metodología antes de la defensa, eso es exactamente el tipo de asesoría de tesis que hago. Tutorías 1:1 por videollamada, revisión de modelos econométricos, soporte en redacción de la sección de metodología. Tarifa reducida para estudiantes desde $400 USD/mes.

Lectura recomendada