Correlación y covarianza
Objetivo
✨ Entender cómo cuantificar la fuerza y dirección de la relación lineal entre dos variables, usando covarianza y correlación de Pearson.
Idea Clave 💡
Sabemos que X e Y pueden estar relacionadas (no ser independientes), pero ¿cuánto de relacionadas? Covarianza y correlación nos dicen si tienden a crecer juntas, decrecer juntas, o si no hay relación lineal.
Covarianza
Definición
La covarianza entre dos variables X e Y mide cómo varían conjuntamente:
Cálculo directo (para datos):
O equivalentemente (fórmula computacional más rápida):
Interpretación
- Cov(X,Y) > 0: X e Y tienden a crecer juntas (relación positiva)
- Cov(X,Y) < 0: Cuando X crece, Y tiende a decrecer (relación negativa)
- Cov(X,Y) ≈ 0: No hay relación lineal (o muy débil)
Problema: La escala de covarianza depende de las unidades de X e Y, así que es difícil comparar covarianzas de distintos pares de variables.
Calcular Covarianza
Datos:
Paso 1: Calcular medias
- \(\bar{x} = (1+2+3+4+5)/5 = 3\)
- \(\bar{y} = (2+4+5+4+6)/5 = 4.2\)
Paso 2: Calcular desviaciones y producto
| i | x_i | y_i | x_i - 3 | y_i - 4.2 | Producto |
|---|---|---|---|---|---|
| 1 | 1 | 2 | -2 | -2.2 | 4.4 |
| 2 | 2 | 4 | -1 | -0.2 | 0.2 |
| 3 | 3 | 5 | 0 | 0.8 | 0 |
| 4 | 4 | 4 | 1 | -0.2 | -0.2 |
| 5 | 5 | 6 | 2 | 1.8 | 3.6 |
Paso 3: Sumar y dividir
Resultado: Covarianza = 1.6 > 0, relación positiva ✅
Coeficiente de Correlación de Pearson
Definición
r de Pearson normaliza la covarianza para que esté entre -1 y 1:
donde \(\sigma_X\) y \(\sigma_Y\) son las desviaciones típicas de X e Y.
Cálculo directo:
Interpretación
- r = 1: Relación lineal perfecta positiva (puntos alineados con pendiente positiva)
- r = -1: Relación lineal perfecta negativa (puntos alineados con pendiente negativa)
- r = 0: No hay relación lineal
- 0 < r < 1: Relación positiva (débil si r < 0.3, moderada si 0.3-0.7, fuerte si r > 0.7)
- -1 < r < 0: Relación negativa (igual escala de fuerza)
Ventaja: Es adimensional (sin unidades), así puedes comparar correlaciones directamente.
Calcular Correlación de Pearson
Usando los datos anteriores (X, Y):
- \(\text{Cov}(X, Y) = 1.6\) (ya calculado)
- \(\sigma_X^2 = E[X^2] - (E[X])^2 = (1+4+9+16+25)/5 - 3^2 = 11 - 9 = 2\), así \(\sigma_X = \sqrt{2} ≈ 1.414\)
- \(\sigma_Y^2 = E[Y^2] - (E[Y])^2 = (4+16+25+16+36)/5 - 4.2^2 = 19.4 - 17.64 = 1.76\), así \(\sigma_Y = \sqrt{1.76} ≈ 1.327\)
Resultado: r ≈ 0.85, relación positiva fuerte ✅
Propiedades de la Correlación
-
Simetría: \(r_{XY} = r_{YX}\) (la correlación de X en Y es igual que la de Y en X)
-
Rango: \(-1 \leq r \leq 1\)
-
Escala invariante: Si transformas X e Y linealmente (p. ej. cambiar de cm a m), r no cambia
-
No implica causalidad: Correlación alta NO significa que X cause Y (pueden tener una causa común, o ser coincidencia)
-
Detecta relaciones lineales: Si X e Y tienen una relación cuadrática fuerte (p. ej. Y = X²), r podría ser cercano a 0. Así que r NO detecta todas las dependencias.
Ejemplo: Y = X² (relación no lineal)
Claramente Y depende de X, pero:
- \(\bar{x} = 0\)
- Cov(X, Y) = E[XY] - E[X]E[Y] = 0 - 0 = 0 (porque los términos negativos y positivos se anulan)
- r ≈ 0
Conclusión: Aunque hay una relación fuerte (cuadrática), la correlación lineal es 0. No uses r si sospechas relaciones no lineales.
⚠️ Trampa Común: Correlación ≠ Causalidad
❌ Incorrecto: "Si r(Altura, Salario) = 0.6, entonces la altura CAUSA el salario"
✅ Correcto: "Altura y salario están relacionados (correlación = 0.6), pero esto NO prueba que uno cause el otro. Podrían ambos estar relacionados con la edad, o ser coincidencia."
Ejemplo histórico: Hay correlación entre número de iglesias y tasa de criminalidad en ciudades. Pero las iglesias no causan crimen; ambas aumentan porque hay más población.
Tabla Comparativa: Covarianza vs Correlación
| Aspecto | Covarianza | Correlación de Pearson |
|---|---|---|
| Fórmula | \(\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]\) | \(r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}\) |
| Rango | \((-\infty, +\infty)\) | \([-1, 1]\) |
| Unidades | Producto de unidades de X e Y | Adimensional |
| Interpretabilidad | Difícil (depende de la escala) | Fácil (siempre entre -1 y 1) |
| Comparación | Difícil entre pares distintos | Fácil, comparable directamente |
💡 Checklist
Antes de regresión
- [ ] ¿Sabes calcular covarianza manualmente?
- [ ] ¿Entiendes que la correlación normaliza la covarianza?
- [ ] ¿Reconoces qué valores de r indican relación fuerte/débil?
- [ ] ¿Sabes que correlación NO implica causalidad?
- [ ] ¿Puedes interpretar r = -0.8 como relación negativa fuerte?
📖 Enlaces Relacionados
- Bivariante — Introducción — Conceptos fundamentales
- Regresión lineal simple — Usar la correlación para predecir
- Distribuciones condicionales — Contexto probabilístico