Contrastes para la media
🎯 Objetivo
Aprender a realizar contrastes de hipótesis sobre la media poblacional, tanto cuando conocemos la desviación típica (contraste Z) como cuando no (contraste t de Student). Incluye casos de una muestra, dos muestras independientes y muestras pareadas.
Contrastes Paramétricos: Características
Los contrastes paramétricos asumen que:
- Los datos provienen de una distribución específica (generalmente Normal)
- Los parámetros poblacionales (μ, σ) son desconocidos
Ventajas y Desventajas
| Aspecto | Ventaja/Desventaja |
|---|---|
| Potencia | ✅ Mayor potencia si se cumplen supuestos |
| Fiabilidad | ❌ Resultados poco fiables si se violan supuestos |
| Aplicabilidad | ✅ Válidos para muestras grandes por TLC |
💡 En este curso
Trabajaremos con contrastes paramétricos asumiendo que los datos son aproximadamente normales. Para muestras grandes (n > 30), el Teorema del Límite Central justifica esta suposición.
Contraste Z para la Media (σ conocida, n grande)
Supuestos
- σ es conocida (o aproximada)
- n es grande (n ≥ 30) o la población es Normal
- Los datos son independientes
Estadístico de Prueba
Donde:
- \(\bar{x}\) = media muestral
- \(\mu_0\) = media bajo H₀
- \(\sigma\) = desviación típica poblacional
- \(n\) = tamaño muestral
Bajo H₀, Z sigue una distribución Normal estándar N(0, 1).
Valores Críticos (para α = 0.05)
| Tipo de Contraste | Región de Rechazo |
|---|---|
| Bilateral: \(H_1: \mu \ne \mu_0\) | \(\|Z\| > 1.96\) |
| Unilateral derecha: \(H_1: \mu > \mu_0\) | \(Z > 1.645\) |
| Unilateral izquierda: \(H_1: \mu < \mu_0\) | \(Z < -1.645\) |
Ejemplo: Contraste Z para Precisión de Algoritmo
Ejemplo 1: Contraste Z para media
Problema: Un nuevo algoritmo de clasificación se prueba en una muestra de 50 instancias. La precisión observada es \(\bar{x} = 0.88\). Sabemos que la desviación típica es σ = 0.03 y queremos saber si difiere de la precisión anterior (μ₀ = 0.85) con α = 0.05 (bilateral).
Datos: - \(\bar{x} = 0.88\) - \(\mu_0 = 0.85\) - \(\sigma = 0.03\) - \(n = 50\) - \(\alpha = 0.05\) (bilateral)
Paso 1: Plantear hipótesis
Paso 2: Calcular el estadístico Z
Paso 3: Determinar el valor crítico
Para bilateral con α = 0.05: \(z_{0.025} = 1.96\)
Paso 4: Comparar
Paso 5: Conclusión
El nuevo algoritmo tiene una precisión significativamente distinta a 0.85 (p < 0.0001). La evidencia es muy fuerte de que la precisión ha mejorado.
Contraste t de Student para la Media (σ desconocida)
Supuestos
- σ es desconocida (se estima con s)
- La población es Normal (o n es grande para usar TLC)
- Los datos son independientes
Estadístico de Prueba
Donde:
- \(s\) = desviación típica muestral
- Todos los demás símbolos son iguales al contraste Z
Bajo H₀, t sigue una distribución t de Student con (n-1) grados de libertad.
Diferencia clave respecto a Z
La distribución t es más dispersa que Z (tiene colas más pesadas) porque usamos s en lugar de σ. Con más datos (n→∞), la distribución t converge a Z.
Contraste t: Una Muestra
Ejemplo 2: Contraste t para una muestra
Problema: Se mide el tiempo de respuesta de un servidor en 15 pruebas. Obtenemos: - \(\bar{x} = 42.3\) ms - \(s = 5.8\) ms - Queremos saber si el tiempo medio es distinto a 45 ms (μ₀ = 45) con α = 0.05
Datos: - \(n = 15\) → g.l. = 14 - Bilateral
Paso 1: Hipótesis
Paso 2: Calcular t
Paso 3: Valor crítico
Para bilateral, α = 0.05, g.l. = 14: \(t_{14, 0.025} = 2.145\)
Paso 4: Comparar
Paso 5: Conclusión
No hay evidencia de que el tiempo medio sea distinto a 45 ms. El tiempo observado es consistente con μ = 45.
Contraste t: Dos Muestras Independientes
Situación: Comparamos las medias de dos grupos independientes.
Estadístico de Prueba (Varianzas iguales)
Asumiendo que las varianzas poblacionales son iguales (\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)):
Donde la varianza combinada es:
Los grados de libertad son: \(\text{g.l.} = n_1 + n_2 - 2\)
💡 Varianzas desiguales
Si las varianzas parecen distintas, existe una variante (contraste de Welch) que no asume igualdad. Los pasos son similares pero el cálculo de g.l. es más complejo.
Ejemplo 3: Contraste t para dos muestras independientes
Problema: Comparamos dos implementaciones de un algoritmo:
| Algoritmo | n | Media | Desviación |
|---|---|---|---|
| A | 20 | 0.87 | 0.04 |
| B | 20 | 0.83 | 0.05 |
¿Hay diferencia significativa (α = 0.05)?
Paso 1: Hipótesis
Paso 2: Varianza combinada
Paso 3: Estadístico t
Paso 4: Valor crítico
g.l. = 20 + 20 - 2 = 38; para bilateral, α = 0.05: \(t_{38, 0.025} \approx 2.024\)
Paso 5: Comparar
Paso 6: Conclusión
Hay diferencia significativa entre los algoritmos (p ≈ 0.007). El Algoritmo A tiene mayor precisión.
Contraste t: Muestras Pareadas
Situación: Medimos a los mismos sujetos en dos ocasiones (antes/después, método 1 vs método 2).
Estadístico de Prueba
Primero, calculamos las diferencias pareadas \(d_i = x_{1i} - x_{2i}\) para cada sujeto.
Luego:
Donde:
- \(\bar{d}\) = media de las diferencias
- \(s_d\) = desviación típica de las diferencias
- \(n\) = número de pares
- g.l. = n - 1
Ejemplo 4: Contraste t para muestras pareadas
Problema: Probamos una mejora en el tiempo de respuesta de un algoritmo. Medimos el tiempo en 12 instancias antes y después de aplicar la mejora:
- Media de diferencias: \(\bar{d} = 0.032\) segundos (mejora)
- Desv. típica de diferencias: \(s_d = 0.018\) segundos
- n = 12
- α = 0.05 (bilateral)
Paso 1: Hipótesis
(H₀ = no hay cambio; H₁ = hay cambio)
Paso 2: Estadístico t
Paso 3: Valor crítico
g.l. = 12 - 1 = 11; para bilateral, α = 0.05: \(t_{11, 0.025} = 2.201\)
Paso 4: Comparar
Paso 5: Conclusión
La mejora es estadísticamente significativa (p < 0.001). El tiempo de respuesta ha disminuido significativamente después de la optimización.