UD5 - Inferencia avanzada
A continuación, presento la información principal de la Unidad 5: Modelos de Inferencia Estadística, extraída de los documentos proporcionados, siguiendo la estructura de conceptos clave, fórmulas y ejercicios.
1. Conceptos Fundamentales de la Inferencia
La inferencia estadística es el proceso de obtener conclusiones sobre una población a partir de la información contenida en una muestra.
- Población: Conjunto completo de elementos de interés.
- Muestra: Subconjunto observado de la población.
- Parámetro (\(\theta\)): Característica numérica de la población, generalmente valor desconocido.
- Estadístico: Función de la muestra y, por tanto, un valor observable.
- Desafío central: Dado que la muestra es una variable aleatoria, el estadístico también lo es; la inferencia busca cuantificar la incertidumbre en las conclusiones.
2. Estimación Puntual
Consiste en utilizar un solo valor para aproximar el parámetro poblacional.
- Estimador puntual (\(\hat{\theta}\)): Función de la muestra que proporciona un único valor como aproximación del parámetro \(\theta\).
- Propiedades deseables de un estimador:
- Insesgadez: \(E[\hat{\theta}] = \theta\) (en promedio, el estimador da el valor correcto).
- Eficiencia: Mínima varianza entre estimadores insesgados.
- Consistencia: \(\hat{\theta}_n \xrightarrow{P} \theta\) cuando \(n \to \infty\) (converge al parámetro al aumentar el tamaño muestral).
- Error Cuadrático Medio (ECM): Medida global de calidad que combina sesgo y varianza:
- \(ECM(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] = Var(\hat{\theta}) + [Sesgo(\hat{\theta})]^2\).
- Estimadores comunes:
- Media muestral: \(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\) (estima \(\mu\)).
- Varianza muestral: \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\) (estima \(\sigma^2\)).
- Proporción: \(\hat{p} = \frac{\# éxitos}{n}\) (estima \(p\)).
3. Métodos de Estimación
- Método de Máxima Verosimilitud (MLE): Encuentra el parámetro que maximiza la probabilidad de observar los datos.
- Función de Verosimilitud: \(L(\theta|x_1, \dots, x_n) = \prod_{i=1}^n f(x_i|\theta)\).
- Estimador: \(\hat{\theta}_{MLE} = \arg \max_{\theta} L(\theta) = \arg \max_{\theta} \log L(\theta)\).
- Método de los Momentos (MM): Iguala los momentos muestrales con los momentos poblacionales teóricos.
- Momento muestral: \(m_k = \frac{1}{n} \sum_{i=1}^n X_i^k\).
- Procedimiento: Resolver el sistema \(m_k = \mu_k(\theta)\) para \(k = 1, 2, \dots\).
4. Estimación por Intervalos (Intervalos de Confianza)
Un rango de valores \([L, U]\) que, con un nivel de confianza \((1 - \alpha) \times 100\%\), contiene el parámetro real.
- Interpretación correcta: El 95% de los intervalos construidos mediante este método contendrán el parámetro real; no significa que haya una probabilidad de 0.95 de que el parámetro esté en un intervalo específico ya calculado.
- Fórmulas principales:
- Media (\(\sigma\) conocida): \(\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\).
- Media (\(\sigma\) desconocida): \(\bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}\).
- Proporción (n grande): \(\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\).
- Varianza (\(\sigma^2\)): \([\frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}}]\).
- Determinación del tamaño muestral (\(n\)):
- Para la media: \(n = \left(\frac{z_{\alpha/2} \cdot \sigma}{E}\right)^2\), donde \(E\) es el margen de error.
- Para la proporción: \(n = \hat{p}(1-\hat{p}) \left(\frac{z_{\alpha/2}}{E}\right)^2\).
5. Contraste de Hipótesis
Procedimiento para decidir si los datos muestrales proporcionan evidencia suficiente para rechazar una afirmación sobre el parámetro.
- \(H_0\) (Hipótesis nula): Afirmación que se contrasta.
- \(H_1\) (Hipótesis alternativa): Lo que se acepta si se rechaza \(H_0\).
- Tipos de error:
- Error Tipo I (\(\alpha\)): Rechazar \(H_0\) cuando es cierta (falso positivo).
- Error Tipo II (\(\beta\)): No rechazar \(H_0\) cuando es falsa (falso negativo).
- Potencia (\(1 - \beta\)): Probabilidad de detectar que \(H_0\) es falsa.
- Relación con IC: Un intervalo de confianza al \((1-\alpha)\%\) contiene todos los valores \(\theta_0\) que no serían rechazados en un contraste bilateral al nivel \(\alpha\).
6. Ejercicios Resueltos extraídos de las fuentes
- Estimación Puntual (Precisión): En una matriz de confusión con \(n=200\) imágenes médicas, se observan 175 clasificaciones correctas.
- Resultado: \(\hat{p} = 175/200 = \mathbf{0.875}\).
- MLE para Distribución Exponencial: Para \(X \sim Exp(\lambda)\), hallar el estimador de máxima verosimilitud.
- Derivación: La log-verosimilitud es \(\ell(\lambda) = n \log \lambda - \lambda \sum x_i\). Igualando la derivada a cero: \(\frac{n}{\lambda} - \sum x_i = 0\).
- Resultado: \(\hat{\lambda}_{MLE} = \frac{n}{\sum x_i} = \mathbf{\frac{1}{\bar{x}}}\).
- Método de Momentos para Normal: Estimación de parámetros para \(N(\mu, \sigma^2)\).
- Momento 1: \(E[X] = \mu \implies \mathbf{\hat{\mu}_{MM} = \bar{X}}\).
- Momento 2: \(E[X^2] = \mu^2 + \sigma^2 \implies \mathbf{\hat{\sigma}^2_{MM} = \frac{1}{n} \sum X_i^2 - \bar{X}^2}\).
- Relación IC y Contraste: Si un IC del 95% para \(\mu\) es $$.
- Caso \(H_0: \mu = 50\): No se rechaza (\(\alpha = 0.05\)) porque 50 está dentro del intervalo.
- Caso \(H_0: \mu = 55\): Sí se rechaza porque 55 está fuera del intervalo.
- Tamaño Muestral: Hallar \(n\) para un IC del 95% con un margen de error \(E=0.03\) para una proporción.
- Resultado: Utilizando el caso conservador (\(\hat{p}=0.5\)), \(n \approx \mathbf{1068}\).