Práctica 5 Variante v2 (UD1-6)
Duración estimada: 90 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
Bloque 1: Elementos del Análisis de Datos (Unidad 1)
Pregunta 1
Si estás trabajando con una variable que clasifica los lenguajes de programación preferidos por un equipo (Python, C++, Java), ¿en qué escala de medida te encuentras?
Pregunta 2
En el contexto de Machine Learning, ¿por qué es problemático asignar simplemente los números 1, 2 y 3 a categorías nominales como "Color de ojos"?
Pregunta 3
¿Cuál es el objetivo principal de realizar un Análisis Exploratorio de Datos (EDA) antes de entrenar un modelo de IA?
Pregunta 4
Al comparar dos conjuntos de datos mediante diagramas de caja (boxplots), observas que uno tiene una caja mucho más alargada que el otro. ¿Qué indica esto primordialmente?
Bloque 2: Estadística Descriptiva (Unidad 2)
Pregunta 5
Si en un conjunto de datos sobre salarios de una empresa tecnológica la media es mucho mayor que la mediana, ¿qué podemos deducir sobre la forma de la distribución?
Pregunta 7
¿Qué información nos proporciona el signo negativo en una covarianza o en un coeficiente de correlación de Pearson?
Pregunta 8
En una recta de regresión \(\hat{y} = a + bx\), ¿qué representa físicamente la pendiente \(b\)?
Bloque 3: Variables Aleatorias (Unidad 3)
Pregunta 11
Si tenemos dos variables aleatorias independientes X e Y, ¿cuál de estas afirmaciones sobre la varianza de su suma es correcta?
Pregunta 12
La Esperanza Matemática (\(E[X]\)) de una variable aleatoria puede interpretarse como:
Bloque 4: Distribuciones de Probabilidad (Unidad 4)
Pregunta 13
¿En qué situación es más apropiado usar una distribución de Poisson en lugar de una Binomial?
Pregunta 15
¿Qué característica especial tiene la distribución Exponencial debido a su "falta de memoria"?
Pregunta 16
¿Cuándo se utiliza la distribución \(t\) de Student en lugar de la Normal para hacer inferencia sobre una media?
Bloque 5: Inferencia Estadística (Unidad 5)
Pregunta 18
En un intervalo de confianza al 95% para la media, la interpretación correcta desde el punto de vista frecuentista es:
Pregunta 20
Si aumentamos el tamaño de la muestra (\(n\)) en la construcción de un intervalo de confianza, manteniendo todo lo demás constante:
Bloque 6: Aproximación Frecuentista y Tests (Unidad 6)
Pregunta 23
En una prueba Chi-cuadrado para tablas de contingencia, ¿cuál es el objetivo principal?
Pregunta 24
Si decides rechazar la hipótesis nula porque tu \(p\)-valor es 0.02 y tu nivel de significación (\(\alpha\)) es 0.05, ¿cuál es la conclusión técnica?
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones Desarrolladas
Solución pregunta 1 — Escala nominal de variables
Concepto: Variables nominales vs. otras escalas
Los sistemas operativos (Windows, Linux, macOS) son categorías sin ningún orden jerárquico o relación de proximidad natural. Una escala nominal simplemente etiqueta o clasifica.
- Escala nominal: etiquetas sin orden (género, color, SO).
- Escala ordinal: categorías con orden (talla: S, M, L) pero sin distancia fija.
- Escala intervalo: números con distancia fija pero cero arbitrario (temperatura Celsius).
- Escala razón: números con cero natural e interpretable (tiempo, dinero).
En Machine Learning, confundir nominales con ordinales causa sesgos en la interpretación del modelo.
Solución pregunta 2 — Codificación de variables nominales en IA
Concepto: Riesgo de usar números ordinales para datos nominales
Problema: Asignar 1 → Python, 2 → C++, 3 → Java sugiere un orden o distancia física que no existe. El algoritmo podría calcular distancias (ej. distancia euclidiana en kNN) y pensar que C++ está "más cerca" de Java que de Python.
Soluciones correctas:
- One-hot encoding: Python=[1,0,0], C++=[0,1,0], Java=[0,0,1].
- Label encoding + aclaración de que solo son etiquetas (en algoritmos que no usan distancia).
Esta es una fuente común de sesgos inadvertidos en modelos.
Solución pregunta 3 — Objetivos del Análisis Exploratorio de Datos (EDA)
Concepto: Propósito de EDA antes del modelado
Objetivos principales:
- Detectar patrones: correlaciones, tendencias, agrupaciones.
- Identificar anomalías: outliers, datos faltantes, inconsistencias.
- Entender distribuciones: forma, simetría, rango de valores.
- Generar hipótesis: guiar la selección de características y algoritmos.
- Evaluar calidad de datos: preparar para el preprocesamiento.
El EDA no sustituye el entrenamiento, pero lo hace más informado y eficiente. Es una inversión que ahorra tiempo y evita errores posteriores.
Solución pregunta 4 — Interpretación de ancho de caja en boxplot
Concepto: Componentes de un diagrama de caja
Estructura de un boxplot (de abajo a arriba):
- Bigote inferior: Q1 - 1.5×IQR (mínimo típico)
- Caja: Q1 a Q3 (50% central)
- Línea mediana: Q2 (posición 50%)
- Caja: Q1 a Q3 (rango intercuartílico = IQR)
- Bigote superior: Q3 + 1.5×IQR
- Puntos fuera: outliers
Una caja más ancha = IQR mayor = más dispersión en el 50% central. Una caja más estrecha = IQR menor = datos más concentrados.
Esto no dice nada sobre la media (no aparece en la caja estándar).
Solución pregunta 5 — Asimetría de distribuciones
Concepto: Relación entre media, mediana y sesgo
Regla de oro:
- Media > Mediana → Asimetría positiva (cola derecha)
- Media < Mediana → Asimetría negativa (cola izquierda)
- Media ≈ Mediana → Distribución simétrica
En datos de salarios con media 50k y mediana 30k (media > mediana), hay unos pocos salarios muy altos que "tiran" de la media. La mediana representa mejor el salario "típico" en este caso.
Transformación: aplicar logaritmo \(\log(X)\) reduce el sesgo positivo.
Solución pregunta 6 — Coeficiente de determinación R²
Concepto: Interpretación de \(R^2\) en regresión
Si \(R^2 = 0.85\):
- El 85% de la variabilidad en Y se explica por X.
- El 15% es debido a otros factores o error aleatorio.
- Rango: \(0 \le R^2 \le 1\).
Limitaciones: \(R^2\) alto no implica relación causal, ni que el modelo sea útil en producción (pudo overfitear). Un \(R^2 = 0.3\) puede ser bueno para predicción de comportamiento humano.
Solución pregunta 7 — Signo de covarianza
Concepto: Covarianza y correlación
- Cov > 0: cuando X ↑, Y tiende a ↑ (relación positiva)
- Cov < 0: cuando X ↑, Y tiende a ↓ (relación negativa)
- Cov = 0: no hay relación lineal
Problema: la magnitud de Cov depende de las unidades de X e Y. Solución: normalizar con correlación de Pearson:
Así \(r = -0.9\) indica relación lineal negativa fuerte.
Solución pregunta 8 — Pendiente en regresión lineal
Concepto: Interpretación de parámetros en \(\hat{y} = a + bx\)
- Ordenada \(a\): valor de \(\hat{y}\) cuando \(x = 0\)
- Pendiente \(b\): cambio en \(\hat{y}\) por unidad de cambio en \(x\)
Ejemplo: \(\hat{\text{precio}} = 20000 - 0.204 \times \text{km}\)
- \(a = 20000\): precio predicho si el coche tuviera 0 km.
- \(b = -0.204\): cada km adicional reduce (en promedio) 0.204 €.
Nunca confundir \(b\) con \(r^2\) (coeficiente de determinación) ni con \(r\) (correlación).
Solución pregunta 9 — Variables discretas vs. continuas
Concepto: Cardinalidad del espacio muestral
| Característica | Discreta | Continua |
|---|---|---|
| Valores | Conjunto numerable | Cualquier valor en intervalo |
| Ejemplos | Número de errores (0,1,2,...) | Tiempo, peso, temperatura |
| PMF/PDF | Función masa (PMF) | Función densidad (PDF) |
| CDF | Función escalonada | Función continua |
| E[X] | \(\sum x_i p_i\) | \(\int x \cdot f(x) dx\) |
Ambas pueden tener esperanza, varianza y CDF. La diferencia es fundamental pero la tratamiento matemático es paralelo.
Solución pregunta 10 — Propiedades de la CDF
Concepto: Funciones de distribución acumulada
Propiedades obligatorias de cualquier \(F(x) = P(X \le x)\):
- \(\lim_{x \to -\infty} F(x) = 0\) (antes de todo, prob = 0)
- \(\lim_{x \to \infty} F(x) = 1\) (después de todo, prob = 1)
- \(F(x)\) es monótona no-decreciente (puede platearse)
- Existe para cualquier distribución
Contraejemplos:
- ✗ "Continua en todos los puntos": distribuciones discretas tienen saltos
- ✗ "Monótona decreciente": es lo opuesto (no-decreciente)
- ✗ "Solo para normales": existe para cualquier distribución
- ✗ "Línea recta": solo en distribución uniforme
Solución pregunta 11 — Varianza de suma de variables independientes
Concepto: Propagación de variabilidad
Para variables independientes: $\(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)$
Demostración: $\(\text{Var}(X+Y) = E[(X+Y)^2] - (E[X+Y])^2\)$ $\(= E[X^2] + E[Y^2] + 2E[XY] - E[X]^2 - E[Y]^2 - 2E[X]E[Y]\)$
Si independientes: \(E[XY] = E[X]E[Y]\), por lo que: $\(= E[X^2] - E[X]^2 + E[Y^2] - E[Y]^2 = \text{Var}(X) + \text{Var}(Y)\)$
Aplicación: error en combinación de medidas (propagación de incertidumbre).
Solución pregunta 12 — Interpretación de esperanza
Concepto: Esperanza como centro de gravedad
Definición:
- Discreta: \(E[X] = \sum x_i P(X = x_i)\)
- Continua: \(E[X] = \int x \cdot f(x) dx\)
Interpretación: promedio a largo plazo. Por la Ley de Grandes Números:
Nota: no es la moda (valor más frecuente) ni la mediana (valor central por posición), sino el promedio ponderado por probabilidades. En distribuciones simétricas, E[X] = mediana = moda.
Solución pregunta 13 — Distribución de Poisson como aproximación
Concepto: Poisson aproxima Binomial en casos de eventos raros
Condiciones:
- \(n\) grande (n ≥ 30)
- \(p\) pequeño (p ≤ 0.1)
- \(np = \lambda\) moderado
En este límite, \(\text{Binomial}(n,p) \approx \text{Poisson}(\lambda)\)
Ejemplo: 1000 operaciones, probabilidad de fallo 0.001
- \(n \times p = 1000 \times 0.001 = 1\) (evento raro)
- \(P(X=k) \approx \frac{e^{-1} \cdot 1^k}{k!}\)
Ventaja: Poisson solo tiene un parámetro (\(\lambda\)), más simple.
Solución pregunta 14 — Distribución Normal Estándar
Concepto: Propiedades de Z ~ N(0,1)
Características:
- Media \(\mu = 0\)
- Desviación típica \(\sigma = 1\)
- Varianza \(\sigma^2 = 1\)
- Simétrica alrededor de 0
- Rango teórico: \((-\infty, \infty)\)
- 68% en [-1,1], 95% en [-2,2], 99.7% en [-3,3]
Estandarización: cualquier \(X \sim N(\mu, \sigma^2)\) se convierte a Z: $\(Z = \frac{X - \mu}{\sigma} \sim N(0,1)\)$
Uso: tablas de probabilidades para cualquier normal.
Solución pregunta 15 — Falta de memoria en distribución exponencial
Concepto: Propiedad única de la exponencial
Definición matemática: $\(P(X > t+s \mid X > s) = P(X > t)\)$
Interpretación: Si un sistema ha funcionado \(s\) segundos sin fallar, la probabilidad de que falle en los próximos \(t\) segundos es la misma que si acabara de empezar.
Aplicaciones:
- Tiempo de vida de componentes (sin "envejecimiento")
- Tiempo entre llegadas en colas (proceso de Poisson)
- Tiempo entre eventos en procesos sin memoria
Distribuciones sin esta propiedad: Weibull (modela envejecimiento)
Solución pregunta 16 — Cuándo usar distribución t de Student
Concepto: Condiciones para usar t en lugar de Z
Usa t de Student si:
- Datos aproximadamente normales
- Varianza poblacional \(\sigma^2\) desconocida
- Tamaño de muestra pequeño (n < 30)
- Grados de libertad = \(\nu = n - 1\)
Usa Normal (Z) si:
- \(\sigma^2\) es conocida, o
- \(n\) es grande (n ≥ 30), entonces \(t \approx Z\)
Diferencia: \(t\) tiene colas más pesadas que Normal, resultando intervalos más amplios (conservador). Conforme \(n \to \infty\), \(t \to Z\).
Solución pregunta 17 — Estimador insesgado
Concepto: Propiedad de insesgadez
Un estimador \(\hat{\theta}\) es insesgado si: $\(E[\hat{\theta}] = \theta\)$
Ejemplos:
- Media muestral \(\bar{X}\): insesgada para \(\mu\)
- Varianza muestral \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\): insesgada para \(\sigma^2\) (por eso dividimos por n-1, no n)
- Máximo muestral: sesgado para máximo poblacional
Nota: insesgadez no implica ser el "mejor" estimador. Un sesgado pero muy preciso podría tener menor error cuadrático medio (MSE).
Solución pregunta 18 — Interpretación frecuentista del intervalo de confianza
Concepto: IC del 95% vs. probabilidad
Interpretación CORRECTA (frecuentista): "Si repetimos el experimento muchas veces y construimos un IC cada vez, el 95% de esos intervalos contendrán el verdadero parámetro."
Interpretación INCORRECTA:
- "Hay 95% de probabilidad de que \(\mu\) esté en [a, b]" (una vez construido, \(\mu\) está o no está, prob=0 o 1)
- "El 95% de los datos están en el intervalo" (confunde IC con banda de datos)
Una vez construido un intervalo específico, o captura el parámetro (prob=1) o no (prob=0). La confianza es sobre el procedimiento, no sobre un caso individual.
Solución pregunta 19 — Error de Tipo I
Concepto: Error de falso positivo
| \(H_0\) Verdadera | \(H_0\) Falsa | |
|---|---|---|
| Rechazar \(H_0\) | Error Tipo I (α) ✗ | Correcto ✓ |
| No Rechazar \(H_0\) | Correcto ✓ | Error Tipo II (β) ✗ |
Error Tipo I = Falso Positivo = Rechazar \(H_0\) siendo verdadera
- Probabilidad = \(\alpha\) (nivel de significación)
- Controlamos este error directamente con \(\alpha\)
- En medicina: diagnosticar enfermedad siendo sano
Error Tipo II = Falso Negativo = No rechazar \(H_0\) siendo falsa
- Probabilidad = \(\beta\)
- Relacionado con potencia: \(1 - \beta\)
Solución pregunta 20 — Efecto del tamaño muestral en amplitud de IC
Concepto: Relación entre n y precisión
Amplitud del IC para una media: $\(\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\)$
Al aumentar \(n\):
- Denominador \(\sqrt{n}\) crece
- Amplitud disminuye (intervalo más estrecho)
- Precisión aumenta
Ejemplo: para reducir amplitud a la mitad, necesitas \(n' = 4n\) (porque \(\sqrt{4n} = 2\sqrt{n}\)).
El nivel de confianza (multiplicador \(z_{\alpha/2}\)) se controla independientemente aumentando confianza (amplitud crece).
Solución pregunta 21 — Definición correcta de p-valor
Concepto: Interpretación frecuente del p-valor
Definición CORRECTA: $\(p\text{-valor} = P(\text{datos observados o más extremos} \mid H_0 \text{ verdadera})\)$
Interpretación: si \(H_0\) fuera cierta, ¿qué probabilidad hay de ver estos datos (o más extremos)?
Regla: Si \(p < \alpha\), rechazamos \(H_0\).
Interpretaciones INCORRECTAS:
- ✗ "Probabilidad de que \(H_0\) sea cierta" (es \(P(H_0 \mid \text{datos})\), requiere Bayes)
- ✗ "Error que hemos cometido" (es probabilidad condicional)
- ✗ "Probabilidad de que \(H_1\) sea cierta"
El p-valor es una medida de compatibilidad, no una probabilidad posterior.
Solución pregunta 22 — Test de Kolmogorov-Smirnov
Concepto: Bondad de ajuste a distribución teórica
Objetivo: Contrastar si una muestra sigue una distribución teórica (ej. Normal, Exponencial).
Estadístico: $\(D = \max_x |F_{empírica}(x) - F_{teórica}(x)|\)$
Ventajas:
- Sensible a diferencias en cualquier parte (forma, centro, colas)
- No requiere categorizar datos
- Aplicable a distribuciones continuas
Hipótesis:
- \(H_0\): la muestra sigue la distribución teórica
- \(H_1\): la muestra NO sigue la distribución
Aplicación: verificar si residuos de regresión son normales.
Solución pregunta 23 — Test Chi-cuadrado de independencia
Concepto: Relación entre variables categóricas
Objetivo: Determinar si dos variables categóricas son independientes.
Estadístico: $\(\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)$
donde \(O\) = frecuencias observadas, \(E\) = esperadas bajo independencia.
Hipótesis:
- \(H_0\): variables independientes
- \(H_1\): variables asociadas
Grados de libertad: \(gl = (r-1)(c-1)\) donde r = filas, c = columnas.
Requisito: Frecuencias esperadas ≥ 5 (si no, combinar categorías).
Solución pregunta 24 — Decisión con p-valor < α
Concepto: Regla de decisión en contrastes
Regla de oro:
- Si \(p\text{-valor} < \alpha\) → Rechazamos \(H_0\) (resultado significativo)
- Si \(p\text{-valor} \ge \alpha\) → No rechazamos \(H_0\) (resultado no significativo)
En este caso: \(p = 0.02 < \alpha = 0.05\)
- Decisión: Rechazar \(H_0\)
- Conclusión: "El resultado es estadísticamente significativo al nivel del 5%"
- Significado: Si \(H_0\) fuera cierta, observar datos tan extremos ocurriría solo el 2% de las veces.
Nota: significancia estadística ≠ significancia práctica. Incluso con \(p<0.001\) puede no ser útil.