Práctica 6 Variante v2 (aplicado)
Duración estimada: 90 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
Bloque 1: Escalas y Visualización (Unidades 1-2)
Pregunta 1
Al medir el tiempo de respuesta de un servidor en milisegundos, ¿qué característica define que estemos en una escala de razón?
Pregunta 2
Si el algoritmo A tiene un diagrama de caja más ancho que el algoritmo B (con la misma mediana), ¿qué indica esto sobre su rendimiento?
Pregunta 3
En un modelo de regresión, un coeficiente de determinación \(R^2 = 0.9239\) significa que:
Pregunta 4
Si la pendiente (\(b\)) de una recta de regresión que predice el precio basado en el kilometraje es \(-0.204\), esto implica que:
Bloque 2: Variables Aleatorias y Probabilidad (Unidades 3-4)
Pregunta 6
Sea \(X\) una variable aleatoria con función de distribución \(F(x)\). ¿Cuál de estas propiedades es obligatoria?
Pregunta 7
Si el tiempo entre errores de un sistema sigue una distribución exponencial, ¿qué significa la "falta de memoria"?
Pregunta 8
¿En qué condiciones la distribución de Poisson es una buena aproximación de la Binomial?
Bloque 3: Estimación e Intervalos (Unidad 5)
Pregunta 10
Si queremos construir un intervalo de confianza para la media de una población normal con varianza desconocida y muestra pequeña, ¿qué distribución debemos usar?
Pregunta 11
¿Qué sucede con la amplitud de un intervalo de confianza si aumentamos el tamaño de la muestra (\(n\))?
Pregunta 12
Al calcular el tamaño muestral mínimo (\(n\)) para estimar una proporción sin información previa, ¿qué valor de \(p\) se recomienda por prudencia?
Bloque 4: Contrastes de Hipótesis y Errores (Unidades 5-6)
Pregunta 15
En un contraste de hipótesis, si el \(p\)-valor obtenido es 0.03 y nuestro nivel de significación \(\alpha\) es 0.01, ¿cuál es la decisión correcta?
Bloque 5: Tests Específicos (Unidad 6)
Pregunta 18
Para comprobar si el "tipo de dispositivo" influye en la "tasa de clics" (variables categóricas) en una web, ¿qué test es el más adecuado?
Pregunta 19
En un test Chi-cuadrado de bondad de ajuste con 5 categorías y sin estimar parámetros, ¿cuántos grados de libertad se utilizan?
Bloque 6: Conceptos Integradores (IA y Descriptiva)
Pregunta 21
¿Por qué es fundamental el Teorema Central del Límite (TCL) en la inferencia estadística?
Pregunta 22
Si un dataset de salarios tiene una media de 50k y una mediana de 30k, ¿qué transformación es aconsejable para el modelado en IA?
Pregunta 24
¿Cuál es el riesgo de "aceptar" formalmente la hipótesis nula tras un test con un \(p\)-valor de 0.06?
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones Desarrolladas
Solución pregunta 1 — Escala de razón en tiempos
Concepto: Característica definitoria de escala de razón
Una escala de razón requiere:
- Cero absoluto: 0 ms = ausencia total de tiempo (no arbitrario)
- Operaciones aritméticas válidas: suma, resta, multiplicación, división
- Proporciones interpretables: "10 ms es el doble de 5 ms" tiene sentido físico
Comparación con otras escalas:
- Nominal: sin orden (colores)
- Ordinal: orden, sin distancia fija (ranking)
- Intervalo: distancia fija, cero arbitrario (Celsius: 0°C ≠ ausencia de calor)
- Razón: distancia fija, cero natural (Kelvin, tiempo, dinero)
En sistemas: tiempo de respuesta en ms es claramente razón.
Solución pregunta 2 — Interpretación de boxplot en comparación de algoritmos
Concepto: Componentes visuales del boxplot
El ancho de la caja = IQR = rango intercuartílico = dispersión del 50% central.
Comparación (misma mediana, cajas diferentes):
- Caja ancha → mayor variabilidad central
- Caja estrecha → menor variabilidad central
Lo que NO nos dice:
- No implica diferencia en media (mediana ≠ media)
- No implica velocidad absoluta (necesitas mediana/media)
- No implica presencia/ausencia de outliers (que están fuera de bigotes)
Interpretación correcta: Algoritmo A es más variable en su rendimiento central.
Solución pregunta 3 — Interpretación correcta de R²
Concepto: R² como bondad de ajuste
Con \(R^2 = 0.9239\):
- El modelo explica el 92.39% de la variación en Y
- El 7.61% es residual (otros factores + ruido)
Lo que NO significa:
- ✗ No es porcentaje de "aciertos" en producción (eso sería accuracy, precisión, etc.)
- ✗ No es igual a la correlación \(r\) (aquí: \(r = \sqrt{0.9239} \approx 0.961\))
- ✗ No predice error promedio (MAE = media de |residuos|)
Nota: \(R^2\) alto puede haber overfitting; validar en test set.
Solución pregunta 4 — Interpretación de pendiente negativa en regresión
Concepto: Parámetros de recta de regresión \(\hat{y} = a + bx\)
Con \(b = -0.204\) (precio ~ kilometraje):
- Signo negativo: relación inversa (más km = menos precio)
- Magnitud: cada km adicional reduce precio 0.204 €
Distinción de parámetros:
- \(a\) (ordenada): precio predicho cuando km = 0
- \(b\) (pendiente): cambio en Y por unidad de X
- \(R^2\): bondad del ajuste (no se confunde con \(b\))
La relación inversa tiene sentido (coches usados se deprecian), indicando que el modelo captura la realidad.
Solución pregunta 5 — Utilidad de la Función Generatriz de Momentos
Concepto: MGF como caracterizador de distribuciones
Definición: $\(M_X(t) = E[e^{tX}] = \sum_x e^{tx} p(x) \quad \text{(discreta)}\)$ $\(M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \quad \text{(continua)}\)$
Propiedades:
- Caracterización única: cada distribución tiene MGF única (si existe)
- Cálculo de momentos: \(E[X^n] = M_X^{(n)}(0)\)
Ejemplos:
- \(M_X'(0) = E[X]\)
- \(M_X''(0) = E[X^2]\), entonces \(\text{Var}(X) = M_X''(0) - (M_X'(0))^2\)
Herramienta teórica poderosa en teoría de probabilidad.
Solución pregunta 6 — Propiedades obligatorias de CDF
Concepto: Requisitos para función de distribución acumulada
Propiedades obligatorias de \(F(x) = P(X \le x)\):
- \(\lim_{x \to -\infty} F(x) = 0\)
- \(\lim_{x \to +\infty} F(x) = 1\) ✓
- \(F(x)\) monótona no-decreciente (puede ser plana o subir)
- \(0 \le F(x) \le 1\) para todo \(x\)
Lo que NO es obligatorio:
- ✗ Continuidad: distribuciones discretas tienen saltos
- ✗ Forma específica: puede ser escalonada, lineal, curva, etc.
- ✗ Derivada: \(f(x) = F'(x)\) solo si \(X\) continua
Aplica a: Normal, Poisson, Exponencial, Uniforme, etc.
Solución pregunta 7 — Falta de memoria en exponencial
Concepto: Propiedad markoviana de la distribución exponencial
Definición matemática: $\(P(X > s+t \mid X > s) = P(X > t)\)$
Interpretación: Si un sistema ha funcionado \(s\) unidades de tiempo sin fallar, la probabilidad de que siga funcionando \(t\) unidades más es la misma que si acabara de iniciarse (como si "olvidara" el tiempo pasado).
Ejemplo cuantitativo:
- Componente con vida exponencial: \(P(\text{falla en próximos 10h} \mid \text{ya funcionó 100h}) = P(\text{falla en próximos 10h})\)
Aplicaciones:
- Tiempo de vida sin envejecimiento
- Llegadas de clientes a colas (Poisson)
- Desintegración radiactiva
Distribuciones sin esta propiedad: Weibull (modela envejecimiento)
Solución pregunta 8 — Aproximación de Poisson a Binomial
Concepto: Límite de Binomial en caso de eventos raros
Teorema: Si \(n \to \infty, p \to 0\) con \(np = \lambda\) constante: $\(\lim_{n,p \to ?} \text{Binomial}(n,p) = \text{Poisson}(\lambda)\)$
Condiciones prácticas:
- \(n \ge 30\) (muestra grande)
- \(p \le 0.1\) (probabilidad pequeña)
- \(np = \lambda\) moderado (típicamente 0.1-10)
Ejemplo:
- 1000 operaciones (n), probabilidad de fallo 0.001 (p)
- \(\lambda = 1000 \times 0.001 = 1\)
- \(P(X=k) \approx \frac{e^{-1} \cdot 1^k}{k!}\) (Poisson)
Ventaja: Poisson es más simple (un parámetro vs. dos).
Solución pregunta 9 — Estimador insesgado
Concepto: Propiedad de insesgadez en estimadores
Definición: Un estimador \(\hat{\theta}\) es insesgado para parámetro \(\theta\) si: $\(E[\hat{\theta}] = \theta\)$
Ejemplos:
- Media muestral: \(E[\bar{X}] = \mu\) ✓ insesgada
- Varianza muestral: \(E\left[\frac{1}{n-1}\sum(X_i - \bar{X})^2\right] = \sigma^2\) ✓ insesgada
- Varianza sesgada: \(E\left[\frac{1}{n}\sum(X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2\) ✗ sesgada
Nota importante:
- Insesgadez ≠ precisión (baja varianza)
- Un estimador puede ser insesgado pero impreciso (alta varianza)
- A veces un estimador sesgado pero muy preciso es mejor (menor ECM)
Solución pregunta 10 — Distribución t de Student para IC
Concepto: Condiciones para usar t en lugar de Z
Usa t de Student cuando:
- Datos aproximadamente normales
- Varianza poblacional \(\sigma^2\) desconocida (criterio principal)
- Tamaño muestral pequeño (n < 30)
- Grados de libertad: \(\nu = n - 1\)
Comparación: | Condición | Usar | |---|---| | \(\sigma^2\) conocida, cualquier n | Z | | \(\sigma^2\) desconocida, n < 30 | t | | \(\sigma^2\) desconocida, n ≥ 30 | Z (t converge a Z) |
Diferencia: \(t\) tiene colas más pesadas que Normal, resultando intervalos más amplios (conservador).
Razón: con \(\sigma\) estimado (no conocido), hay incertidumbre adicional.
Solución pregunta 11 — Efecto del tamaño muestral en IC
Concepto: Relación entre n y amplitud del intervalo
Fórmula de amplitud: $\(\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\)$
Al aumentar \(n\):
- Denominador \(\sqrt{n}\) crece
- Amplitud disminuye (intervalo más estrecho)
- Precisión aumenta (estimación más exacta)
Relación cuadrática:
- Para reducir amplitud a la mitad: necesitas \(n_{\text{nuevo}} = 4 \times n_{\text{actual}}\)
- Para reducir amplitud a la tercera parte: necesitas \(n_{\text{nuevo}} = 9 \times n_{\text{actual}}\)
El nivel de confianza se controla independientemente con \(z_{\alpha/2}\).
Solución pregunta 12 — Tamaño muestral para proporciones
Concepto: Estrategia cuando se desconoce p
Fórmula general: $\(n = \frac{z_{\alpha/2}^2 \times p(1-p)}{E^2}\)$
Función \(p(1-p)\) (varianza de proporción): $\(\\text{máximo cuando } p = 0.5 : p(1-p) = 0.5 \times 0.5 = 0.25\)$
Estrategia por prudencia:
- Si no conocemos \(p\), usamos \(p = 0.5\)
- Esto maximiza la varianza → garantiza \(n\) suficiente en cualquier caso
- Si luego descubrimos que \(p \ne 0.5\), habremos recolectado más datos de lo necesario (seguro, pero más caro)
Ventaja: evita sorpresas de tamaño insuficiente.
Solución pregunta 13 — Error de Tipo I
Concepto: Falso positivo en contrastes de hipótesis
| \(H_0\) Verdadera | \(H_0\) Falsa | |
|---|---|---|
| Rechazar \(H_0\) | Error Tipo I (α) | Correcto (potencia) |
| No Rechazar | Correcto | Error Tipo II (β) |
Error Tipo I:
- Definición: Rechazar \(H_0\) siendo \(H_0\) verdadera (falso positivo)
- Probabilidad: \(\alpha\) (nivel de significación)
- Controlamos este error directamente fijando \(\alpha\) (ej. 0.05)
Ejemplos clínicos:
- Diagnosticar enfermedad siendo sano
- Tratamiento innecesario, costos, efectos adversos
En inferencia: entre α y β hay trade-off; aumentar \(n\) reduce ambos.
Solución pregunta 14 — Error de Tipo II
Concepto: Falso negativo en contrastes de hipótesis
Error Tipo II:
- Definición: No rechazar \(H_0\) siendo \(H_0\) falsa (falso negativo)
- Probabilidad: \(\beta\)
- Potencia del test: \(1 - \beta\) = capacidad de detectar efecto verdadero
Formas de reducir \(\beta\) (aumentar potencia):
- Aumentar tamaño muestral \(n\)
- Aumentar nivel de significación \(\alpha\) (aumenta Error I, trade-off)
- Mejorar diseño experimental
Ejemplos clínicos:
- No diagnosticar enfermedad siendo enfermo
- Paciente no recibe tratamiento necesario
En análisis de potencia, tipicamente fijamos \(\beta = 0.2\) (potencia = 0.8).
Solución pregunta 15 — Decisión con p > α
Concepto: Interpretación correcta de p-valor en relación a α
Regla de decisión:
- Si \(p\text{-valor} < \alpha\) → Rechazamos \(H_0\) (resultado significativo)
- Si \(p\text{-valor} \ge \alpha\) → No rechazamos \(H_0\) (resultado no significativo)
En este caso: \(p = 0.03, \alpha = 0.01\)
- Comparación: \(0.03 > 0.01\) ✓
- Decisión: No rechazamos \(H_0\)
Interpretación:
- Aunque el p-valor es pequeño (0.03), no es lo suficientemente pequeño respecto a nuestro criterio (0.01)
- Si \(H_0\) fuera cierta, observar estos datos ocurriría el 3% de las veces
- Pero toleramos hasta el 1%, así que falta evidencia
⚠ Error común: cambiar \(\alpha\) post-hoc basado en datos ("p-hacking")
Solución pregunta 16 — Definición correcta de p-valor
Concepto: Interpretación frecuentista del p-valor
Definición correcta: $\(p\text{-valor} = P(\text{datos observados o más extremos} \mid H_0 \text{ verdadera})\)$
Interpretación:
- Asumiendo \(H_0\) cierta
- ¿Qué probabilidad hay de ver estadístico tan extremo o más?
Malinterpretaciones COMUNES:
- ✗ "Probabilidad de que \(H_0\) sea cierta": eso es \(P(H_0 | \text{datos})\) (Bayes)
- ✗ "Probabilidad de que cometimos error": es condicional, no marginal
- ✗ "Probabilidad de que \(H_1\) sea cierta"
Implicación: p-valor bajo → datos incompatibles con \(H_0\) (evidencia contra) pero no prueba que \(H_0\) sea falsa.
Solución pregunta 17 — Test de Kolmogorov-Smirnov
Concepto: Bondad de ajuste sensible a cambios distribucionales
Objetivo: ¿Esta muestra sigue una distribución teórica?
Estadístico: $\(D = \max_x |F_{\text{empírica}}(x) - F_{\text{teórica}}(x)|\)$
Ventajas:
-
Sensible a diferencias en cualquier parte (no solo media)
-
Centro (localización)
- Forma (simetría, curtosis)
-
Colas
-
No requiere categorizar datos (vs. Chi-cuadrado)
- Aplicable a distribuciones continuas
Aplicación: Verificar si residuos de modelo siguen \(N(0, \sigma^2)\)
Limitación: menos potente con varianzas desconocidas.
Solución pregunta 18 — Test Chi-cuadrado para variables categóricas
Concepto: Independencia entre variables categóricas
Situación: dos variables nominales (dispositivo, tasa de clics) → Chi-cuadrado
Por qué NO otras opciones:
- Test t: para medias de variable continua (tasa podría ser continua, pero "tipo dispositivo" es nominal)
- F/ANOVA: para comparar medias de múltiples grupos
- Regresión lineal: requiere variable dependiente continua con relación lineal
Estadístico Chi-cuadrado: $\(\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)$
donde \(O\) = observado, \(E\) = esperado bajo independencia.
Hipótesis:
- \(H_0\): dispositivo e independientes de tasa de clics
- \(H_1\): existe asociación
Solución pregunta 19 — Grados de libertad en Chi-cuadrado
Concepto: Cálculo de gl en bondad de ajuste
Para bondad de ajuste (comparar muestra vs. distribución teórica): $\(gl = k - 1\)$ donde \(k\) = número de categorías.
En este caso: \(k = 5\) categorías $\(gl = 5 - 1 = 4\)$
Corrección si se estiman parámetros:
- Si estimamos \(m\) parámetros: \(gl = k - 1 - m\)
- Ejemplo: Si estimamos media y varianza (2 parámetros): \(gl = 5 - 1 - 2 = 2\)
Razón: cada restricción (parámetro estimado) consume grado de libertad.
Nota: Para independencia (tabla de contingencia): \(gl = (r-1)(c-1)\)
Solución pregunta 20 — Distribución F de Snedecor
Concepto: Cociente de varianzas
Definición: $\(F = \frac{\chi^2_{\nu_1}/\nu_1}{\chi^2_{\nu_2}/\nu_2}\)$
(cociente de dos Chi-cuadrado independientes divididas por sus gl)
Usos principales:
- Test de igualdad de varianzas: \(\frac{s_1^2}{s_2^2} \sim F\)
- ANOVA: comparar medias de múltiples grupos vía análisis de varianzas
- Regresión: test de significación conjunta de coeficientes
En IA:
- Comparar estabilidad de algoritmos (varianza de errores)
- Seleccionar algoritmo más consistente
Propiedades: dependencia en dos gl (\(\nu_1, \nu_2\)), distribución sesgada positivamente.
Solución pregunta 21 — Teorema Central del Límite (TCL)
Concepto: Convergencia de media muestral a normalidad
Enunciado: Si \(X_1, X_2, ..., X_n\) son iid con media \(\mu\) y varianza \(\sigma^2\) finita: $\(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \approx N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{cuando } n \text{ es grande}\)$
Criterio práctico: \(n \ge 30\) (regla de oro).
Importancia en inferencia:
- Justifica usar método Normal incluso si datos originales no son normales
- Base de intervalos de confianza y tests de hipótesis
- Explica por qué media muestral es "estable" con muestras grandes
Ejemplo: ingresos (muy sesgados) → media de 100 personas → aproximadamente normal.
Solución pregunta 22 — Transformación logarítmica para sesgo
Concepto: Normalización de datos sesgados
Diagnóstico: Media (50k) >> Mediana (30k)
- Sesgo positivo (cola derecha)
- Pocos salarios muy altos "tiran" de la media
Transformación logarítmica: \(Y = \log(X)\)
Efectos:
- Comprime valores altos (50k → log(50k) ≈ 10.82)
- Expande valores bajos (20k → log(20k) ≈ 9.90)
- Reduce rango relativo, acerca distribución a simetría
Ventajas en modelado:
- Mejora linealidad (relaciones exponenciales → lineales)
- Estabiliza varianza (homocedasticidad)
- Reduce efecto de outliers
- Mejora rendimiento de algoritmos (especialmente regresión lineal, ML)
Nota: transformación solo valida para \(X > 0\).
Solución pregunta 23 — Covarianza negativa e interpretación
Concepto: Covarianza como medida de co-variabilidad
Definición: $\(\text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]\)$
Con Cov(CPU, Memoria) < 0:
- Cuando CPU ↑, Memoria tiende a ↓
- Relación lineal negativa (inversa)
Lo que NO implica:
- ✗ Relación "fuerte" (depende de magnitud: necesitas \(r = \frac{\text{Cov}}{\sigma_X \sigma_Y}\))
- ✗ Relación causal (solo correlación)
Interpretación física:
- CPUs con uso intenso consumen más memoria disponible (lógico)
- Covarianza captura esta co-variabilidad
Nota: Signo negativo es totalmente válido en variables cuantitativas (tempo, dinero, energía, etc.).
Solución pregunta 24 — Riesgo de aceptar H₀
Concepto: Diferencia entre "no rechazar" y "aceptar"
Lenguaje correcto:
- ✓ "No rechazamos \(H_0\)" (cuando p > α)
- ✗ "Aceptamos \(H_0\)" (incorrecto)
Razón:
- Falta de evidencia contra \(H_0\) ≠ Evidencia de que \(H_0\) es cierta
- Analogía: "No culpable" ≠ "Inocente"
Riesgos de "aceptar" \(H_0\):
- Tamaño muestral insuficiente: si \(n\) es pequeño, no tienes poder para detectar efectos reales
- Error Tipo II: no rechazar siendo \(H_0\) falsa (probabilidad = \(\beta\))
- Conclusión apresurada: solo significa que no hay evidencia suficiente
Mejor práctica: reportar potencia del test y tamaño del efecto junto con p-valor.