Práctica 6 Variante v2 (aplicado)

Duración estimada: 90 minutos.

Instrucciones

Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

Bloque 1: Escalas y Visualización (Unidades 1-2)

#

Pregunta 1

Al medir el tiempo de respuesta de un servidor en milisegundos, ¿qué característica define que estemos en una escala de razón?

#

Pregunta 2

Si el algoritmo A tiene un diagrama de caja más ancho que el algoritmo B (con la misma mediana), ¿qué indica esto sobre su rendimiento?

#

Pregunta 3

En un modelo de regresión, un coeficiente de determinación $R^2 = 0.9239$ significa que:

#

Pregunta 4

Si la pendiente ($b$) de una recta de regresión que predice el precio basado en el kilometraje es $-0.204$, esto implica que:

Bloque 2: Variables Aleatorias y Probabilidad (Unidades 3-4)

#

Pregunta 5

¿Cuál es la utilidad principal de la Función Generatriz de Momentos (MGF)?

#

Pregunta 6

Sea $X$ una variable aleatoria con función de distribución $F(x)$. ¿Cuál de estas propiedades es obligatoria?

#

Pregunta 7

Si el tiempo entre errores de un sistema sigue una distribución exponencial, ¿qué significa la "falta de memoria"?

#

Pregunta 8

¿En qué condiciones la distribución de Poisson es una buena aproximación de la Binomial?

Bloque 3: Estimación e Intervalos (Unidad 5)

#

Pregunta 9

Un estimador puntual se considera "insesgado" si:

#

Pregunta 10

Si queremos construir un intervalo de confianza para la media de una población normal con varianza desconocida y muestra pequeña, ¿qué distribución debemos usar?

#

Pregunta 11

¿Qué sucede con la amplitud de un intervalo de confianza si aumentamos el tamaño de la muestra ($n$)?

#

Pregunta 12

Al calcular el tamaño muestral mínimo ($n$) para estimar una proporción sin información previa, ¿qué valor de $p$ se recomienda por prudencia?

Bloque 4: Contrastes de Hipótesis y Errores (Unidades 5-6)

#

Pregunta 13

El Error de Tipo I ($\alpha$) se define técnicamente como:

#

Pregunta 14

El Error de Tipo II ($\beta$) ocurre cuando:

#

Pregunta 15

En un contraste de hipótesis, si el $p$-valor obtenido es 0.03 y nuestro nivel de significación $\alpha$ es 0.01, ¿cuál es la decisión correcta?

#

Pregunta 16

¿Qué representa realmente el $p$-valor en un test estadístico?

Bloque 5: Tests Específicos (Unidad 6)

#

Pregunta 17

El test de Kolmogorov-Smirnov (KS) destaca por:

#

Pregunta 18

Para comprobar si el "tipo de dispositivo" influye en la "tasa de clics" (variables categóricas) en una web, ¿qué test es el más adecuado?

#

Pregunta 19

En un test Chi-cuadrado de bondad de ajuste con 5 categorías y sin estimar parámetros, ¿cuántos grados de libertad se utilizan?

#

Pregunta 20

La distribución F de Snedecor se utiliza fundamentalmente para:

Bloque 6: Conceptos Integradores (IA y Descriptiva)

#

Pregunta 21

¿Por qué es fundamental el Teorema Central del Límite (TCL) en la inferencia estadística?

#

Pregunta 22

Si un dataset de salarios tiene una media de 50k y una mediana de 30k, ¿qué transformación es aconsejable para el modelado en IA?

#

Pregunta 23

La covarianza negativa entre "tiempo de CPU" y "memoria libre" indica que:

#

Pregunta 24

¿Cuál es el riesgo de "aceptar" formalmente la hipótesis nula tras un test con un $p$-valor de 0.06?

Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas

Soluciones Desarrolladas

Solución pregunta 1 — Escala de razón en tiempos

Concepto: Característica definitoria de escala de razón

Una escala de razón requiere:

Cero absoluto: 0 ms = ausencia total de tiempo (no arbitrario)
Operaciones aritméticas válidas: suma, resta, multiplicación, división
Proporciones interpretables: "10 ms es el doble de 5 ms" tiene sentido físico

Comparación con otras escalas:

Nominal: sin orden (colores)
Ordinal: orden, sin distancia fija (ranking)
Intervalo: distancia fija, cero arbitrario (Celsius: 0°C ≠ ausencia de calor)
Razón: distancia fija, cero natural (Kelvin, tiempo, dinero)

En sistemas: tiempo de respuesta en ms es claramente razón.

Solución pregunta 2 — Interpretación de boxplot en comparación de algoritmos

Concepto: Componentes visuales del boxplot

El ancho de la caja = IQR = rango intercuartílico = dispersión del 50% central.

Comparación (misma mediana, cajas diferentes):

Caja ancha → mayor variabilidad central
Caja estrecha → menor variabilidad central

Lo que NO nos dice:

No implica diferencia en media (mediana ≠ media)
No implica velocidad absoluta (necesitas mediana/media)
No implica presencia/ausencia de outliers (que están fuera de bigotes)

Interpretación correcta: Algoritmo A es más variable en su rendimiento central.

Solución pregunta 3 — Interpretación correcta de R²

Concepto: R² como bondad de ajuste

\[R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} = \frac{\text{Variación explicada}}{\text{Variación total}}\]

Con $R^2 = 0.9239$:

El modelo explica el 92.39% de la variación en Y
El 7.61% es residual (otros factores + ruido)

Lo que NO significa:

✗ No es porcentaje de "aciertos" en producción (eso sería accuracy, precisión, etc.)
✗ No es igual a la correlación $r$ (aquí: $r = \sqrt{0.9239} \approx 0.961$)
✗ No predice error promedio (MAE = media de |residuos|)

Nota: $R^2$ alto puede haber overfitting; validar en test set.

Solución pregunta 4 — Interpretación de pendiente negativa en regresión

Concepto: Parámetros de recta de regresión $\hat{y} = a + bx$

Con $b = -0.204$ (precio ~ kilometraje):

Signo negativo: relación inversa (más km = menos precio)
Magnitud: cada km adicional reduce precio 0.204 €

Distinción de parámetros:

$a$ (ordenada): precio predicho cuando km = 0
$b$ (pendiente): cambio en Y por unidad de X
$R^2$: bondad del ajuste (no se confunde con $b$)

La relación inversa tiene sentido (coches usados se deprecian), indicando que el modelo captura la realidad.

Solución pregunta 5 — Utilidad de la Función Generatriz de Momentos

Concepto: MGF como caracterizador de distribuciones

Definición: $$M_X(t) = E[e^{tX}] = \sum_x e^{tx} p(x) \quad \text{(discreta)}$$ $$M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \quad \text{(continua)}$$

Propiedades:

Caracterización única: cada distribución tiene MGF única (si existe)
Cálculo de momentos: $E[X^n] = M_X^{(n)}(0)$

Ejemplos:

$M_X'(0) = E[X]$
$M_X''(0) = E[X^2]$, entonces $\text{Var}(X) = M_X''(0) - (M_X'(0))^2$

Herramienta teórica poderosa en teoría de probabilidad.

Solución pregunta 6 — Propiedades obligatorias de CDF

Concepto: Requisitos para función de distribución acumulada

Propiedades obligatorias de $F(x) = P(X \le x)$:

$\lim_{x \to -\infty} F(x) = 0$
$\lim_{x \to +\infty} F(x) = 1$ ✓
$F(x)$ monótona no-decreciente (puede ser plana o subir)
$0 \le F(x) \le 1$ para todo $x$

Lo que NO es obligatorio:

✗ Continuidad: distribuciones discretas tienen saltos
✗ Forma específica: puede ser escalonada, lineal, curva, etc.
✗ Derivada: $f(x) = F'(x)$ solo si $X$ continua

Aplica a: Normal, Poisson, Exponencial, Uniforme, etc.

Solución pregunta 7 — Falta de memoria en exponencial

Concepto: Propiedad markoviana de la distribución exponencial

Definición matemática: $$P(X > s+t \mid X > s) = P(X > t)$$

Interpretación: Si un sistema ha funcionado $s$ unidades de tiempo sin fallar, la probabilidad de que siga funcionando $t$ unidades más es la misma que si acabara de iniciarse (como si "olvidara" el tiempo pasado).

Ejemplo cuantitativo:

Componente con vida exponencial: $P(\text{falla en próximos 10h} \mid \text{ya funcionó 100h}) = P(\text{falla en próximos 10h})$

Aplicaciones:

Tiempo de vida sin envejecimiento
Llegadas de clientes a colas (Poisson)
Desintegración radiactiva

Distribuciones sin esta propiedad: Weibull (modela envejecimiento)

Solución pregunta 8 — Aproximación de Poisson a Binomial

Concepto: Límite de Binomial en caso de eventos raros

Teorema: Si $n \to \infty, p \to 0$ con $np = \lambda$ constante: $$\lim_{n,p \to ?} \text{Binomial}(n,p) = \text{Poisson}(\lambda)$$

Condiciones prácticas:

$n \ge 30$ (muestra grande)
$p \le 0.1$ (probabilidad pequeña)
$np = \lambda$ moderado (típicamente 0.1-10)

Ejemplo:

1000 operaciones (n), probabilidad de fallo 0.001 (p)
$\lambda = 1000 \times 0.001 = 1$
$P(X=k) \approx \frac{e^{-1} \cdot 1^k}{k!}$ (Poisson)

Ventaja: Poisson es más simple (un parámetro vs. dos).

Solución pregunta 9 — Estimador insesgado

Concepto: Propiedad de insesgadez en estimadores

Definición: Un estimador $\hat{\theta}$ es insesgado para parámetro $\theta$ si: $$E[\hat{\theta}] = \theta$$

Ejemplos:

Media muestral: $E[\bar{X}] = \mu$ ✓ insesgada
Varianza muestral: $E\left[\frac{1}{n-1}\sum(X_i - \bar{X})^2\right] = \sigma^2$ ✓ insesgada
Varianza sesgada: $E\left[\frac{1}{n}\sum(X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2$ ✗ sesgada

Nota importante:

Insesgadez ≠ precisión (baja varianza)
Un estimador puede ser insesgado pero impreciso (alta varianza)
A veces un estimador sesgado pero muy preciso es mejor (menor ECM)

Solución pregunta 10 — Distribución t de Student para IC

Concepto: Condiciones para usar t en lugar de Z

Usa t de Student cuando:

Datos aproximadamente normales
Varianza poblacional $\sigma^2$ desconocida (criterio principal)
Tamaño muestral pequeño (n < 30)
Grados de libertad: $\nu = n - 1$

Comparación: | Condición | Usar | |---|---| | $\sigma^2$ conocida, cualquier n | Z | | $\sigma^2$ desconocida, n < 30 | t | | $\sigma^2$ desconocida, n ≥ 30 | Z (t converge a Z) |

Diferencia: $t$ tiene colas más pesadas que Normal, resultando intervalos más amplios (conservador).

Razón: con $\sigma$ estimado (no conocido), hay incertidumbre adicional.

Solución pregunta 11 — Efecto del tamaño muestral en IC

Concepto: Relación entre n y amplitud del intervalo

Fórmula de amplitud: $$\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$$

Al aumentar $n$:

Denominador $\sqrt{n}$ crece
Amplitud disminuye (intervalo más estrecho)
Precisión aumenta (estimación más exacta)

Relación cuadrática:

Para reducir amplitud a la mitad: necesitas $n_{\text{nuevo}} = 4 \times n_{\text{actual}}$
Para reducir amplitud a la tercera parte: necesitas $n_{\text{nuevo}} = 9 \times n_{\text{actual}}$

El nivel de confianza se controla independientemente con $z_{\alpha/2}$.

Solución pregunta 12 — Tamaño muestral para proporciones

Concepto: Estrategia cuando se desconoce p

Fórmula general: $$n = \frac{z_{\alpha/2}^2 \times p(1-p)}{E^2}$$

Función $p(1-p)$ (varianza de proporción): $$\\text{máximo cuando } p = 0.5 : p(1-p) = 0.5 \times 0.5 = 0.25$$

Estrategia por prudencia:

Si no conocemos $p$, usamos $p = 0.5$
Esto maximiza la varianza → garantiza $n$ suficiente en cualquier caso
Si luego descubrimos que $p \ne 0.5$, habremos recolectado más datos de lo necesario (seguro, pero más caro)

Ventaja: evita sorpresas de tamaño insuficiente.

Solución pregunta 13 — Error de Tipo I

Concepto: Falso positivo en contrastes de hipótesis

	$H_0$ Verdadera	$H_0$ Falsa
Rechazar $H_0$	Error Tipo I (α)	Correcto (potencia)
No Rechazar	Correcto	Error Tipo II (β)

Error Tipo I:

Definición: Rechazar $H_0$ siendo $H_0$ verdadera (falso positivo)
Probabilidad: $\alpha$ (nivel de significación)
Controlamos este error directamente fijando $\alpha$ (ej. 0.05)

Ejemplos clínicos:

Diagnosticar enfermedad siendo sano
Tratamiento innecesario, costos, efectos adversos

En inferencia: entre α y β hay trade-off; aumentar $n$ reduce ambos.

Solución pregunta 14 — Error de Tipo II

Concepto: Falso negativo en contrastes de hipótesis

Error Tipo II:

Definición: No rechazar $H_0$ siendo $H_0$ falsa (falso negativo)
Probabilidad: $\beta$
Potencia del test: $1 - \beta$ = capacidad de detectar efecto verdadero

Formas de reducir $\beta$ (aumentar potencia):

Aumentar tamaño muestral $n$
Aumentar nivel de significación $\alpha$ (aumenta Error I, trade-off)
Mejorar diseño experimental

Ejemplos clínicos:

No diagnosticar enfermedad siendo enfermo
Paciente no recibe tratamiento necesario

En análisis de potencia, tipicamente fijamos $\beta = 0.2$ (potencia = 0.8).

Solución pregunta 15 — Decisión con p > α

Concepto: Interpretación correcta de p-valor en relación a α

Regla de decisión:

Si $p\text{-valor} < \alpha$ → Rechazamos $H_0$ (resultado significativo)
Si $p\text{-valor} \ge \alpha$ → No rechazamos $H_0$ (resultado no significativo)

En este caso: $p = 0.03, \alpha = 0.01$

Comparación: $0.03 > 0.01$ ✓
Decisión: No rechazamos $H_0$

Interpretación:

Aunque el p-valor es pequeño (0.03), no es lo suficientemente pequeño respecto a nuestro criterio (0.01)
Si $H_0$ fuera cierta, observar estos datos ocurriría el 3% de las veces
Pero toleramos hasta el 1%, así que falta evidencia

⚠ Error común: cambiar $\alpha$ post-hoc basado en datos ("p-hacking")

Solución pregunta 16 — Definición correcta de p-valor

Concepto: Interpretación frecuentista del p-valor

Definición correcta: $$p\text{-valor} = P(\text{datos observados o más extremos} \mid H_0 \text{ verdadera})$$

Interpretación:

Asumiendo $H_0$ cierta
¿Qué probabilidad hay de ver estadístico tan extremo o más?

Malinterpretaciones COMUNES:

✗ "Probabilidad de que $H_0$ sea cierta": eso es $P(H_0 | \text{datos})$ (Bayes)
✗ "Probabilidad de que cometimos error": es condicional, no marginal
✗ "Probabilidad de que $H_1$ sea cierta"

Implicación: p-valor bajo → datos incompatibles con $H_0$ (evidencia contra) pero no prueba que $H_0$ sea falsa.

Solución pregunta 17 — Test de Kolmogorov-Smirnov

Concepto: Bondad de ajuste sensible a cambios distribucionales

Objetivo: ¿Esta muestra sigue una distribución teórica?

Estadístico: $$D = \max_x |F_{\text{empírica}}(x) - F_{\text{teórica}}(x)|$$

Ventajas:

Sensible a diferencias en cualquier parte (no solo media)
Centro (localización)
Forma (simetría, curtosis)
Colas
No requiere categorizar datos (vs. Chi-cuadrado)
Aplicable a distribuciones continuas

Aplicación: Verificar si residuos de modelo siguen $N(0, \sigma^2)$

Limitación: menos potente con varianzas desconocidas.

Solución pregunta 18 — Test Chi-cuadrado para variables categóricas

Concepto: Independencia entre variables categóricas

Situación: dos variables nominales (dispositivo, tasa de clics) → Chi-cuadrado

Por qué NO otras opciones:

Test t: para medias de variable continua (tasa podría ser continua, pero "tipo dispositivo" es nominal)
F/ANOVA: para comparar medias de múltiples grupos
Regresión lineal: requiere variable dependiente continua con relación lineal

Estadístico Chi-cuadrado: $$\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$

donde $O$ = observado, $E$ = esperado bajo independencia.

Hipótesis:

$H_0$: dispositivo e independientes de tasa de clics
$H_1$: existe asociación

Solución pregunta 19 — Grados de libertad en Chi-cuadrado

Concepto: Cálculo de gl en bondad de ajuste

Para bondad de ajuste (comparar muestra vs. distribución teórica): $$gl = k - 1$$ donde $k$ = número de categorías.

En este caso: $k = 5$ categorías $$gl = 5 - 1 = 4$$

Corrección si se estiman parámetros:

Si estimamos $m$ parámetros: $gl = k - 1 - m$
Ejemplo: Si estimamos media y varianza (2 parámetros): $gl = 5 - 1 - 2 = 2$

Razón: cada restricción (parámetro estimado) consume grado de libertad.

Nota: Para independencia (tabla de contingencia): $gl = (r-1)(c-1)$

Solución pregunta 20 — Distribución F de Snedecor

Concepto: Cociente de varianzas

Definición: $$F = \frac{\chi^2_{\nu_1}/\nu_1}{\chi^2_{\nu_2}/\nu_2}$$

(cociente de dos Chi-cuadrado independientes divididas por sus gl)

Usos principales:

Test de igualdad de varianzas: $\frac{s_1^2}{s_2^2} \sim F$
ANOVA: comparar medias de múltiples grupos vía análisis de varianzas
Regresión: test de significación conjunta de coeficientes

En IA:

Comparar estabilidad de algoritmos (varianza de errores)
Seleccionar algoritmo más consistente

Propiedades: dependencia en dos gl ($\nu_1, \nu_2$), distribución sesgada positivamente.

Solución pregunta 21 — Teorema Central del Límite (TCL)

Concepto: Convergencia de media muestral a normalidad

Enunciado: Si $X_1, X_2, ..., X_n$ son iid con media $\mu$ y varianza $\sigma^2$ finita: $$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \approx N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{cuando } n \text{ es grande}$$

Criterio práctico: $n \ge 30$ (regla de oro).

Importancia en inferencia:

Justifica usar método Normal incluso si datos originales no son normales
Base de intervalos de confianza y tests de hipótesis
Explica por qué media muestral es "estable" con muestras grandes

Ejemplo: ingresos (muy sesgados) → media de 100 personas → aproximadamente normal.

Solución pregunta 22 — Transformación logarítmica para sesgo

Concepto: Normalización de datos sesgados

Diagnóstico: Media (50k) >> Mediana (30k)

Sesgo positivo (cola derecha)
Pocos salarios muy altos "tiran" de la media

Transformación logarítmica: $Y = \log(X)$

Efectos:

Comprime valores altos (50k → log(50k) ≈ 10.82)
Expande valores bajos (20k → log(20k) ≈ 9.90)
Reduce rango relativo, acerca distribución a simetría

Ventajas en modelado:

Mejora linealidad (relaciones exponenciales → lineales)
Estabiliza varianza (homocedasticidad)
Reduce efecto de outliers
Mejora rendimiento de algoritmos (especialmente regresión lineal, ML)

Nota: transformación solo valida para $X > 0$.

Solución pregunta 23 — Covarianza negativa e interpretación

Concepto: Covarianza como medida de co-variabilidad

Definición: $$\text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]$$

Con Cov(CPU, Memoria) < 0:

Cuando CPU ↑, Memoria tiende a ↓
Relación lineal negativa (inversa)

Lo que NO implica:

✗ Relación "fuerte" (depende de magnitud: necesitas $r = \frac{\text{Cov}}{\sigma_X \sigma_Y}$)
✗ Relación causal (solo correlación)

Interpretación física:

CPUs con uso intenso consumen más memoria disponible (lógico)
Covarianza captura esta co-variabilidad

Nota: Signo negativo es totalmente válido en variables cuantitativas (tempo, dinero, energía, etc.).

Solución pregunta 24 — Riesgo de aceptar H₀

Concepto: Diferencia entre "no rechazar" y "aceptar"

Lenguaje correcto:

✓ "No rechazamos $H_0$" (cuando p > α)
✗ "Aceptamos $H_0$" (incorrecto)

Razón:

Falta de evidencia contra $H_0$ ≠ Evidencia de que $H_0$ es cierta
Analogía: "No culpable" ≠ "Inocente"

Riesgos de "aceptar" $H_0$:

Tamaño muestral insuficiente: si $n$ es pequeño, no tienes poder para detectar efectos reales
Error Tipo II: no rechazar siendo $H_0$ falsa (probabilidad = $\beta$)
Conclusión apresurada: solo significa que no hay evidencia suficiente

Mejor práctica: reportar potencia del test y tamaño del efecto junto con p-valor.

	\(H_0\) Verdadera	\(H_0\) Falsa
Rechazar \(H_0\)	Error Tipo I (α)	Correcto (potencia)
No Rechazar	Correcto	Error Tipo II (β)