Skip to content

Práctica 6 Variante v2 (aplicado)

Duración estimada: 90 minutos.

Instrucciones

  • Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
  • En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

Bloque 1: Escalas y Visualización (Unidades 1-2)

#

Pregunta 1

Al medir el tiempo de respuesta de un servidor en milisegundos, ¿qué característica define que estemos en una escala de razón?

#

Pregunta 2

Si el algoritmo A tiene un diagrama de caja más ancho que el algoritmo B (con la misma mediana), ¿qué indica esto sobre su rendimiento?

#

Pregunta 3

En un modelo de regresión, un coeficiente de determinación \(R^2 = 0.9239\) significa que:

#

Pregunta 4

Si la pendiente (\(b\)) de una recta de regresión que predice el precio basado en el kilometraje es \(-0.204\), esto implica que:


Bloque 2: Variables Aleatorias y Probabilidad (Unidades 3-4)

#

Pregunta 5

¿Cuál es la utilidad principal de la Función Generatriz de Momentos (MGF)?

#

Pregunta 6

Sea \(X\) una variable aleatoria con función de distribución \(F(x)\). ¿Cuál de estas propiedades es obligatoria?

#

Pregunta 7

Si el tiempo entre errores de un sistema sigue una distribución exponencial, ¿qué significa la "falta de memoria"?

#

Pregunta 8

¿En qué condiciones la distribución de Poisson es una buena aproximación de la Binomial?


Bloque 3: Estimación e Intervalos (Unidad 5)

#

Pregunta 9

Un estimador puntual se considera "insesgado" si:

#

Pregunta 10

Si queremos construir un intervalo de confianza para la media de una población normal con varianza desconocida y muestra pequeña, ¿qué distribución debemos usar?

#

Pregunta 11

¿Qué sucede con la amplitud de un intervalo de confianza si aumentamos el tamaño de la muestra (\(n\))?

#

Pregunta 12

Al calcular el tamaño muestral mínimo (\(n\)) para estimar una proporción sin información previa, ¿qué valor de \(p\) se recomienda por prudencia?


Bloque 4: Contrastes de Hipótesis y Errores (Unidades 5-6)

#

Pregunta 13

El Error de Tipo I (\(\alpha\)) se define técnicamente como:

#

Pregunta 14

El Error de Tipo II (\(\beta\)) ocurre cuando:

#

Pregunta 15

En un contraste de hipótesis, si el \(p\)-valor obtenido es 0.03 y nuestro nivel de significación \(\alpha\) es 0.01, ¿cuál es la decisión correcta?

#

Pregunta 16

¿Qué representa realmente el \(p\)-valor en un test estadístico?


Bloque 5: Tests Específicos (Unidad 6)

#

Pregunta 17

El test de Kolmogorov-Smirnov (KS) destaca por:

#

Pregunta 18

Para comprobar si el "tipo de dispositivo" influye en la "tasa de clics" (variables categóricas) en una web, ¿qué test es el más adecuado?

#

Pregunta 19

En un test Chi-cuadrado de bondad de ajuste con 5 categorías y sin estimar parámetros, ¿cuántos grados de libertad se utilizan?

#

Pregunta 20

La distribución F de Snedecor se utiliza fundamentalmente para:


Bloque 6: Conceptos Integradores (IA y Descriptiva)

#

Pregunta 21

¿Por qué es fundamental el Teorema Central del Límite (TCL) en la inferencia estadística?

#

Pregunta 22

Si un dataset de salarios tiene una media de 50k y una mediana de 30k, ¿qué transformación es aconsejable para el modelado en IA?

#

Pregunta 23

La covarianza negativa entre "tiempo de CPU" y "memoria libre" indica que:

#

Pregunta 24

¿Cuál es el riesgo de "aceptar" formalmente la hipótesis nula tras un test con un \(p\)-valor de 0.06?


Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas


Soluciones Desarrolladas

Solución pregunta 1 — Escala de razón en tiempos

Concepto: Característica definitoria de escala de razón

Una escala de razón requiere:

  1. Cero absoluto: 0 ms = ausencia total de tiempo (no arbitrario)
  2. Operaciones aritméticas válidas: suma, resta, multiplicación, división
  3. Proporciones interpretables: "10 ms es el doble de 5 ms" tiene sentido físico

Comparación con otras escalas:

  • Nominal: sin orden (colores)
  • Ordinal: orden, sin distancia fija (ranking)
  • Intervalo: distancia fija, cero arbitrario (Celsius: 0°C ≠ ausencia de calor)
  • Razón: distancia fija, cero natural (Kelvin, tiempo, dinero)

En sistemas: tiempo de respuesta en ms es claramente razón.

Solución pregunta 2 — Interpretación de boxplot en comparación de algoritmos

Concepto: Componentes visuales del boxplot

El ancho de la caja = IQR = rango intercuartílico = dispersión del 50% central.

Comparación (misma mediana, cajas diferentes):

  • Caja ancha → mayor variabilidad central
  • Caja estrecha → menor variabilidad central

Lo que NO nos dice:

  • No implica diferencia en media (mediana ≠ media)
  • No implica velocidad absoluta (necesitas mediana/media)
  • No implica presencia/ausencia de outliers (que están fuera de bigotes)

Interpretación correcta: Algoritmo A es más variable en su rendimiento central.

Solución pregunta 3 — Interpretación correcta de R²

Concepto: R² como bondad de ajuste

\[R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} = \frac{\text{Variación explicada}}{\text{Variación total}}\]

Con \(R^2 = 0.9239\):

  • El modelo explica el 92.39% de la variación en Y
  • El 7.61% es residual (otros factores + ruido)

Lo que NO significa:

  • ✗ No es porcentaje de "aciertos" en producción (eso sería accuracy, precisión, etc.)
  • ✗ No es igual a la correlación \(r\) (aquí: \(r = \sqrt{0.9239} \approx 0.961\))
  • ✗ No predice error promedio (MAE = media de |residuos|)

Nota: \(R^2\) alto puede haber overfitting; validar en test set.

Solución pregunta 4 — Interpretación de pendiente negativa en regresión

Concepto: Parámetros de recta de regresión \(\hat{y} = a + bx\)

Con \(b = -0.204\) (precio ~ kilometraje):

  • Signo negativo: relación inversa (más km = menos precio)
  • Magnitud: cada km adicional reduce precio 0.204 €

Distinción de parámetros:

  • \(a\) (ordenada): precio predicho cuando km = 0
  • \(b\) (pendiente): cambio en Y por unidad de X
  • \(R^2\): bondad del ajuste (no se confunde con \(b\))

La relación inversa tiene sentido (coches usados se deprecian), indicando que el modelo captura la realidad.

Solución pregunta 5 — Utilidad de la Función Generatriz de Momentos

Concepto: MGF como caracterizador de distribuciones

Definición: $\(M_X(t) = E[e^{tX}] = \sum_x e^{tx} p(x) \quad \text{(discreta)}\)$ $\(M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \quad \text{(continua)}\)$

Propiedades:

  1. Caracterización única: cada distribución tiene MGF única (si existe)
  2. Cálculo de momentos: \(E[X^n] = M_X^{(n)}(0)\)

Ejemplos:

  • \(M_X'(0) = E[X]\)
  • \(M_X''(0) = E[X^2]\), entonces \(\text{Var}(X) = M_X''(0) - (M_X'(0))^2\)

Herramienta teórica poderosa en teoría de probabilidad.

Solución pregunta 6 — Propiedades obligatorias de CDF

Concepto: Requisitos para función de distribución acumulada

Propiedades obligatorias de \(F(x) = P(X \le x)\):

  1. \(\lim_{x \to -\infty} F(x) = 0\)
  2. \(\lim_{x \to +\infty} F(x) = 1\)
  3. \(F(x)\) monótona no-decreciente (puede ser plana o subir)
  4. \(0 \le F(x) \le 1\) para todo \(x\)

Lo que NO es obligatorio:

  • ✗ Continuidad: distribuciones discretas tienen saltos
  • ✗ Forma específica: puede ser escalonada, lineal, curva, etc.
  • ✗ Derivada: \(f(x) = F'(x)\) solo si \(X\) continua

Aplica a: Normal, Poisson, Exponencial, Uniforme, etc.

Solución pregunta 7 — Falta de memoria en exponencial

Concepto: Propiedad markoviana de la distribución exponencial

Definición matemática: $\(P(X > s+t \mid X > s) = P(X > t)\)$

Interpretación: Si un sistema ha funcionado \(s\) unidades de tiempo sin fallar, la probabilidad de que siga funcionando \(t\) unidades más es la misma que si acabara de iniciarse (como si "olvidara" el tiempo pasado).

Ejemplo cuantitativo:

  • Componente con vida exponencial: \(P(\text{falla en próximos 10h} \mid \text{ya funcionó 100h}) = P(\text{falla en próximos 10h})\)

Aplicaciones:

  • Tiempo de vida sin envejecimiento
  • Llegadas de clientes a colas (Poisson)
  • Desintegración radiactiva

Distribuciones sin esta propiedad: Weibull (modela envejecimiento)

Solución pregunta 8 — Aproximación de Poisson a Binomial

Concepto: Límite de Binomial en caso de eventos raros

Teorema: Si \(n \to \infty, p \to 0\) con \(np = \lambda\) constante: $\(\lim_{n,p \to ?} \text{Binomial}(n,p) = \text{Poisson}(\lambda)\)$

Condiciones prácticas:

  • \(n \ge 30\) (muestra grande)
  • \(p \le 0.1\) (probabilidad pequeña)
  • \(np = \lambda\) moderado (típicamente 0.1-10)

Ejemplo:

  • 1000 operaciones (n), probabilidad de fallo 0.001 (p)
  • \(\lambda = 1000 \times 0.001 = 1\)
  • \(P(X=k) \approx \frac{e^{-1} \cdot 1^k}{k!}\) (Poisson)

Ventaja: Poisson es más simple (un parámetro vs. dos).

Solución pregunta 9 — Estimador insesgado

Concepto: Propiedad de insesgadez en estimadores

Definición: Un estimador \(\hat{\theta}\) es insesgado para parámetro \(\theta\) si: $\(E[\hat{\theta}] = \theta\)$

Ejemplos:

  • Media muestral: \(E[\bar{X}] = \mu\) ✓ insesgada
  • Varianza muestral: \(E\left[\frac{1}{n-1}\sum(X_i - \bar{X})^2\right] = \sigma^2\) ✓ insesgada
  • Varianza sesgada: \(E\left[\frac{1}{n}\sum(X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2\) ✗ sesgada

Nota importante:

  • Insesgadez ≠ precisión (baja varianza)
  • Un estimador puede ser insesgado pero impreciso (alta varianza)
  • A veces un estimador sesgado pero muy preciso es mejor (menor ECM)
Solución pregunta 10 — Distribución t de Student para IC

Concepto: Condiciones para usar t en lugar de Z

Usa t de Student cuando:

  1. Datos aproximadamente normales
  2. Varianza poblacional \(\sigma^2\) desconocida (criterio principal)
  3. Tamaño muestral pequeño (n < 30)
  4. Grados de libertad: \(\nu = n - 1\)

Comparación: | Condición | Usar | |---|---| | \(\sigma^2\) conocida, cualquier n | Z | | \(\sigma^2\) desconocida, n < 30 | t | | \(\sigma^2\) desconocida, n ≥ 30 | Z (t converge a Z) |

Diferencia: \(t\) tiene colas más pesadas que Normal, resultando intervalos más amplios (conservador).

Razón: con \(\sigma\) estimado (no conocido), hay incertidumbre adicional.

Solución pregunta 11 — Efecto del tamaño muestral en IC

Concepto: Relación entre n y amplitud del intervalo

Fórmula de amplitud: $\(\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\)$

Al aumentar \(n\):

  • Denominador \(\sqrt{n}\) crece
  • Amplitud disminuye (intervalo más estrecho)
  • Precisión aumenta (estimación más exacta)

Relación cuadrática:

  • Para reducir amplitud a la mitad: necesitas \(n_{\text{nuevo}} = 4 \times n_{\text{actual}}\)
  • Para reducir amplitud a la tercera parte: necesitas \(n_{\text{nuevo}} = 9 \times n_{\text{actual}}\)

El nivel de confianza se controla independientemente con \(z_{\alpha/2}\).

Solución pregunta 12 — Tamaño muestral para proporciones

Concepto: Estrategia cuando se desconoce p

Fórmula general: $\(n = \frac{z_{\alpha/2}^2 \times p(1-p)}{E^2}\)$

Función \(p(1-p)\) (varianza de proporción): $\(\\text{máximo cuando } p = 0.5 : p(1-p) = 0.5 \times 0.5 = 0.25\)$

Estrategia por prudencia:

  • Si no conocemos \(p\), usamos \(p = 0.5\)
  • Esto maximiza la varianza → garantiza \(n\) suficiente en cualquier caso
  • Si luego descubrimos que \(p \ne 0.5\), habremos recolectado más datos de lo necesario (seguro, pero más caro)

Ventaja: evita sorpresas de tamaño insuficiente.

Solución pregunta 13 — Error de Tipo I

Concepto: Falso positivo en contrastes de hipótesis

\(H_0\) Verdadera \(H_0\) Falsa
Rechazar \(H_0\) Error Tipo I (α) Correcto (potencia)
No Rechazar Correcto Error Tipo II (β)

Error Tipo I:

  • Definición: Rechazar \(H_0\) siendo \(H_0\) verdadera (falso positivo)
  • Probabilidad: \(\alpha\) (nivel de significación)
  • Controlamos este error directamente fijando \(\alpha\) (ej. 0.05)

Ejemplos clínicos:

  • Diagnosticar enfermedad siendo sano
  • Tratamiento innecesario, costos, efectos adversos

En inferencia: entre α y β hay trade-off; aumentar \(n\) reduce ambos.

Solución pregunta 14 — Error de Tipo II

Concepto: Falso negativo en contrastes de hipótesis

Error Tipo II:

  • Definición: No rechazar \(H_0\) siendo \(H_0\) falsa (falso negativo)
  • Probabilidad: \(\beta\)
  • Potencia del test: \(1 - \beta\) = capacidad de detectar efecto verdadero

Formas de reducir \(\beta\) (aumentar potencia):

  1. Aumentar tamaño muestral \(n\)
  2. Aumentar nivel de significación \(\alpha\) (aumenta Error I, trade-off)
  3. Mejorar diseño experimental

Ejemplos clínicos:

  • No diagnosticar enfermedad siendo enfermo
  • Paciente no recibe tratamiento necesario

En análisis de potencia, tipicamente fijamos \(\beta = 0.2\) (potencia = 0.8).

Solución pregunta 15 — Decisión con p > α

Concepto: Interpretación correcta de p-valor en relación a α

Regla de decisión:

  • Si \(p\text{-valor} < \alpha\)Rechazamos \(H_0\) (resultado significativo)
  • Si \(p\text{-valor} \ge \alpha\)No rechazamos \(H_0\) (resultado no significativo)

En este caso: \(p = 0.03, \alpha = 0.01\)

  • Comparación: \(0.03 > 0.01\)
  • Decisión: No rechazamos \(H_0\)

Interpretación:

  • Aunque el p-valor es pequeño (0.03), no es lo suficientemente pequeño respecto a nuestro criterio (0.01)
  • Si \(H_0\) fuera cierta, observar estos datos ocurriría el 3% de las veces
  • Pero toleramos hasta el 1%, así que falta evidencia

⚠ Error común: cambiar \(\alpha\) post-hoc basado en datos ("p-hacking")

Solución pregunta 16 — Definición correcta de p-valor

Concepto: Interpretación frecuentista del p-valor

Definición correcta: $\(p\text{-valor} = P(\text{datos observados o más extremos} \mid H_0 \text{ verdadera})\)$

Interpretación:

  • Asumiendo \(H_0\) cierta
  • ¿Qué probabilidad hay de ver estadístico tan extremo o más?

Malinterpretaciones COMUNES:

  • ✗ "Probabilidad de que \(H_0\) sea cierta": eso es \(P(H_0 | \text{datos})\) (Bayes)
  • ✗ "Probabilidad de que cometimos error": es condicional, no marginal
  • ✗ "Probabilidad de que \(H_1\) sea cierta"

Implicación: p-valor bajo → datos incompatibles con \(H_0\) (evidencia contra) pero no prueba que \(H_0\) sea falsa.

Solución pregunta 17 — Test de Kolmogorov-Smirnov

Concepto: Bondad de ajuste sensible a cambios distribucionales

Objetivo: ¿Esta muestra sigue una distribución teórica?

Estadístico: $\(D = \max_x |F_{\text{empírica}}(x) - F_{\text{teórica}}(x)|\)$

Ventajas:

  1. Sensible a diferencias en cualquier parte (no solo media)

  2. Centro (localización)

  3. Forma (simetría, curtosis)
  4. Colas

  5. No requiere categorizar datos (vs. Chi-cuadrado)

  6. Aplicable a distribuciones continuas

Aplicación: Verificar si residuos de modelo siguen \(N(0, \sigma^2)\)

Limitación: menos potente con varianzas desconocidas.

Solución pregunta 18 — Test Chi-cuadrado para variables categóricas

Concepto: Independencia entre variables categóricas

Situación: dos variables nominales (dispositivo, tasa de clics) → Chi-cuadrado

Por qué NO otras opciones:

  • Test t: para medias de variable continua (tasa podría ser continua, pero "tipo dispositivo" es nominal)
  • F/ANOVA: para comparar medias de múltiples grupos
  • Regresión lineal: requiere variable dependiente continua con relación lineal

Estadístico Chi-cuadrado: $\(\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)$

donde \(O\) = observado, \(E\) = esperado bajo independencia.

Hipótesis:

  • \(H_0\): dispositivo e independientes de tasa de clics
  • \(H_1\): existe asociación
Solución pregunta 19 — Grados de libertad en Chi-cuadrado

Concepto: Cálculo de gl en bondad de ajuste

Para bondad de ajuste (comparar muestra vs. distribución teórica): $\(gl = k - 1\)$ donde \(k\) = número de categorías.

En este caso: \(k = 5\) categorías $\(gl = 5 - 1 = 4\)$

Corrección si se estiman parámetros:

  • Si estimamos \(m\) parámetros: \(gl = k - 1 - m\)
  • Ejemplo: Si estimamos media y varianza (2 parámetros): \(gl = 5 - 1 - 2 = 2\)

Razón: cada restricción (parámetro estimado) consume grado de libertad.

Nota: Para independencia (tabla de contingencia): \(gl = (r-1)(c-1)\)

Solución pregunta 20 — Distribución F de Snedecor

Concepto: Cociente de varianzas

Definición: $\(F = \frac{\chi^2_{\nu_1}/\nu_1}{\chi^2_{\nu_2}/\nu_2}\)$

(cociente de dos Chi-cuadrado independientes divididas por sus gl)

Usos principales:

  1. Test de igualdad de varianzas: \(\frac{s_1^2}{s_2^2} \sim F\)
  2. ANOVA: comparar medias de múltiples grupos vía análisis de varianzas
  3. Regresión: test de significación conjunta de coeficientes

En IA:

  • Comparar estabilidad de algoritmos (varianza de errores)
  • Seleccionar algoritmo más consistente

Propiedades: dependencia en dos gl (\(\nu_1, \nu_2\)), distribución sesgada positivamente.

Solución pregunta 21 — Teorema Central del Límite (TCL)

Concepto: Convergencia de media muestral a normalidad

Enunciado: Si \(X_1, X_2, ..., X_n\) son iid con media \(\mu\) y varianza \(\sigma^2\) finita: $\(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \approx N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{cuando } n \text{ es grande}\)$

Criterio práctico: \(n \ge 30\) (regla de oro).

Importancia en inferencia:

  1. Justifica usar método Normal incluso si datos originales no son normales
  2. Base de intervalos de confianza y tests de hipótesis
  3. Explica por qué media muestral es "estable" con muestras grandes

Ejemplo: ingresos (muy sesgados) → media de 100 personas → aproximadamente normal.

Solución pregunta 22 — Transformación logarítmica para sesgo

Concepto: Normalización de datos sesgados

Diagnóstico: Media (50k) >> Mediana (30k)

  • Sesgo positivo (cola derecha)
  • Pocos salarios muy altos "tiran" de la media

Transformación logarítmica: \(Y = \log(X)\)

Efectos:

  • Comprime valores altos (50k → log(50k) ≈ 10.82)
  • Expande valores bajos (20k → log(20k) ≈ 9.90)
  • Reduce rango relativo, acerca distribución a simetría

Ventajas en modelado:

  • Mejora linealidad (relaciones exponenciales → lineales)
  • Estabiliza varianza (homocedasticidad)
  • Reduce efecto de outliers
  • Mejora rendimiento de algoritmos (especialmente regresión lineal, ML)

Nota: transformación solo valida para \(X > 0\).

Solución pregunta 23 — Covarianza negativa e interpretación

Concepto: Covarianza como medida de co-variabilidad

Definición: $\(\text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]\)$

Con Cov(CPU, Memoria) < 0:

  • Cuando CPU ↑, Memoria tiende a ↓
  • Relación lineal negativa (inversa)

Lo que NO implica:

  • ✗ Relación "fuerte" (depende de magnitud: necesitas \(r = \frac{\text{Cov}}{\sigma_X \sigma_Y}\))
  • ✗ Relación causal (solo correlación)

Interpretación física:

  • CPUs con uso intenso consumen más memoria disponible (lógico)
  • Covarianza captura esta co-variabilidad

Nota: Signo negativo es totalmente válido en variables cuantitativas (tempo, dinero, energía, etc.).

Solución pregunta 24 — Riesgo de aceptar H₀

Concepto: Diferencia entre "no rechazar" y "aceptar"

Lenguaje correcto:

  • ✓ "No rechazamos \(H_0\)" (cuando p > α)
  • ✗ "Aceptamos \(H_0\)" (incorrecto)

Razón:

  • Falta de evidencia contra \(H_0\) ≠ Evidencia de que \(H_0\) es cierta
  • Analogía: "No culpable" ≠ "Inocente"

Riesgos de "aceptar" \(H_0\):

  1. Tamaño muestral insuficiente: si \(n\) es pequeño, no tienes poder para detectar efectos reales
  2. Error Tipo II: no rechazar siendo \(H_0\) falsa (probabilidad = \(\beta\))
  3. Conclusión apresurada: solo significa que no hay evidencia suficiente

Mejor práctica: reportar potencia del test y tamaño del efecto junto con p-valor.