Práctica 5 Variante v2 (UD1-6)

Duración estimada: 90 minutos.

Instrucciones

Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

Bloque 1: Elementos del Análisis de Datos (Unidad 1)

#

Pregunta 1

Si estás trabajando con una variable que clasifica los lenguajes de programación preferidos por un equipo (Python, C++, Java), ¿en qué escala de medida te encuentras?

#

Pregunta 2

En el contexto de Machine Learning, ¿por qué es problemático asignar simplemente los números 1, 2 y 3 a categorías nominales como "Color de ojos"?

#

Pregunta 3

¿Cuál es el objetivo principal de realizar un Análisis Exploratorio de Datos (EDA) antes de entrenar un modelo de IA?

#

Pregunta 4

Al comparar dos conjuntos de datos mediante diagramas de caja (boxplots), observas que uno tiene una caja mucho más alargada que el otro. ¿Qué indica esto primordialmente?

Bloque 2: Estadística Descriptiva (Unidad 2)

#

Pregunta 5

Si en un conjunto de datos sobre salarios de una empresa tecnológica la media es mucho mayor que la mediana, ¿qué podemos deducir sobre la forma de la distribución?

#

Pregunta 6

El coeficiente de determinación ($R^2$) en una regresión lineal simple nos indica:

#

Pregunta 7

¿Qué información nos proporciona el signo negativo en una covarianza o en un coeficiente de correlación de Pearson?

#

Pregunta 8

En una recta de regresión $\hat{y} = a + bx$, ¿qué representa físicamente la pendiente $b$?

Bloque 3: Variables Aleatorias (Unidad 3)

#

Pregunta 9

¿Cuál es la principal diferencia entre una variable aleatoria discreta y una continua?

#

Pregunta 10

Una propiedad fundamental de la Función de Distribución Acumulada $F(x)$ es que:

#

Pregunta 11

Si tenemos dos variables aleatorias independientes X e Y, ¿cuál de estas afirmaciones sobre la varianza de su suma es correcta?

#

Pregunta 12

La Esperanza Matemática ($E[X]$) de una variable aleatoria puede interpretarse como:

Bloque 4: Distribuciones de Probabilidad (Unidad 4)

#

Pregunta 13

¿En qué situación es más apropiado usar una distribución de Poisson en lugar de una Binomial?

#

Pregunta 14

La distribución Normal Estándar ($Z$) se caracteriza por tener:

#

Pregunta 15

¿Qué característica especial tiene la distribución Exponencial debido a su "falta de memoria"?

#

Pregunta 16

¿Cuándo se utiliza la distribución $t$ de Student en lugar de la Normal para hacer inferencia sobre una media?

Bloque 5: Inferencia Estadística (Unidad 5)

#

Pregunta 17

¿Qué significa que un estimador sea "insesgado"?

#

Pregunta 18

En un intervalo de confianza al 95% para la media, la interpretación correcta desde el punto de vista frecuentista es:

#

Pregunta 19

El "Error de Tipo I" en un contraste de hipótesis consiste en:

#

Pregunta 20

Si aumentamos el tamaño de la muestra ($n$) en la construcción de un intervalo de confianza, manteniendo todo lo demás constante:

Bloque 6: Aproximación Frecuentista y Tests (Unidad 6)

#

Pregunta 21

¿Qué representa el $p$-valor en un contraste de hipótesis?

#

Pregunta 22

El test de Kolmogorov-Smirnov se utiliza principalmente para:

#

Pregunta 23

En una prueba Chi-cuadrado para tablas de contingencia, ¿cuál es el objetivo principal?

#

Pregunta 24

Si decides rechazar la hipótesis nula porque tu $p$-valor es 0.02 y tu nivel de significación ($\alpha$) es 0.05, ¿cuál es la conclusión técnica?

Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas

Soluciones Desarrolladas

Solución pregunta 1 — Escala nominal de variables

Concepto: Variables nominales vs. otras escalas

Los sistemas operativos (Windows, Linux, macOS) son categorías sin ningún orden jerárquico o relación de proximidad natural. Una escala nominal simplemente etiqueta o clasifica.

Escala nominal: etiquetas sin orden (género, color, SO).
Escala ordinal: categorías con orden (talla: S, M, L) pero sin distancia fija.
Escala intervalo: números con distancia fija pero cero arbitrario (temperatura Celsius).
Escala razón: números con cero natural e interpretable (tiempo, dinero).

En Machine Learning, confundir nominales con ordinales causa sesgos en la interpretación del modelo.

Solución pregunta 2 — Codificación de variables nominales en IA

Concepto: Riesgo de usar números ordinales para datos nominales

Problema: Asignar 1 → Python, 2 → C++, 3 → Java sugiere un orden o distancia física que no existe. El algoritmo podría calcular distancias (ej. distancia euclidiana en kNN) y pensar que C++ está "más cerca" de Java que de Python.

Soluciones correctas:

One-hot encoding: Python=[1,0,0], C++=[0,1,0], Java=[0,0,1].
Label encoding + aclaración de que solo son etiquetas (en algoritmos que no usan distancia).

Esta es una fuente común de sesgos inadvertidos en modelos.

Solución pregunta 3 — Objetivos del Análisis Exploratorio de Datos (EDA)

Concepto: Propósito de EDA antes del modelado

Objetivos principales:

Detectar patrones: correlaciones, tendencias, agrupaciones.
Identificar anomalías: outliers, datos faltantes, inconsistencias.
Entender distribuciones: forma, simetría, rango de valores.
Generar hipótesis: guiar la selección de características y algoritmos.
Evaluar calidad de datos: preparar para el preprocesamiento.

El EDA no sustituye el entrenamiento, pero lo hace más informado y eficiente. Es una inversión que ahorra tiempo y evita errores posteriores.

Solución pregunta 4 — Interpretación de ancho de caja en boxplot

Concepto: Componentes de un diagrama de caja

Estructura de un boxplot (de abajo a arriba):

Bigote inferior: Q1 - 1.5×IQR (mínimo típico)
Caja: Q1 a Q3 (50% central)
Línea mediana: Q2 (posición 50%)
Caja: Q1 a Q3 (rango intercuartílico = IQR)
Bigote superior: Q3 + 1.5×IQR
Puntos fuera: outliers

Una caja más ancha = IQR mayor = más dispersión en el 50% central. Una caja más estrecha = IQR menor = datos más concentrados.

Esto no dice nada sobre la media (no aparece en la caja estándar).

Solución pregunta 5 — Asimetría de distribuciones

Concepto: Relación entre media, mediana y sesgo

Regla de oro:

Media > Mediana → Asimetría positiva (cola derecha)
Media < Mediana → Asimetría negativa (cola izquierda)
Media ≈ Mediana → Distribución simétrica

En datos de salarios con media 50k y mediana 30k (media > mediana), hay unos pocos salarios muy altos que "tiran" de la media. La mediana representa mejor el salario "típico" en este caso.

Transformación: aplicar logaritmo $\log(X)$ reduce el sesgo positivo.

Solución pregunta 6 — Coeficiente de determinación R²

Concepto: Interpretación de $R^2$ en regresión

\[R^2 = \frac{\text{Variación explicada}}{\text{Variación total}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\]

Si $R^2 = 0.85$:

El 85% de la variabilidad en Y se explica por X.
El 15% es debido a otros factores o error aleatorio.
Rango: $0 \le R^2 \le 1$.

Limitaciones: $R^2$ alto no implica relación causal, ni que el modelo sea útil en producción (pudo overfitear). Un $R^2 = 0.3$ puede ser bueno para predicción de comportamiento humano.

Solución pregunta 7 — Signo de covarianza

Concepto: Covarianza y correlación

\[\text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]\]

Cov > 0: cuando X ↑, Y tiende a ↑ (relación positiva)
Cov < 0: cuando X ↑, Y tiende a ↓ (relación negativa)
Cov = 0: no hay relación lineal

Problema: la magnitud de Cov depende de las unidades de X e Y. Solución: normalizar con correlación de Pearson:

\[r = \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y}, \quad -1 \le r \le 1\]

Así $r = -0.9$ indica relación lineal negativa fuerte.

Solución pregunta 8 — Pendiente en regresión lineal

Concepto: Interpretación de parámetros en $\hat{y} = a + bx$

Ordenada $a$: valor de $\hat{y}$ cuando $x = 0$
Pendiente $b$: cambio en $\hat{y}$ por unidad de cambio en $x$

Ejemplo: $\hat{\text{precio}} = 20000 - 0.204 \times \text{km}$

$a = 20000$: precio predicho si el coche tuviera 0 km.
$b = -0.204$: cada km adicional reduce (en promedio) 0.204 €.

Nunca confundir $b$ con $r^2$ (coeficiente de determinación) ni con $r$ (correlación).

Solución pregunta 9 — Variables discretas vs. continuas

Concepto: Cardinalidad del espacio muestral

Característica	Discreta	Continua
Valores	Conjunto numerable	Cualquier valor en intervalo
Ejemplos	Número de errores (0,1,2,...)	Tiempo, peso, temperatura
PMF/PDF	Función masa (PMF)	Función densidad (PDF)
CDF	Función escalonada	Función continua
E[X]	$\sum x_i p_i$	$\int x \cdot f(x) dx$

Ambas pueden tener esperanza, varianza y CDF. La diferencia es fundamental pero la tratamiento matemático es paralelo.

Solución pregunta 10 — Propiedades de la CDF

Concepto: Funciones de distribución acumulada

Propiedades obligatorias de cualquier $F(x) = P(X \le x)$:

$\lim_{x \to -\infty} F(x) = 0$ (antes de todo, prob = 0)
$\lim_{x \to \infty} F(x) = 1$ (después de todo, prob = 1)
$F(x)$ es monótona no-decreciente (puede platearse)
Existe para cualquier distribución

Contraejemplos:

✗ "Continua en todos los puntos": distribuciones discretas tienen saltos
✗ "Monótona decreciente": es lo opuesto (no-decreciente)
✗ "Solo para normales": existe para cualquier distribución
✗ "Línea recta": solo en distribución uniforme

Solución pregunta 11 — Varianza de suma de variables independientes

Concepto: Propagación de variabilidad

Para variables independientes: $$\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)$$

Demostración: $$\text{Var}(X+Y) = E[(X+Y)^2] - (E[X+Y])^2$$ $$= E[X^2] + E[Y^2] + 2E[XY] - E[X]^2 - E[Y]^2 - 2E[X]E[Y]$$

Si independientes: $E[XY] = E[X]E[Y]$, por lo que: $$= E[X^2] - E[X]^2 + E[Y^2] - E[Y]^2 = \text{Var}(X) + \text{Var}(Y)$$

Aplicación: error en combinación de medidas (propagación de incertidumbre).

Solución pregunta 12 — Interpretación de esperanza

Concepto: Esperanza como centro de gravedad

Definición:

Discreta: $E[X] = \sum x_i P(X = x_i)$
Continua: $E[X] = \int x \cdot f(x) dx$

Interpretación: promedio a largo plazo. Por la Ley de Grandes Números:

\[\lim_{n \to \infty} \frac{X_1 + X_2 + ... + X_n}{n} = E[X]\]

Nota: no es la moda (valor más frecuente) ni la mediana (valor central por posición), sino el promedio ponderado por probabilidades. En distribuciones simétricas, E[X] = mediana = moda.

Solución pregunta 13 — Distribución de Poisson como aproximación

Concepto: Poisson aproxima Binomial en casos de eventos raros

Condiciones:

$n$ grande (n ≥ 30)
$p$ pequeño (p ≤ 0.1)
$np = \lambda$ moderado

En este límite, $\text{Binomial}(n,p) \approx \text{Poisson}(\lambda)$

Ejemplo: 1000 operaciones, probabilidad de fallo 0.001

$n \times p = 1000 \times 0.001 = 1$ (evento raro)
$P(X=k) \approx \frac{e^{-1} \cdot 1^k}{k!}$

Ventaja: Poisson solo tiene un parámetro ($\lambda$), más simple.

Solución pregunta 14 — Distribución Normal Estándar

Concepto: Propiedades de Z ~ N(0,1)

Características:

Media $\mu = 0$
Desviación típica $\sigma = 1$
Varianza $\sigma^2 = 1$
Simétrica alrededor de 0
Rango teórico: $(-\infty, \infty)$
68% en [-1,1], 95% en [-2,2], 99.7% en [-3,3]

Estandarización: cualquier $X \sim N(\mu, \sigma^2)$ se convierte a Z: $$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$$

Uso: tablas de probabilidades para cualquier normal.

Solución pregunta 15 — Falta de memoria en distribución exponencial

Concepto: Propiedad única de la exponencial

Definición matemática: $$P(X > t+s \mid X > s) = P(X > t)$$

Interpretación: Si un sistema ha funcionado $s$ segundos sin fallar, la probabilidad de que falle en los próximos $t$ segundos es la misma que si acabara de empezar.

Aplicaciones:

Tiempo de vida de componentes (sin "envejecimiento")
Tiempo entre llegadas en colas (proceso de Poisson)
Tiempo entre eventos en procesos sin memoria

Distribuciones sin esta propiedad: Weibull (modela envejecimiento)

Solución pregunta 16 — Cuándo usar distribución t de Student

Concepto: Condiciones para usar t en lugar de Z

Usa t de Student si:

Datos aproximadamente normales
Varianza poblacional $\sigma^2$ desconocida
Tamaño de muestra pequeño (n < 30)
Grados de libertad = $\nu = n - 1$

Usa Normal (Z) si:

$\sigma^2$ es conocida, o
$n$ es grande (n ≥ 30), entonces $t \approx Z$

Diferencia: $t$ tiene colas más pesadas que Normal, resultando intervalos más amplios (conservador). Conforme $n \to \infty$, $t \to Z$.

Solución pregunta 17 — Estimador insesgado

Concepto: Propiedad de insesgadez

Un estimador $\hat{\theta}$ es insesgado si: $$E[\hat{\theta}] = \theta$$

Ejemplos:

Media muestral $\bar{X}$: insesgada para $\mu$
Varianza muestral $S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2$: insesgada para $\sigma^2$ (por eso dividimos por n-1, no n)
Máximo muestral: sesgado para máximo poblacional

Nota: insesgadez no implica ser el "mejor" estimador. Un sesgado pero muy preciso podría tener menor error cuadrático medio (MSE).

Solución pregunta 18 — Interpretación frecuentista del intervalo de confianza

Concepto: IC del 95% vs. probabilidad

Interpretación CORRECTA (frecuentista): "Si repetimos el experimento muchas veces y construimos un IC cada vez, el 95% de esos intervalos contendrán el verdadero parámetro."

Interpretación INCORRECTA:

"Hay 95% de probabilidad de que $\mu$ esté en [a, b]" (una vez construido, $\mu$ está o no está, prob=0 o 1)
"El 95% de los datos están en el intervalo" (confunde IC con banda de datos)

Una vez construido un intervalo específico, o captura el parámetro (prob=1) o no (prob=0). La confianza es sobre el procedimiento, no sobre un caso individual.

Solución pregunta 19 — Error de Tipo I

Concepto: Error de falso positivo

	$H_0$ Verdadera	$H_0$ Falsa
Rechazar $H_0$	Error Tipo I (α) ✗	Correcto ✓
No Rechazar $H_0$	Correcto ✓	Error Tipo II (β) ✗

Error Tipo I = Falso Positivo = Rechazar $H_0$ siendo verdadera

Probabilidad = $\alpha$ (nivel de significación)
Controlamos este error directamente con $\alpha$
En medicina: diagnosticar enfermedad siendo sano

Error Tipo II = Falso Negativo = No rechazar $H_0$ siendo falsa

Probabilidad = $\beta$
Relacionado con potencia: $1 - \beta$

Solución pregunta 20 — Efecto del tamaño muestral en amplitud de IC

Concepto: Relación entre n y precisión

Amplitud del IC para una media: $$\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$$

Al aumentar $n$:

Denominador $\sqrt{n}$ crece
Amplitud disminuye (intervalo más estrecho)
Precisión aumenta

Ejemplo: para reducir amplitud a la mitad, necesitas $n' = 4n$ (porque $\sqrt{4n} = 2\sqrt{n}$).

El nivel de confianza (multiplicador $z_{\alpha/2}$) se controla independientemente aumentando confianza (amplitud crece).

Solución pregunta 21 — Definición correcta de p-valor

Concepto: Interpretación frecuente del p-valor

Definición CORRECTA: $$p\text{-valor} = P(\text{datos observados o más extremos} \mid H_0 \text{ verdadera})$$

Interpretación: si $H_0$ fuera cierta, ¿qué probabilidad hay de ver estos datos (o más extremos)?

Regla: Si $p < \alpha$, rechazamos $H_0$.

Interpretaciones INCORRECTAS:

✗ "Probabilidad de que $H_0$ sea cierta" (es $P(H_0 \mid \text{datos})$, requiere Bayes)
✗ "Error que hemos cometido" (es probabilidad condicional)
✗ "Probabilidad de que $H_1$ sea cierta"

El p-valor es una medida de compatibilidad, no una probabilidad posterior.

Solución pregunta 22 — Test de Kolmogorov-Smirnov

Concepto: Bondad de ajuste a distribución teórica

Objetivo: Contrastar si una muestra sigue una distribución teórica (ej. Normal, Exponencial).

Estadístico: $$D = \max_x |F_{empírica}(x) - F_{teórica}(x)|$$

Ventajas:

Sensible a diferencias en cualquier parte (forma, centro, colas)
No requiere categorizar datos
Aplicable a distribuciones continuas

Hipótesis:

$H_0$: la muestra sigue la distribución teórica
$H_1$: la muestra NO sigue la distribución

Aplicación: verificar si residuos de regresión son normales.

Solución pregunta 23 — Test Chi-cuadrado de independencia

Concepto: Relación entre variables categóricas

Objetivo: Determinar si dos variables categóricas son independientes.

Estadístico: $$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$

donde $O$ = frecuencias observadas, $E$ = esperadas bajo independencia.