Skip to content

Práctica 5 Variante v2 (UD1-6)

Duración estimada: 90 minutos.

Instrucciones

  • Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
  • En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

Bloque 1: Elementos del Análisis de Datos (Unidad 1)

#

Pregunta 1

Si estás trabajando con una variable que clasifica los lenguajes de programación preferidos por un equipo (Python, C++, Java), ¿en qué escala de medida te encuentras?

#

Pregunta 2

En el contexto de Machine Learning, ¿por qué es problemático asignar simplemente los números 1, 2 y 3 a categorías nominales como "Color de ojos"?

#

Pregunta 3

¿Cuál es el objetivo principal de realizar un Análisis Exploratorio de Datos (EDA) antes de entrenar un modelo de IA?

#

Pregunta 4

Al comparar dos conjuntos de datos mediante diagramas de caja (boxplots), observas que uno tiene una caja mucho más alargada que el otro. ¿Qué indica esto primordialmente?


Bloque 2: Estadística Descriptiva (Unidad 2)

#

Pregunta 5

Si en un conjunto de datos sobre salarios de una empresa tecnológica la media es mucho mayor que la mediana, ¿qué podemos deducir sobre la forma de la distribución?

#

Pregunta 6

El coeficiente de determinación (\(R^2\)) en una regresión lineal simple nos indica:

#

Pregunta 7

¿Qué información nos proporciona el signo negativo en una covarianza o en un coeficiente de correlación de Pearson?

#

Pregunta 8

En una recta de regresión \(\hat{y} = a + bx\), ¿qué representa físicamente la pendiente \(b\)?


Bloque 3: Variables Aleatorias (Unidad 3)

#

Pregunta 9

¿Cuál es la principal diferencia entre una variable aleatoria discreta y una continua?

#

Pregunta 10

Una propiedad fundamental de la Función de Distribución Acumulada \(F(x)\) es que:

#

Pregunta 11

Si tenemos dos variables aleatorias independientes X e Y, ¿cuál de estas afirmaciones sobre la varianza de su suma es correcta?

#

Pregunta 12

La Esperanza Matemática (\(E[X]\)) de una variable aleatoria puede interpretarse como:


Bloque 4: Distribuciones de Probabilidad (Unidad 4)

#

Pregunta 13

¿En qué situación es más apropiado usar una distribución de Poisson en lugar de una Binomial?

#

Pregunta 14

La distribución Normal Estándar (\(Z\)) se caracteriza por tener:

#

Pregunta 15

¿Qué característica especial tiene la distribución Exponencial debido a su "falta de memoria"?

#

Pregunta 16

¿Cuándo se utiliza la distribución \(t\) de Student en lugar de la Normal para hacer inferencia sobre una media?


Bloque 5: Inferencia Estadística (Unidad 5)

#

Pregunta 17

¿Qué significa que un estimador sea "insesgado"?

#

Pregunta 18

En un intervalo de confianza al 95% para la media, la interpretación correcta desde el punto de vista frecuentista es:

#

Pregunta 19

El "Error de Tipo I" en un contraste de hipótesis consiste en:

#

Pregunta 20

Si aumentamos el tamaño de la muestra (\(n\)) en la construcción de un intervalo de confianza, manteniendo todo lo demás constante:


Bloque 6: Aproximación Frecuentista y Tests (Unidad 6)

#

Pregunta 21

¿Qué representa el \(p\)-valor en un contraste de hipótesis?

#

Pregunta 22

El test de Kolmogorov-Smirnov se utiliza principalmente para:

#

Pregunta 23

En una prueba Chi-cuadrado para tablas de contingencia, ¿cuál es el objetivo principal?

#

Pregunta 24

Si decides rechazar la hipótesis nula porque tu \(p\)-valor es 0.02 y tu nivel de significación (\(\alpha\)) es 0.05, ¿cuál es la conclusión técnica?


Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas


Soluciones Desarrolladas

Solución pregunta 1 — Escala nominal de variables

Concepto: Variables nominales vs. otras escalas

Los sistemas operativos (Windows, Linux, macOS) son categorías sin ningún orden jerárquico o relación de proximidad natural. Una escala nominal simplemente etiqueta o clasifica.

  • Escala nominal: etiquetas sin orden (género, color, SO).
  • Escala ordinal: categorías con orden (talla: S, M, L) pero sin distancia fija.
  • Escala intervalo: números con distancia fija pero cero arbitrario (temperatura Celsius).
  • Escala razón: números con cero natural e interpretable (tiempo, dinero).

En Machine Learning, confundir nominales con ordinales causa sesgos en la interpretación del modelo.

Solución pregunta 2 — Codificación de variables nominales en IA

Concepto: Riesgo de usar números ordinales para datos nominales

Problema: Asignar 1 → Python, 2 → C++, 3 → Java sugiere un orden o distancia física que no existe. El algoritmo podría calcular distancias (ej. distancia euclidiana en kNN) y pensar que C++ está "más cerca" de Java que de Python.

Soluciones correctas:

  • One-hot encoding: Python=[1,0,0], C++=[0,1,0], Java=[0,0,1].
  • Label encoding + aclaración de que solo son etiquetas (en algoritmos que no usan distancia).

Esta es una fuente común de sesgos inadvertidos en modelos.

Solución pregunta 3 — Objetivos del Análisis Exploratorio de Datos (EDA)

Concepto: Propósito de EDA antes del modelado

Objetivos principales:

  1. Detectar patrones: correlaciones, tendencias, agrupaciones.
  2. Identificar anomalías: outliers, datos faltantes, inconsistencias.
  3. Entender distribuciones: forma, simetría, rango de valores.
  4. Generar hipótesis: guiar la selección de características y algoritmos.
  5. Evaluar calidad de datos: preparar para el preprocesamiento.

El EDA no sustituye el entrenamiento, pero lo hace más informado y eficiente. Es una inversión que ahorra tiempo y evita errores posteriores.

Solución pregunta 4 — Interpretación de ancho de caja en boxplot

Concepto: Componentes de un diagrama de caja

Estructura de un boxplot (de abajo a arriba):

  • Bigote inferior: Q1 - 1.5×IQR (mínimo típico)
  • Caja: Q1 a Q3 (50% central)
  • Línea mediana: Q2 (posición 50%)
  • Caja: Q1 a Q3 (rango intercuartílico = IQR)
  • Bigote superior: Q3 + 1.5×IQR
  • Puntos fuera: outliers

Una caja más ancha = IQR mayor = más dispersión en el 50% central. Una caja más estrecha = IQR menor = datos más concentrados.

Esto no dice nada sobre la media (no aparece en la caja estándar).

Solución pregunta 5 — Asimetría de distribuciones

Concepto: Relación entre media, mediana y sesgo

Regla de oro:

  • Media > Mediana → Asimetría positiva (cola derecha)
  • Media < Mediana → Asimetría negativa (cola izquierda)
  • Media ≈ Mediana → Distribución simétrica

En datos de salarios con media 50k y mediana 30k (media > mediana), hay unos pocos salarios muy altos que "tiran" de la media. La mediana representa mejor el salario "típico" en este caso.

Transformación: aplicar logaritmo \(\log(X)\) reduce el sesgo positivo.

Solución pregunta 6 — Coeficiente de determinación R²

Concepto: Interpretación de \(R^2\) en regresión

\[R^2 = \frac{\text{Variación explicada}}{\text{Variación total}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\]

Si \(R^2 = 0.85\):

  • El 85% de la variabilidad en Y se explica por X.
  • El 15% es debido a otros factores o error aleatorio.
  • Rango: \(0 \le R^2 \le 1\).

Limitaciones: \(R^2\) alto no implica relación causal, ni que el modelo sea útil en producción (pudo overfitear). Un \(R^2 = 0.3\) puede ser bueno para predicción de comportamiento humano.

Solución pregunta 7 — Signo de covarianza

Concepto: Covarianza y correlación

\[\text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]\]
  • Cov > 0: cuando X ↑, Y tiende a ↑ (relación positiva)
  • Cov < 0: cuando X ↑, Y tiende a ↓ (relación negativa)
  • Cov = 0: no hay relación lineal

Problema: la magnitud de Cov depende de las unidades de X e Y. Solución: normalizar con correlación de Pearson:

\[r = \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y}, \quad -1 \le r \le 1\]

Así \(r = -0.9\) indica relación lineal negativa fuerte.

Solución pregunta 8 — Pendiente en regresión lineal

Concepto: Interpretación de parámetros en \(\hat{y} = a + bx\)

  • Ordenada \(a\): valor de \(\hat{y}\) cuando \(x = 0\)
  • Pendiente \(b\): cambio en \(\hat{y}\) por unidad de cambio en \(x\)

Ejemplo: \(\hat{\text{precio}} = 20000 - 0.204 \times \text{km}\)

  • \(a = 20000\): precio predicho si el coche tuviera 0 km.
  • \(b = -0.204\): cada km adicional reduce (en promedio) 0.204 €.

Nunca confundir \(b\) con \(r^2\) (coeficiente de determinación) ni con \(r\) (correlación).

Solución pregunta 9 — Variables discretas vs. continuas

Concepto: Cardinalidad del espacio muestral

Característica Discreta Continua
Valores Conjunto numerable Cualquier valor en intervalo
Ejemplos Número de errores (0,1,2,...) Tiempo, peso, temperatura
PMF/PDF Función masa (PMF) Función densidad (PDF)
CDF Función escalonada Función continua
E[X] \(\sum x_i p_i\) \(\int x \cdot f(x) dx\)

Ambas pueden tener esperanza, varianza y CDF. La diferencia es fundamental pero la tratamiento matemático es paralelo.

Solución pregunta 10 — Propiedades de la CDF

Concepto: Funciones de distribución acumulada

Propiedades obligatorias de cualquier \(F(x) = P(X \le x)\):

  1. \(\lim_{x \to -\infty} F(x) = 0\) (antes de todo, prob = 0)
  2. \(\lim_{x \to \infty} F(x) = 1\) (después de todo, prob = 1)
  3. \(F(x)\) es monótona no-decreciente (puede platearse)
  4. Existe para cualquier distribución

Contraejemplos:

  • ✗ "Continua en todos los puntos": distribuciones discretas tienen saltos
  • ✗ "Monótona decreciente": es lo opuesto (no-decreciente)
  • ✗ "Solo para normales": existe para cualquier distribución
  • ✗ "Línea recta": solo en distribución uniforme
Solución pregunta 11 — Varianza de suma de variables independientes

Concepto: Propagación de variabilidad

Para variables independientes: $\(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)$

Demostración: $\(\text{Var}(X+Y) = E[(X+Y)^2] - (E[X+Y])^2\)$ $\(= E[X^2] + E[Y^2] + 2E[XY] - E[X]^2 - E[Y]^2 - 2E[X]E[Y]\)$

Si independientes: \(E[XY] = E[X]E[Y]\), por lo que: $\(= E[X^2] - E[X]^2 + E[Y^2] - E[Y]^2 = \text{Var}(X) + \text{Var}(Y)\)$

Aplicación: error en combinación de medidas (propagación de incertidumbre).

Solución pregunta 12 — Interpretación de esperanza

Concepto: Esperanza como centro de gravedad

Definición:

  • Discreta: \(E[X] = \sum x_i P(X = x_i)\)
  • Continua: \(E[X] = \int x \cdot f(x) dx\)

Interpretación: promedio a largo plazo. Por la Ley de Grandes Números:

\[\lim_{n \to \infty} \frac{X_1 + X_2 + ... + X_n}{n} = E[X]\]

Nota: no es la moda (valor más frecuente) ni la mediana (valor central por posición), sino el promedio ponderado por probabilidades. En distribuciones simétricas, E[X] = mediana = moda.

Solución pregunta 13 — Distribución de Poisson como aproximación

Concepto: Poisson aproxima Binomial en casos de eventos raros

Condiciones:

  • \(n\) grande (n ≥ 30)
  • \(p\) pequeño (p ≤ 0.1)
  • \(np = \lambda\) moderado

En este límite, \(\text{Binomial}(n,p) \approx \text{Poisson}(\lambda)\)

Ejemplo: 1000 operaciones, probabilidad de fallo 0.001

  • \(n \times p = 1000 \times 0.001 = 1\) (evento raro)
  • \(P(X=k) \approx \frac{e^{-1} \cdot 1^k}{k!}\)

Ventaja: Poisson solo tiene un parámetro (\(\lambda\)), más simple.

Solución pregunta 14 — Distribución Normal Estándar

Concepto: Propiedades de Z ~ N(0,1)

Características:

  • Media \(\mu = 0\)
  • Desviación típica \(\sigma = 1\)
  • Varianza \(\sigma^2 = 1\)
  • Simétrica alrededor de 0
  • Rango teórico: \((-\infty, \infty)\)
  • 68% en [-1,1], 95% en [-2,2], 99.7% en [-3,3]

Estandarización: cualquier \(X \sim N(\mu, \sigma^2)\) se convierte a Z: $\(Z = \frac{X - \mu}{\sigma} \sim N(0,1)\)$

Uso: tablas de probabilidades para cualquier normal.

Solución pregunta 15 — Falta de memoria en distribución exponencial

Concepto: Propiedad única de la exponencial

Definición matemática: $\(P(X > t+s \mid X > s) = P(X > t)\)$

Interpretación: Si un sistema ha funcionado \(s\) segundos sin fallar, la probabilidad de que falle en los próximos \(t\) segundos es la misma que si acabara de empezar.

Aplicaciones:

  • Tiempo de vida de componentes (sin "envejecimiento")
  • Tiempo entre llegadas en colas (proceso de Poisson)
  • Tiempo entre eventos en procesos sin memoria

Distribuciones sin esta propiedad: Weibull (modela envejecimiento)

Solución pregunta 16 — Cuándo usar distribución t de Student

Concepto: Condiciones para usar t en lugar de Z

Usa t de Student si:

  1. Datos aproximadamente normales
  2. Varianza poblacional \(\sigma^2\) desconocida
  3. Tamaño de muestra pequeño (n < 30)
  4. Grados de libertad = \(\nu = n - 1\)

Usa Normal (Z) si:

  • \(\sigma^2\) es conocida, o
  • \(n\) es grande (n ≥ 30), entonces \(t \approx Z\)

Diferencia: \(t\) tiene colas más pesadas que Normal, resultando intervalos más amplios (conservador). Conforme \(n \to \infty\), \(t \to Z\).

Solución pregunta 17 — Estimador insesgado

Concepto: Propiedad de insesgadez

Un estimador \(\hat{\theta}\) es insesgado si: $\(E[\hat{\theta}] = \theta\)$

Ejemplos:

  • Media muestral \(\bar{X}\): insesgada para \(\mu\)
  • Varianza muestral \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\): insesgada para \(\sigma^2\) (por eso dividimos por n-1, no n)
  • Máximo muestral: sesgado para máximo poblacional

Nota: insesgadez no implica ser el "mejor" estimador. Un sesgado pero muy preciso podría tener menor error cuadrático medio (MSE).

Solución pregunta 18 — Interpretación frecuentista del intervalo de confianza

Concepto: IC del 95% vs. probabilidad

Interpretación CORRECTA (frecuentista): "Si repetimos el experimento muchas veces y construimos un IC cada vez, el 95% de esos intervalos contendrán el verdadero parámetro."

Interpretación INCORRECTA:

  • "Hay 95% de probabilidad de que \(\mu\) esté en [a, b]" (una vez construido, \(\mu\) está o no está, prob=0 o 1)
  • "El 95% de los datos están en el intervalo" (confunde IC con banda de datos)

Una vez construido un intervalo específico, o captura el parámetro (prob=1) o no (prob=0). La confianza es sobre el procedimiento, no sobre un caso individual.

Solución pregunta 19 — Error de Tipo I

Concepto: Error de falso positivo

\(H_0\) Verdadera \(H_0\) Falsa
Rechazar \(H_0\) Error Tipo I (α) ✗ Correcto ✓
No Rechazar \(H_0\) Correcto ✓ Error Tipo II (β) ✗

Error Tipo I = Falso Positivo = Rechazar \(H_0\) siendo verdadera

  • Probabilidad = \(\alpha\) (nivel de significación)
  • Controlamos este error directamente con \(\alpha\)
  • En medicina: diagnosticar enfermedad siendo sano

Error Tipo II = Falso Negativo = No rechazar \(H_0\) siendo falsa

  • Probabilidad = \(\beta\)
  • Relacionado con potencia: \(1 - \beta\)
Solución pregunta 20 — Efecto del tamaño muestral en amplitud de IC

Concepto: Relación entre n y precisión

Amplitud del IC para una media: $\(\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\)$

Al aumentar \(n\):

  • Denominador \(\sqrt{n}\) crece
  • Amplitud disminuye (intervalo más estrecho)
  • Precisión aumenta

Ejemplo: para reducir amplitud a la mitad, necesitas \(n' = 4n\) (porque \(\sqrt{4n} = 2\sqrt{n}\)).

El nivel de confianza (multiplicador \(z_{\alpha/2}\)) se controla independientemente aumentando confianza (amplitud crece).

Solución pregunta 21 — Definición correcta de p-valor

Concepto: Interpretación frecuente del p-valor

Definición CORRECTA: $\(p\text{-valor} = P(\text{datos observados o más extremos} \mid H_0 \text{ verdadera})\)$

Interpretación: si \(H_0\) fuera cierta, ¿qué probabilidad hay de ver estos datos (o más extremos)?

Regla: Si \(p < \alpha\), rechazamos \(H_0\).

Interpretaciones INCORRECTAS:

  • ✗ "Probabilidad de que \(H_0\) sea cierta" (es \(P(H_0 \mid \text{datos})\), requiere Bayes)
  • ✗ "Error que hemos cometido" (es probabilidad condicional)
  • ✗ "Probabilidad de que \(H_1\) sea cierta"

El p-valor es una medida de compatibilidad, no una probabilidad posterior.

Solución pregunta 22 — Test de Kolmogorov-Smirnov

Concepto: Bondad de ajuste a distribución teórica

Objetivo: Contrastar si una muestra sigue una distribución teórica (ej. Normal, Exponencial).

Estadístico: $\(D = \max_x |F_{empírica}(x) - F_{teórica}(x)|\)$

Ventajas:

  • Sensible a diferencias en cualquier parte (forma, centro, colas)
  • No requiere categorizar datos
  • Aplicable a distribuciones continuas

Hipótesis:

  • \(H_0\): la muestra sigue la distribución teórica
  • \(H_1\): la muestra NO sigue la distribución

Aplicación: verificar si residuos de regresión son normales.

Solución pregunta 23 — Test Chi-cuadrado de independencia

Concepto: Relación entre variables categóricas

Objetivo: Determinar si dos variables categóricas son independientes.

Estadístico: $\(\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)$

donde \(O\) = frecuencias observadas, \(E\) = esperadas bajo independencia.

Hipótesis:

  • \(H_0\): variables independientes
  • \(H_1\): variables asociadas

Grados de libertad: \(gl = (r-1)(c-1)\) donde r = filas, c = columnas.

Requisito: Frecuencias esperadas ≥ 5 (si no, combinar categorías).

Solución pregunta 24 — Decisión con p-valor < α

Concepto: Regla de decisión en contrastes

Regla de oro:

  • Si \(p\text{-valor} < \alpha\) → Rechazamos \(H_0\) (resultado significativo)
  • Si \(p\text{-valor} \ge \alpha\) → No rechazamos \(H_0\) (resultado no significativo)

En este caso: \(p = 0.02 < \alpha = 0.05\)

  • Decisión: Rechazar \(H_0\)
  • Conclusión: "El resultado es estadísticamente significativo al nivel del 5%"
  • Significado: Si \(H_0\) fuera cierta, observar datos tan extremos ocurriría solo el 2% de las veces.

Nota: significancia estadística ≠ significancia práctica. Incluso con \(p<0.001\) puede no ser útil.