🧪 Examen de Práctica: UD3 - Variables Aleatorias
Duración: 90 minutos
Preguntas: 16 (8 conceptuales + 8 aplicadas)
Puntuación: 100 puntos total (6.25 pts por pregunta)
BLOQUE I: Preguntas Conceptuales (8 puntos)
Pregunta 1
Una variable aleatoria discreta \(X\) tiene valores \(\{0, 1, 2\}\) con probabilidades \(\{0.2, 0.5, 0.3\}\).
a) Verifica que sea una PMF válida.
b) Calcula \(F_X(1.5)\) (CDF).
Solución
a) Validación PMF: $\(0.2 + 0.5 + 0.3 = 1.0 \text{ ✓}\)$ Todas las probabilidades son no negativas ✓
b) CDF: $\(F_X(1.5) = P(X \leq 1.5) = P(X=0) + P(X=1) = 0.2 + 0.5 = 0.7\)$
Pregunta 2
¿Cuál es la diferencia fundamental entre PMF y PDF?
Solución
| Aspecto | PMF | |
|---|---|---|
| Variable | Discreta | Continua |
| Salida | Probabilidad (0-1) | Densidad (puede ser >1) |
| P(X=x) | Puede ser >0 | Siempre 0 |
| Suma/Integral | Σ = 1 | ∫ = 1 |
| Cálculo prob. | Valor directo | Integral en intervalo |
Pregunta 3
Verdadero/Falso (justifica breve):
a) En una distribución normal, \(P(X = \mu) > 0\)
b) La varianza siempre es positiva
c) \(\text{Var}(2X) = 2 \cdot \text{Var}(X)\)
Solución
a) Falso. X es continua → P(X = μ) = 0 exactamente
b) Falso. Var(X) = 0 si X es constante. Generalmente ≥ 0
c) Falso. \(\text{Var}(2X) = 2^2 \cdot \text{Var}(X) = 4 \cdot \text{Var}(X)\)
Pregunta 4
Define "probabilidad condicional" \(P(A|B)\) y da un ejemplo en el contexto de clasificación de imágenes.
Solución
Definición: $\(P(A|B) = \frac{P(A \cap B)}{P(B)}\)$
Ejemplo en clasificación: - \(A\) = Modelo predice "Gato" - \(B\) = Imagen es realmente "Gato" - \(P(A|B)\) = Probabilidad de que prediga "Gato" dado que es realmente "Gato" = Recall/Sensibilidad
Pregunta 5
¿Por qué es importante usar distribuciones normales en IA? Menciona 2 razones.
Solución
- Teorema del Límite Central: Muchas distribuciones convergen a normal con muestras grandes
- Inicialización de pesos: Redes neuronales se inicializan con \(W \sim N(0, \sigma^2)\) para estabilidad
- Modelado de incertidumbre: VAE y redes bayesianas usan normales para representar distribuciones
BLOQUE II: Preguntas Aplicadas (8 puntos)
Pregunta 6
Sea \(X\) = número de aciertos en 5 preguntas de opción múltiple (4 opciones, respuestas aleatorias).
a) ¿Es discreta o continua? ¿Por qué?
b) ¿Cuál es P(X = 3)?
c) ¿Cuál es E[X]?
Solución
a) Discreta. Toma valores finitos {0, 1, 2, 3, 4, 5}
b) Binomial con n=5, p=0.25: $\(P(X=3) = \binom{5}{3} (0.25)^3 (0.75)^2 = 10 \times 0.015625 \times 0.5625 = 0.0879\)$
c) Esperanza: $\(E[X] = n \cdot p = 5 \times 0.25 = 1.25 \text{ aciertos}\)$
Pregunta 7
Un modelo de regresión predice precio con \(X \sim N(\mu = 250, \sigma = 40)\) miles de euros.
a) ¿Cuál es P(X > 300)?
b) ¿Cuál es el percentil 75?
c) Interpreta Var(X) = 1600
Solución
a) P(X > 300): $\(Z = \frac{300 - 250}{40} = \frac{50}{40} = 1.25\)$ $\(P(X > 300) = P(Z > 1.25) = 1 - 0.8944 = 0.1056 \approx 10.56\%\)$
b) Percentil 75: Busca en tabla normal: Z = 0.674 para 75% $\(X_{75} = 250 + 0.674 \times 40 = 250 + 26.96 = 276.96 \text{ mil euros}\)$
c) Interpretación: $\(\text{Var}(X) = 1600 = 40^2\)$ Las predicciones varían tipicamente ±40 mil euros respecto a la media
Pregunta 8
Una red neuronal usa dropout 50% en entrenamiento.
a) ¿Cuál es la variable aleatoria involucrada?
b) ¿Qué distribución tiene?
c) ¿Por qué NO se usa dropout en predicción?
Solución
a) Variable: Indicador de si cada neurona está activa
b) Distribución: Bernoulli(p=0.5) - Valor 0: neurona apagada (50%) - Valor 1: neurona activa (50%)
c) Sin dropout en predicción: Porque queremos predicciones consistentes. El dropout es solo para regularizar el entrenamiento. En predicción usamos todos los pesos.
Pregunta 9
Se lanza un dado justo 3 veces. Sea \(X\) = suma total.
a) ¿Cuál es el rango de X?
b) ¿Cuál es P(X = 10)?
c) ¿Cuál es E[X]?
Solución
a) Rango: [3, 18] (mínimo 1+1+1=3, máximo 6+6+6=18)
b) P(X=10): Combinaciones que suman 10: - (2,2,6), (2,3,5), (2,4,4), (3,3,4) y permutaciones - Total: 27 formas de 216 posibles $\(P(X=10) = \frac{27}{216} = 0.125\)$
c) E[X]: $\(E[X] = E[X_1] + E[X_2] + E[X_3] = 3.5 + 3.5 + 3.5 = 10.5\)$
Pregunta 10
Una VCA continua \(X\) tiene PDF: $\(f_X(x) = 0.1 \text{ para } 0 \leq x \leq 10, \quad 0 \text{ en otro caso}\)$
a) Verifica que sea PDF válida
b) Calcula \(P(3 < X < 7)\)
c) Calcula E[X]
Solución
a) Validación: $\(\int_0^{10} 0.1 \, dx = 0.1 \times 10 = 1 \text{ ✓}\)$
b) Probabilidad: $\(P(3 < X < 7) = \int_3^7 0.1 \, dx = 0.1 \times 4 = 0.4\)$
c) Esperanza (uniforme): $\(E[X] = \frac{0 + 10}{2} = 5\)$
Pregunta 11
Inicialización Xavier para una red: entrada 512, salida 256.
a) Calcula la varianza Xavier
b) Calcula la desviación típica
c) ¿Por qué es importante esto?
Solución
a) Varianza: $\(\sigma^2 = \frac{2}{512 + 256} = \frac{2}{768} = 0.002604\)$
b) Desviación típica: $\(\sigma = \sqrt{0.002604} \approx 0.051\)$
c) Importancia: Mantiene estable el flujo de activaciones y gradientes entre capas, evitando desaparición o explosión de gradientes
Pregunta 12
Data augmentation aplica rotaciones uniformes Uniform(-30°, 30°).
a) Tipo de distribución y parámetros
b) E[ángulo]
c) Var[ángulo]
Solución
a) Uniforme continua: $\(f(x) = \frac{1}{60} \text{ para } x \in [-30°, 30°]\)$
b) Esperanza: $\(E[X] = \frac{-30 + 30}{2} = 0°\)$
c) Varianza: $\(\text{Var}(X) = \frac{60^2}{12} = \frac{3600}{12} = 300 \text{ }(\text{grados}^2)\)$
Pregunta 13
Modelo bayesiano predice: \(X \sim N(\mu(x), \sigma^2(x))\)
a) ¿Qué representa \(\mu(x)\)?
b) ¿Qué representa \(\sigma(x)\)?
c) ¿Ventaja vs predicción puntual?
Solución
a) μ(x): Predicción de la media (valor esperado)
b) σ(x): Incertidumbre de la predicción (desviación típica)
c) Ventaja: Permite saber cuándo el modelo es "inseguro", facilitando: - Active learning (pedir etiquetas en regiones inciertas) - Detección de out-of-distribution samples - Calibración de confianza
Pregunta 14
Variable \(Y = 2X + 5\) donde \(X\) tiene E[X]=10, Var(X)=16.
a) E[Y]
b) Var(Y)
c) σ_Y
Solución
a) E[Y]: $\(E[Y] = 2 \cdot 10 + 5 = 25\)$
b) Var(Y): $\(\text{Var}(Y) = 2^2 \cdot 16 = 4 \times 16 = 64\)$
c) σ_Y: $\(\sigma_Y = \sqrt{64} = 8\)$
Pregunta 15
Clasif. multiclase con softmax produce: z = [3, 1, -2]
a) Calcula probabilidades con softmax
b) ¿Cuál es la clase predicha?
c) ¿Qué distribución es esto?
Solución
a) Softmax: $\(e^3 = 20.09, \quad e^1 = 2.72, \quad e^{-2} = 0.135\)$ $\(\text{Sum} = 22.945\)$ $\(P_0 = \frac{20.09}{22.945} = 0.875\)$ $\(P_1 = \frac{2.72}{22.945} = 0.119\)$ $\(P_2 = \frac{0.135}{22.945} = 0.006\)$
b) Clase predicha: Clase 0 (87.5%)
c) Distribución: Multinomial (distribución sobre 3 categorías)
Pregunta 16 - Integrador
Un sistema de ML tiene:
- Predictor normal: \(\hat{y} \sim N(100, 15^2)\)
- Aplicará softmax a 10 clases
- Inicializará pesos con Xavier(784→128)
- Usará dropout 0.3
Explica cómo se usa VA en cada componente.
Solución
- Predictor normal:
- Modelar incertidumbre
- PDF: \(f(y) = \frac{1}{15\sqrt{2\pi}}e^{-(y-100)^2/450}\)
-
Permite: \(P(y > 110)\), percentiles
-
Softmax:
- Convierte logits → Bernoulli/Categórica
-
Cada clase: valor en [0,1] sumando 1
-
Xavier inicialización:
- \(\sigma = \sqrt{2/(784+128)} \approx 0.048\)
-
\(W \sim N(0, 0.048)\) para estabilidad
-
Dropout:
- Cada neurona: Bernoulli(0.7) en entrenamiento
- Desactiva 30% aleatoriamente
- Regularización contra sobreajuste
📊 Rúbrica de Evaluación
| Criterio | Puntos |
|---|---|
| Respuestas correctas | 50 |
| Justificación/procedimiento | 30 |
| Interpretación | 20 |
| TOTAL | 100 |
Escala:
- 90-100: Excelente
- 80-89: Muy Bien
- 70-79: Bien
- 60-69: Aceptable
- <60: Necesita mejorar