Práctica 7 Variante v2 (incl. R)
Duración estimada: 120 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
Bloque 1: Análisis Descriptivo y Escalas (Unidades 1-2)
Pregunta 2
Si el coeficiente de variación (CV) de los tiempos de carga de una App es del 85%, esto indica:
Pregunta 3
En un diagrama de caja (boxplot), si observas puntos aislados más allá de los "bigotes", estos representan:
Pregunta 5
Si la covarianza entre "Uso de CPU" y "Temperatura del procesador" es 150.5 (positiva), podemos afirmar que:
Bloque 2: Variables Aleatorias y Modelos (Unidades 3-4)
Pregunta 6
¿Cuál de las siguientes es una propiedad obligatoria de cualquier Función de Distribución Acumulada \(F(x)\)?
Pregunta 7
Si \(X\) es una variable aleatoria con \(E[X] = 10\), ¿cuál es el valor esperado de la transformación \(Y = 2X + 5\)?
Pregunta 9
En Machine Learning, para modelar el número de correos spam recibidos en una hora, la distribución más adecuada es:
Pregunta 10
Un sistema tiene una probabilidad de fallo por intento de \(p=0.01\). ¿Qué distribución modela el número de intentos hasta el primer fallo?
Pregunta 11
¿Qué característica define a la distribución Exponencial debido a su "falta de memoria"?
Pregunta 12
Para una variable \(X \sim N(\mu, \sigma^2)\), ¿qué porcentaje aproximado de datos cae en el intervalo \([\mu - 2\sigma, \mu + 2\sigma]\)?
Bloque 3: Inferencia Estadística (Unidades 5-6)
Pregunta 14
Al construir un intervalo de confianza para la media, si pasamos de una confianza del 90% al 95% (manteniendo \(n\) constante):
Pregunta 16
Si realizas un test con \(\alpha = 0.05\) y obtienes un p-valor de 0.001, la conclusión es:
Pregunta 18
En una tabla de contingencia de \(3 \times 4\), ¿cuántos grados de libertad tendría el estadístico Chi-cuadrado para el test de independencia?
Pregunta 19
La distribución \(t\) de Student se prefiere sobre la Normal para inferencia de medias cuando:
Pregunta 20
Según el Teorema Central del Límite (TCL), la distribución de la media muestral tiende a la Normal si:
Bloque 4: Programación y Software (R)
Pregunta 23
Si quieres obtener la probabilidad acumulada \(P(X \le 2)\) de una Chi-cuadrado con 5 grados de libertad en R, usas:
Pregunta 25
Para visualizar un diagrama de dispersión entre dos variables x e y en R básico, se utiliza:
Bloque 5: Conceptos Integradores (IA)
Pregunta 26
En un problema de clasificación binaria (IA), la probabilidad de salida de una neurona (sigmoide) se modela mejor como:
Pregunta 28
¿Por qué es necesario estandarizar variables (ej. media=0, sd=1) antes de usar algoritmos de distancia como kNN?
Pregunta 29
En un contraste de hipótesis, si aumentamos el tamaño de la muestra (\(n\)), la potencia del test (\(1-\beta\)):
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones Desarrolladas
Solución pregunta 1 — Escala de intervalo en temperatura
Concepto: Diferencia entre escala de intervalo y razón
Escala de intervalo (Celsius):
- Cero arbitrario: 0°C = punto de congelación del agua (no significa ausencia de temperatura)
- Permite restas: 30°C - 10°C = 20°C (válido)
- No permite proporciones: decir "20°C es el doble de 10°C" es incorrecto (no hay razón física)
Escala de razón (Kelvin):
- Cero absoluto: 0K = ausencia total de energía térmica
- Permite proporciones: 200K es el doble de 100K
En estadística: ambas son cuantitativas continuas, pero razón es más restrictiva.
Solución pregunta 2 — Coeficiente de Variación (CV)
Concepto: Dispersión relativa respecto a la media
Definición: $\(CV = \frac{\sigma}{\mu} \times 100\%\)$
Interpretación (CV = 85%):
- La desviación típica es el 85% del valor de la media
- Indica alta dispersión relativa
- Datos muy heterogéneos/variable
Escala de referencia:
- CV < 25%: datos homogéneos
- 25% ≤ CV < 50%: dispersión moderada
- CV ≥ 50%: dispersión alta
- CV ≥ 75%: dispersión muy alta (como en este caso)
Utilidad: compara variabilidad entre variables con escalas diferentes.
Solución pregunta 3 — Outliers en boxplot
Concepto: Identificación de valores atípicos
Estructura de boxplot:
- Bigote inferior: Q1 - 1.5×IQR
- Caja: Q1 a Q3
- Línea mediana: Q2
- Bigote superior: Q3 + 1.5×IQR
- Puntos fuera: outliers
Interpretación de outliers:
- Errores de medición/entrada
- Datos reales extremos (valores genuinos raros)
- Fenómenos interesantes (investigar)
Decisión: antes de eliminar, investigar causa. Pueden ser información valiosa.
Solución pregunta 4 — Coeficiente de Determinación
Concepto: R² como proporción de varianza explicada
Fórmula: $\(R^2 = \frac{\sum(\hat{y}_i - \bar{y})^2}{\sum(y_i - \bar{y})^2} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\)$
Interpretación (R² = 0.75):
- Modelo explica el 75% de variabilidad en Y
- 25% explicado por otros factores + ruido
Lo que NO es:
- ✗ No es porcentaje de "aciertos" (requiere métrica diferente)
- ✗ No es correlación (r = √0.75 ≈ 0.866)
- ✗ No es predicción de error promedio individual
Contexto: 0.75 es bueno en ciencias sociales, pero depende del dominio.
Solución pregunta 5 — Covarianza positiva
Concepto: Dirección de co-variabilidad
Covarianza positiva > 0:
- Cuando CPU ↑, Temperatura ↑ (variación directa)
- Cuando CPU ↓, Temperatura ↓
Limitaciones:
- Magnitud depende de unidades de medida
- No indica "fuerza" de relación
- Para fuerza: usar correlación de Pearson \(r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} \in [-1,1]\)
Ejemplo físico:
- CPU con alta carga → mayor actividad → más calor generado
- Relación directa (positiva)
Nota: la relación perfecta sin error es independiente de si Cov es positiva/negativa.
Solución pregunta 6 — Propiedades de CDF
Concepto: Axiomas de función de distribución acumulada
Propiedades obligatorias de \(F(x) = P(X \le x)\):
- \(\lim_{x \to -\infty} F(x) = 0\)
- \(\lim_{x \to \infty} F(x) = 1\) ✓
- \(F(x)\) es monótona no-decreciente
- \(0 \le F(x) \le 1\) para todo \(x\)
Lo que NO es obligatorio:
- Continuidad: distribuciones discretas tienen saltos (ej. Poisson)
- Monótona decreciente: es lo opuesto
- Solo para normales: existe para cualquier distribución
Aplicación: CDF es herramienta universal en probabilidad.
Solución pregunta 7 — Linealidad de esperanza
Concepto: Operador esperanza es lineal
Propiedad: $\(E[aX + b] = a \cdot E[X] + b\)$
En este caso: $\(E[2X + 5] = 2 \cdot E[X] + 5 = 2(10) + 5 = 20 + 5 = 25\)$
Error común: pensar que transformación lineal "no cambia" la esperanza (falso):
- \(E[2X] = 2 \cdot E[X] \ne E[X]\)
- \(E[X+5] = E[X] + 5 \ne E[X]\)
Nota: linealidad es diferente en varianza: $\(\text{Var}(aX+b) = a^2 \cdot \text{Var}(X)\)$ (multiplicador cuadrático)
Solución pregunta 8 — MGF
Concepto: Función generatriz de momentos
Definición: $\(M_X(t) = E[e^{tX}] = \sum_x e^{tx} P(X=x) \text{ (discreta)}\)$ $\(M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \text{ (continua)}\)$
Propiedad clave: derivadas dan momentos $\(E[X^n] = \frac{d^n}{dt^n} M_X(t) \bigg|_{t=0} = M_X^{(n)}(0)\)$
Utilidad:
- Caracterización única: MGF única → distribución única (si existe)
- Cálculo de momentos: sin integración directa
- Sumas de variables: si X, Y independientes: \(M_{X+Y}(t) = M_X(t) \cdot M_Y(t)\)
Herramienta teórica fundamental en probabilidad.
Solución pregunta 9 — Distribución Poisson para conteo
Concepto: Modelo de eventos raros en tiempo/espacio
Poisson(\(\lambda\)):
- Modela conteo de eventos en intervalo fijo (tiempo, espacio)
- Parámetro \(\lambda\) = tasa promedio de eventos
- \(P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}\)
Aplicaciones:
- Número de emails spam por hora
- Llamadas a centro de atención por minuto
- Errores por página en un documento
- Clicks en sitio web por día
Por qué no otras distribuciones:
- Bernoulli/Binomial: evento sí/no por ensayo (no conteo)
- Exponencial: tiempo ENTRE eventos (no cantidad)
Supuestos: eventos independientes, tasa constante, no hay eventos simultáneos.
Solución pregunta 10 — Distribución Geométrica
Concepto: Número de ensayos hasta primer éxito/fallo
Distribución Geométrica(p):
- \(X\) = número de intentos hasta primer éxito
- \(P(X=k) = (1-p)^{k-1} p\)
- Esperanza: \(E[X] = \frac{1}{p}\)
En este problema:
- Probabilidad de fallo por intento: \(p = 0.01\)
- Esperanza: \(E[X] = \frac{1}{0.01} = 100\) intentos promedio
Comparación con otras:
- Binomial: número de éxitos en n ensayos (fijos)
- Geométrica: número de ensayos hasta primer éxito
- Poisson: conteo de eventos en intervalo
Propiedad: "falta de memoria" igual que exponencial (análogo discreto).
Solución pregunta 11 — Falta de memoria exponencial
Concepto: Propiedad markoviana
Ecuación: $\(P(X > s+t | X > s) = P(X > t)\)$
Interpretación:
- Si un sistema ha funcionado \(s\) unidades sin fallar
- Probabilidad de fallo en próximas \(t\) unidades = igual que si empezara de cero
- "Olvida" el tiempo ya transcurrido
Implicación:
- No hay "envejecimiento": componente viejo = componente nuevo (en términos de probabilidad futura)
Aplicaciones:
- Vida de componentes electrónicos (sin desgaste visible)
- Tiempo entre llegadas en colas (proceso de Poisson)
- Desintegración radiactiva
Limitación: no modeliza bien componentes con desgaste (usar Weibull).
Solución pregunta 12 — Regla empírica 68-95-99.7
Concepto: Proporción de datos en intervalos para distribución normal
Para \(X \sim N(\mu, \sigma^2)\):
| Intervalo | Proporción |
|---|---|
| \([\mu - \sigma, \mu + \sigma]\) | 68.3% |
| \([\mu - 2\sigma, \mu + 2\sigma]\) | 95.4% ✓ |
| \([\mu - 3\sigma, \mu + 3\sigma]\) | 99.7% |
Derivación: usando tabla de distribución normal estándar.
Implicaciones prácticas:
- ~95% de datos en ±2σ (muy común en tolerancias)
- Valores fuera de ±3σ son muy raros (~0.3%)
Nota: regla aplica a distribuciones aproximadamente normales.
Solución pregunta 13 — Estimador insesgado
Concepto: \(E[\hat{\theta}] = \theta\)
Ejemplo: media muestral $\(E[\bar{X}] = E\left[\frac{1}{n}\sum X_i\right] = \frac{1}{n} \sum E[X_i] = \frac{1}{n} \cdot n\mu = \mu\)$ ✓ insesgada
Contraejemplo: máximo muestral $\(E[X_{\max}] \ne \max(\text{población})\)$ ✗ sesgado
Importancia:
- Estimador insesgado "apunta" al parámetro en promedio
- No significa sin error en caso individual
- Insesgadez + baja varianza = buen estimador
Trade-off: puede haber estimador sesgado pero con menor error cuadrático medio.
Solución pregunta 14 — Efecto confianza en amplitud
Concepto: Relación entre nivel de confianza y ancho del IC
Amplitud de IC para media: $\(\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\)$
Multiplicadores: | Confianza | α | \(z_{\alpha/2}\) | |---|---|---| | 90% | 0.10 | 1.645 | | 95% | 0.05 | 1.96 | | 99% | 0.01 | 2.576 |
Al aumentar confianza (90% → 95%):
- \(z_{\alpha/2}\) aumenta (1.645 → 1.96)
- Amplitud aumenta (intervalo más ancho)
- Trade-off: mayor confianza = menor precisión
Independencia: nivel de confianza se controla separadamente de tamaño muestral.
Solución pregunta 15 — Error Tipo II
Concepto: Falso negativo en contrastes
Tabla de decisiones: | | \(H_0\) Verdadera | \(H_0\) Falsa | |---|---|---| | Rechazar | Error I (α) | Correcto | | No Rechazar | Correcto | Error II (β) ✗ |
Error Tipo II:
- No rechazar \(H_0\) siendo \(H_0\) falsa
- Ejemplo: no detectar enfermedad siendo enfermo
- Probabilidad = β (no controlamos directamente)
Potencia del test: $\(\text{Potencia} = 1 - \beta = P(\text{rechazar } H_0 | H_0 \text{ falsa})\)$
Formas de aumentar potencia:
- Aumentar \(n\) (reduce β)
- Aumentar α (pero aumenta Error I)
- Mejorar diseño experimental
Solución pregunta 16 — Decisión con p < α
Concepto: Interpretación de p-valor versus α
Regla de decisión:
- Si \(p\text{-valor} < \alpha\) → Rechazamos \(H_0\) ✓
- Si \(p\text{-valor} \ge \alpha\) → No rechazamos \(H_0\)
En este caso: \(p = 0.001, \alpha = 0.05\)
- 0.001 < 0.05 ✓
- Decisión: Rechazar \(H_0\)
- Interpretación: "Resultado altamente significativo al 5%"
Significado:
- Si \(H_0\) fuera cierta, observar datos tan extremos ocurriría 0.1% de veces
- Muy raro → rechazamos \(H_0\)
Nota: p-valor muy pequeño ≠ efecto muy grande (depende de tamaño muestral).
Solución pregunta 17 — Test de Kolmogorov-Smirnov
Concepto: Bondad de ajuste a distribución teórica
Propósito: ¿Muestra sigue distribución teórica?
Estadístico: $\(D = \max_x |F_{\text{empírica}}(x) - F_{\text{teórica}}(x)|\)$
Sensibilidad:
- Detecta diferencias en cualquier punto de distribución
- Centro (media, localización)
- Forma (simetría, curtosis)
- Colas
Ventajas vs. Chi-cuadrado:
- No requiere agrupar en categorías
- Retiene información en cada observación
- Aplicable a distribuciones continuas
Hipótesis:
- \(H_0\): muestra sigue distribución teórica
- \(H_1\): muestra NO sigue distribución teórica
Aplicación: verificar normalidad de residuos en regresión.
Solución pregunta 18 — Chi-cuadrado para independencia
Concepto: Relación entre dos variables categóricas
Situación: ambas variables nominales (tipo dispositivo, tasa de clics)
Tabla de contingencia: frecuencias observadas en cada combinación
Estadístico: $\(\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)$
donde \(E_{ij} = \frac{(\text{total fila i}) \times (\text{total columna j})}{\text{total general}}\)
Hipótesis:
- \(H_0\): variables independientes
- \(H_1\): variables asociadas
Por qué NO otras opciones:
- Test t: compara medias (requiere variable continua)
- ANOVA/F: compara varianzas de grupos
- Regresión: requiere relación más específica
Solución pregunta 19 — Grados de libertad Chi-cuadrado
Concepto: Cálculo de gl en bondad de ajuste
Para bondad de ajuste: $\(gl = k - 1\)$ donde \(k\) = número de categorías
En este problema:
- k = 5 categorías
- gl = 5 - 1 = 4 ✓
Corrección por parámetros estimados:
- Si estimamos \(m\) parámetros: \(gl = k - 1 - m\)
- Ejemplo: estimamos media y varianza (m=2) → gl = 5 - 1 - 2 = 2
Razón teórica:
- Una restricción (suma de frecuencias = n) reduce 1 gl
- Cada parámetro estimado reduce adicional gl
Nota: para independencia (tabla r×c): \(gl = (r-1)(c-1)\)
Solución pregunta 20 — Distribución F
Concepto: Cociente de varianzas
Definición: $\(F_{\nu_1, \nu_2} = \frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2}\)$
(cociente de dos Chi-cuadrado normalizadas por sus grados de libertad)
Usos principales:
- Test de igualdad de varianzas: \(\frac{s_1^2}{s_2^2} \sim F\)
- ANOVA: comparar medias de múltiples grupos vía análisis de varianzas
- Regresión: test global de significación
Aplicación en IA:
- Comparar estabilidad de algoritmos
- Algoritmo con menor varianza = más consistente
- ANOVA: "¿Hay diferencias significativas entre 3+ algoritmos?"
Propiedades:
- Rango: \([0, \infty)\)
- Distribución sesgada positiva
- Dependencia en dos parámetros: \(\nu_1\) (numerador), \(\nu_2\) (denominador)
Solución pregunta 21 — Teorema Central del Límite
Concepto: Normalidad asintótica de media muestral
Enunciado formal: Si \(X_1, X_2, ..., X_n\) son iid con media \(\mu\) y varianza \(\sigma^2\) finita:
Equivalentemente: $\(\bar{X}_n \approx N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{para } n \text{ grande}\)$
Criterio práctico: \(n \ge 30\)
Importancia en inferencia:
- Justifica métodos normales incluso con datos no-normales
- Base de intervalos de confianza para medias
- Tests de hipótesis para medias
- Explica estabilidad de media muestral
Ejemplo:
- Salarios (muy sesgados) → media de 100 personas → ≈ Normal
- Permite usar z-test aunque datos originales sean sesgados
Solución pregunta 22 — Escala de temperatura en R
Concepto: Asignación de vector en R
Función c() (concatenate):
- Combina elementos en vector
c(10, 20, 30)crea vector [10, 20, 30]
Alternativas incorrectas:
list(): crea lista (estructura recursiva, no vector simple)vector(): requiere argumentosvector(mode, length), ej:vector("numeric", 3)datos =: asignación con = funciona pero <- es estándar R
Operaciones comunes:
Buena práctica: usar <- en lugar de = para consistencia.
Solución pregunta 23 — Función mean() en R
Concepto: Funciones descriptivas básicas en R
Familia de funciones:
mean(x) # Media aritmética ✓
median(x) # Mediana (valor central)
sd(x) # Desviación típica (estándar)
var(x) # Varianza
min(x) # Mínimo
max(x) # Máximo
sum(x) # Suma
No existen:
average()en base R (SAS usa este nombre)- En R es
mean()
Ejemplo:
Nota: sd() divide por n-1 (varianza muestral).
Solución pregunta 24 — Funciones de distribución en R
Concepto: Familia de funciones para distribuciones en R
Nomenclatura: [prefijo][nombre distribución]
Prefijos:
- d: density (PDF o PMF)
- p: probability (CDF, \(P(X \le x)\)) ✓
- q: quantile (inversa de CDF, p-ésimo cuantil)
- r: random (generar valores aleatorios)
Ejemplos para Chi-cuadrado:
dchisq(2, 5) # PDF en x=2, gl=5
pchisq(2, 5) # P(X≤2), gl=5 ✓
qchisq(0.95, 5) # x tal que P(X≤x)=0.95
rchisq(100, 5) # 100 valores aleatorios
Uso: pchisq(2, 5) devuelve la probabilidad acumulada.
Solución pregunta 25 — Función t.test() en R
Concepto: Test t de Student en R
Función:
Devuelve:
- Estadístico t: valor observado
- p-valor: probabilidad bajo \(H_0\)
- IC 95%: intervalo de confianza para media
- Media muestral: \(\bar{x}\)
- Alternativa: una o dos colas
Salida típica:
No devuelve:
- ✗ Histograma (usar
hist()) - ✗ Correlación (usar
cor()) - ✗ Solo varianza (pero aparece en output)
Variantes:
Solución pregunta 26 — Función plot() en R
Concepto: Visualización en R base
Funciones comunes:
plot(x, y) # Diagrama de dispersión (scatter plot) ✓
hist(x) # Histograma
boxplot(x, y) # Diagrama de cajas
barplot(x) # Gráfico de barras (para categóricas)
lines(x, y) # Líneas (superponer en plot existente)
Ejemplo:
Opciones de plot():
Para paquete ggplot2: ggplot() + geom_point()
Solución pregunta 27 — Función sigmoide en IA
Concepto: Modelado de probabilidades
Función sigmoide: $\(\sigma(z) = \frac{1}{1 + e^{-z}}\)$
Propiedades:
- Rango: \((0, 1)\) ✓ (ideal para probabilidades)
- Derivada: \(\sigma'(z) = \sigma(z)(1-\sigma(z))\)
- Monótona creciente
- S-shape
Uso en clasificación binaria:
- Neurona de salida con sigmoide
- Valor ∈ [0, 1] → interpretado como P(clase=1)
- Ejemplo: 0.8 → 80% probabilidad de clase positiva
Alternativas:
- Tanh (similar, rango [-1, 1])
- ReLU (capas ocultas)
- Softmax (multi-clase)
Razón: transforma suma ponderada (-∞, ∞) en probabilidad [0, 1].
Solución pregunta 28 — Garbage In, Garbage Out (GIGO)
Concepto: Dependencia crítica en calidad de datos
Principio:
- Datos malos → modelo malo (incluso con algoritmo perfecto)
- Datos buenos + algoritmo bueno → modelo bueno
Manifestaciones:
- Datos sesgados: modelo aprende sesgo
- Datos ruidosos: sobreajuste, baja generalización
- Datos incompletos: pérdida de información
- Datos injustos: modelo discriminador
Consecuencias:
- Baja precisión en producción
- Predicciones injustas (bias)
- Errores en subgrupos
Solución: Análisis Exploratorio de Datos (EDA)
- Detectar anomalías, sesgos, patrones
- Limpiar y transformar datos
- Validación en test set
Solución pregunta 29 — Estandarización en kNN
Concepto: Escalado de variables en algoritmos de distancia
Problema: sin estandarizar
- Variable 1: rango [0, 1000]
- Variable 2: rango [0, 1]
- Distancia euclidiana dominada por Variable 1
- Variable 2 prácticamente ignorada
Estandarización: \(z_i = \frac{x_i - \mu}{\sigma}\)
- Ambas variables: media 0, sd 1
- Rango típico: [-3, 3]
- Contribución equilibrada
Algoritmos afectados:
- kNN: basado en distancia ✓
- k-means: basado en distancia ✓
- SVM: basado en distancia ✓
- Árboles/Random Forest: menos sensibles (basados en divisiones)
Nota: no es necesario si todas variables tienen escala similar.
Solución pregunta 30 — Potencia del test vs. tamaño muestral
Concepto: Relación entre n y capacidad de detección
Definición: $\(\text{Potencia} = 1 - \beta = P(\text{rechazar } H_0 | H_0 \text{ falsa})\)$
Al aumentar n:
- Varianza muestral \(\frac{\sigma^2}{n}\) disminuye
- Intervalo de confianza más estrecho
- Estadístico t/z más extremo
- Capacidad de detectar efecto real aumenta
- Potencia aumenta (1 - β sube)
Ejemplo:
- Test pequeño (n=10): potencia 0.4 (40% chance detectar efecto real)
- Test grande (n=100): potencia 0.9 (90% chance detectar efecto real)
Trade-off Error I/II:
- Aumentar n reduce AMBOS α y β
- Sin aumento de n: disminuir α requiere aumentar β (bad)
Diseño: con análisis de potencia, determinar n requerida.