Skip to content

Práctica 7 Variante v2 (incl. R)

Duración estimada: 120 minutos.

Instrucciones

  • Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
  • En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

Bloque 1: Análisis Descriptivo y Escalas (Unidades 1-2)

#

Pregunta 1

Una variable que mide la temperatura en grados Celsius se clasifica en la escala de:

#

Pregunta 2

Si el coeficiente de variación (CV) de los tiempos de carga de una App es del 85%, esto indica:

#

Pregunta 3

En un diagrama de caja (boxplot), si observas puntos aislados más allá de los "bigotes", estos representan:

#

Pregunta 4

El Coeficiente de Determinación (\(R^2\)) en una regresión lineal mide:

#

Pregunta 5

Si la covarianza entre "Uso de CPU" y "Temperatura del procesador" es 150.5 (positiva), podemos afirmar que:


Bloque 2: Variables Aleatorias y Modelos (Unidades 3-4)

#

Pregunta 6

¿Cuál de las siguientes es una propiedad obligatoria de cualquier Función de Distribución Acumulada \(F(x)\)?

#

Pregunta 7

Si \(X\) es una variable aleatoria con \(E[X] = 10\), ¿cuál es el valor esperado de la transformación \(Y = 2X + 5\)?

#

Pregunta 8

La Función Generatriz de Momentos (MGF) sirve primordialmente para:

#

Pregunta 9

En Machine Learning, para modelar el número de correos spam recibidos en una hora, la distribución más adecuada es:

#

Pregunta 10

Un sistema tiene una probabilidad de fallo por intento de \(p=0.01\). ¿Qué distribución modela el número de intentos hasta el primer fallo?

#

Pregunta 11

¿Qué característica define a la distribución Exponencial debido a su "falta de memoria"?

#

Pregunta 12

Para una variable \(X \sim N(\mu, \sigma^2)\), ¿qué porcentaje aproximado de datos cae en el intervalo \([\mu - 2\sigma, \mu + 2\sigma]\)?


Bloque 3: Inferencia Estadística (Unidades 5-6)

#

Pregunta 13

Un estimador se denomina "insesgado" si:

#

Pregunta 14

Al construir un intervalo de confianza para la media, si pasamos de una confianza del 90% al 95% (manteniendo \(n\) constante):

#

Pregunta 15

El Error de Tipo II (\(\beta\)) en un contraste de hipótesis consiste en:

#

Pregunta 16

Si realizas un test con \(\alpha = 0.05\) y obtienes un p-valor de 0.001, la conclusión es:

#

Pregunta 17

El test de Kolmogorov-Smirnov (KS) se utiliza para:

#

Pregunta 18

En una tabla de contingencia de \(3 \times 4\), ¿cuántos grados de libertad tendría el estadístico Chi-cuadrado para el test de independencia?

#

Pregunta 19

La distribución \(t\) de Student se prefiere sobre la Normal para inferencia de medias cuando:

#

Pregunta 20

Según el Teorema Central del Límite (TCL), la distribución de la media muestral tiende a la Normal si:


Bloque 4: Programación y Software (R)

#

Pregunta 21

En R, para asignar un vector con los valores 10, 20 y 30 a la variable datos, se usa:

#

Pregunta 22

¿Qué función de R permite calcular la media aritmética de un vector de datos?

#

Pregunta 23

Si quieres obtener la probabilidad acumulada \(P(X \le 2)\) de una Chi-cuadrado con 5 grados de libertad en R, usas:

#

Pregunta 24

La función t.test(x, conf.level = 0.95) en R devuelve principalmente:

#

Pregunta 25

Para visualizar un diagrama de dispersión entre dos variables x e y en R básico, se utiliza:


Bloque 5: Conceptos Integradores (IA)

#

Pregunta 26

En un problema de clasificación binaria (IA), la probabilidad de salida de una neurona (sigmoide) se modela mejor como:

#

Pregunta 27

El fenómeno "Garbage in, Garbage out" en proyectos de IA se refiere a:

#

Pregunta 28

¿Por qué es necesario estandarizar variables (ej. media=0, sd=1) antes de usar algoritmos de distancia como kNN?

#

Pregunta 29

En un contraste de hipótesis, si aumentamos el tamaño de la muestra (\(n\)), la potencia del test (\(1-\beta\)):

#

Pregunta 30

La distribución F de Snedecor se utiliza en IA principalmente para:


Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas


Soluciones Desarrolladas

Solución pregunta 1 — Escala de intervalo en temperatura

Concepto: Diferencia entre escala de intervalo y razón

Escala de intervalo (Celsius):

  • Cero arbitrario: 0°C = punto de congelación del agua (no significa ausencia de temperatura)
  • Permite restas: 30°C - 10°C = 20°C (válido)
  • No permite proporciones: decir "20°C es el doble de 10°C" es incorrecto (no hay razón física)

Escala de razón (Kelvin):

  • Cero absoluto: 0K = ausencia total de energía térmica
  • Permite proporciones: 200K es el doble de 100K

En estadística: ambas son cuantitativas continuas, pero razón es más restrictiva.

Solución pregunta 2 — Coeficiente de Variación (CV)

Concepto: Dispersión relativa respecto a la media

Definición: $\(CV = \frac{\sigma}{\mu} \times 100\%\)$

Interpretación (CV = 85%):

  • La desviación típica es el 85% del valor de la media
  • Indica alta dispersión relativa
  • Datos muy heterogéneos/variable

Escala de referencia:

  • CV < 25%: datos homogéneos
  • 25% ≤ CV < 50%: dispersión moderada
  • CV ≥ 50%: dispersión alta
  • CV ≥ 75%: dispersión muy alta (como en este caso)

Utilidad: compara variabilidad entre variables con escalas diferentes.

Solución pregunta 3 — Outliers en boxplot

Concepto: Identificación de valores atípicos

Estructura de boxplot:

  • Bigote inferior: Q1 - 1.5×IQR
  • Caja: Q1 a Q3
  • Línea mediana: Q2
  • Bigote superior: Q3 + 1.5×IQR
  • Puntos fuera: outliers

Interpretación de outliers:

  1. Errores de medición/entrada
  2. Datos reales extremos (valores genuinos raros)
  3. Fenómenos interesantes (investigar)

Decisión: antes de eliminar, investigar causa. Pueden ser información valiosa.

Solución pregunta 4 — Coeficiente de Determinación

Concepto: R² como proporción de varianza explicada

Fórmula: $\(R^2 = \frac{\sum(\hat{y}_i - \bar{y})^2}{\sum(y_i - \bar{y})^2} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}\)$

Interpretación (R² = 0.75):

  • Modelo explica el 75% de variabilidad en Y
  • 25% explicado por otros factores + ruido

Lo que NO es:

  • ✗ No es porcentaje de "aciertos" (requiere métrica diferente)
  • ✗ No es correlación (r = √0.75 ≈ 0.866)
  • ✗ No es predicción de error promedio individual

Contexto: 0.75 es bueno en ciencias sociales, pero depende del dominio.

Solución pregunta 5 — Covarianza positiva

Concepto: Dirección de co-variabilidad

Covarianza positiva > 0:

  • Cuando CPU ↑, Temperatura ↑ (variación directa)
  • Cuando CPU ↓, Temperatura ↓

Limitaciones:

  • Magnitud depende de unidades de medida
  • No indica "fuerza" de relación
  • Para fuerza: usar correlación de Pearson \(r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} \in [-1,1]\)

Ejemplo físico:

  • CPU con alta carga → mayor actividad → más calor generado
  • Relación directa (positiva)

Nota: la relación perfecta sin error es independiente de si Cov es positiva/negativa.

Solución pregunta 6 — Propiedades de CDF

Concepto: Axiomas de función de distribución acumulada

Propiedades obligatorias de \(F(x) = P(X \le x)\):

  1. \(\lim_{x \to -\infty} F(x) = 0\)
  2. \(\lim_{x \to \infty} F(x) = 1\)
  3. \(F(x)\) es monótona no-decreciente
  4. \(0 \le F(x) \le 1\) para todo \(x\)

Lo que NO es obligatorio:

  • Continuidad: distribuciones discretas tienen saltos (ej. Poisson)
  • Monótona decreciente: es lo opuesto
  • Solo para normales: existe para cualquier distribución

Aplicación: CDF es herramienta universal en probabilidad.

Solución pregunta 7 — Linealidad de esperanza

Concepto: Operador esperanza es lineal

Propiedad: $\(E[aX + b] = a \cdot E[X] + b\)$

En este caso: $\(E[2X + 5] = 2 \cdot E[X] + 5 = 2(10) + 5 = 20 + 5 = 25\)$

Error común: pensar que transformación lineal "no cambia" la esperanza (falso):

  • \(E[2X] = 2 \cdot E[X] \ne E[X]\)
  • \(E[X+5] = E[X] + 5 \ne E[X]\)

Nota: linealidad es diferente en varianza: $\(\text{Var}(aX+b) = a^2 \cdot \text{Var}(X)\)$ (multiplicador cuadrático)

Solución pregunta 8 — MGF

Concepto: Función generatriz de momentos

Definición: $\(M_X(t) = E[e^{tX}] = \sum_x e^{tx} P(X=x) \text{ (discreta)}\)$ $\(M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \text{ (continua)}\)$

Propiedad clave: derivadas dan momentos $\(E[X^n] = \frac{d^n}{dt^n} M_X(t) \bigg|_{t=0} = M_X^{(n)}(0)\)$

Utilidad:

  1. Caracterización única: MGF única → distribución única (si existe)
  2. Cálculo de momentos: sin integración directa
  3. Sumas de variables: si X, Y independientes: \(M_{X+Y}(t) = M_X(t) \cdot M_Y(t)\)

Herramienta teórica fundamental en probabilidad.

Solución pregunta 9 — Distribución Poisson para conteo

Concepto: Modelo de eventos raros en tiempo/espacio

Poisson(\(\lambda\)):

  • Modela conteo de eventos en intervalo fijo (tiempo, espacio)
  • Parámetro \(\lambda\) = tasa promedio de eventos
  • \(P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}\)

Aplicaciones:

  • Número de emails spam por hora
  • Llamadas a centro de atención por minuto
  • Errores por página en un documento
  • Clicks en sitio web por día

Por qué no otras distribuciones:

  • Bernoulli/Binomial: evento sí/no por ensayo (no conteo)
  • Exponencial: tiempo ENTRE eventos (no cantidad)

Supuestos: eventos independientes, tasa constante, no hay eventos simultáneos.

Solución pregunta 10 — Distribución Geométrica

Concepto: Número de ensayos hasta primer éxito/fallo

Distribución Geométrica(p):

  • \(X\) = número de intentos hasta primer éxito
  • \(P(X=k) = (1-p)^{k-1} p\)
  • Esperanza: \(E[X] = \frac{1}{p}\)

En este problema:

  • Probabilidad de fallo por intento: \(p = 0.01\)
  • Esperanza: \(E[X] = \frac{1}{0.01} = 100\) intentos promedio

Comparación con otras:

  • Binomial: número de éxitos en n ensayos (fijos)
  • Geométrica: número de ensayos hasta primer éxito
  • Poisson: conteo de eventos en intervalo

Propiedad: "falta de memoria" igual que exponencial (análogo discreto).

Solución pregunta 11 — Falta de memoria exponencial

Concepto: Propiedad markoviana

Ecuación: $\(P(X > s+t | X > s) = P(X > t)\)$

Interpretación:

  • Si un sistema ha funcionado \(s\) unidades sin fallar
  • Probabilidad de fallo en próximas \(t\) unidades = igual que si empezara de cero
  • "Olvida" el tiempo ya transcurrido

Implicación:

  • No hay "envejecimiento": componente viejo = componente nuevo (en términos de probabilidad futura)

Aplicaciones:

  • Vida de componentes electrónicos (sin desgaste visible)
  • Tiempo entre llegadas en colas (proceso de Poisson)
  • Desintegración radiactiva

Limitación: no modeliza bien componentes con desgaste (usar Weibull).

Solución pregunta 12 — Regla empírica 68-95-99.7

Concepto: Proporción de datos en intervalos para distribución normal

Para \(X \sim N(\mu, \sigma^2)\):

Intervalo Proporción
\([\mu - \sigma, \mu + \sigma]\) 68.3%
\([\mu - 2\sigma, \mu + 2\sigma]\) 95.4% ✓
\([\mu - 3\sigma, \mu + 3\sigma]\) 99.7%

Derivación: usando tabla de distribución normal estándar.

Implicaciones prácticas:

  • ~95% de datos en ±2σ (muy común en tolerancias)
  • Valores fuera de ±3σ son muy raros (~0.3%)

Nota: regla aplica a distribuciones aproximadamente normales.

Solución pregunta 13 — Estimador insesgado

Concepto: \(E[\hat{\theta}] = \theta\)

Ejemplo: media muestral $\(E[\bar{X}] = E\left[\frac{1}{n}\sum X_i\right] = \frac{1}{n} \sum E[X_i] = \frac{1}{n} \cdot n\mu = \mu\)$ ✓ insesgada

Contraejemplo: máximo muestral $\(E[X_{\max}] \ne \max(\text{población})\)$ ✗ sesgado

Importancia:

  • Estimador insesgado "apunta" al parámetro en promedio
  • No significa sin error en caso individual
  • Insesgadez + baja varianza = buen estimador

Trade-off: puede haber estimador sesgado pero con menor error cuadrático medio.

Solución pregunta 14 — Efecto confianza en amplitud

Concepto: Relación entre nivel de confianza y ancho del IC

Amplitud de IC para media: $\(\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\)$

Multiplicadores: | Confianza | α | \(z_{\alpha/2}\) | |---|---|---| | 90% | 0.10 | 1.645 | | 95% | 0.05 | 1.96 | | 99% | 0.01 | 2.576 |

Al aumentar confianza (90% → 95%):

  • \(z_{\alpha/2}\) aumenta (1.645 → 1.96)
  • Amplitud aumenta (intervalo más ancho)
  • Trade-off: mayor confianza = menor precisión

Independencia: nivel de confianza se controla separadamente de tamaño muestral.

Solución pregunta 15 — Error Tipo II

Concepto: Falso negativo en contrastes

Tabla de decisiones: | | \(H_0\) Verdadera | \(H_0\) Falsa | |---|---|---| | Rechazar | Error I (α) | Correcto | | No Rechazar | Correcto | Error II (β) ✗ |

Error Tipo II:

  • No rechazar \(H_0\) siendo \(H_0\) falsa
  • Ejemplo: no detectar enfermedad siendo enfermo
  • Probabilidad = β (no controlamos directamente)

Potencia del test: $\(\text{Potencia} = 1 - \beta = P(\text{rechazar } H_0 | H_0 \text{ falsa})\)$

Formas de aumentar potencia:

  1. Aumentar \(n\) (reduce β)
  2. Aumentar α (pero aumenta Error I)
  3. Mejorar diseño experimental
Solución pregunta 16 — Decisión con p < α

Concepto: Interpretación de p-valor versus α

Regla de decisión:

  • Si \(p\text{-valor} < \alpha\)Rechazamos \(H_0\)
  • Si \(p\text{-valor} \ge \alpha\) → No rechazamos \(H_0\)

En este caso: \(p = 0.001, \alpha = 0.05\)

  • 0.001 < 0.05 ✓
  • Decisión: Rechazar \(H_0\)
  • Interpretación: "Resultado altamente significativo al 5%"

Significado:

  • Si \(H_0\) fuera cierta, observar datos tan extremos ocurriría 0.1% de veces
  • Muy raro → rechazamos \(H_0\)

Nota: p-valor muy pequeño ≠ efecto muy grande (depende de tamaño muestral).

Solución pregunta 17 — Test de Kolmogorov-Smirnov

Concepto: Bondad de ajuste a distribución teórica

Propósito: ¿Muestra sigue distribución teórica?

Estadístico: $\(D = \max_x |F_{\text{empírica}}(x) - F_{\text{teórica}}(x)|\)$

Sensibilidad:

  • Detecta diferencias en cualquier punto de distribución
  • Centro (media, localización)
  • Forma (simetría, curtosis)
  • Colas

Ventajas vs. Chi-cuadrado:

  • No requiere agrupar en categorías
  • Retiene información en cada observación
  • Aplicable a distribuciones continuas

Hipótesis:

  • \(H_0\): muestra sigue distribución teórica
  • \(H_1\): muestra NO sigue distribución teórica

Aplicación: verificar normalidad de residuos en regresión.

Solución pregunta 18 — Chi-cuadrado para independencia

Concepto: Relación entre dos variables categóricas

Situación: ambas variables nominales (tipo dispositivo, tasa de clics)

Tabla de contingencia: frecuencias observadas en cada combinación

Estadístico: $\(\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)$

donde \(E_{ij} = \frac{(\text{total fila i}) \times (\text{total columna j})}{\text{total general}}\)

Hipótesis:

  • \(H_0\): variables independientes
  • \(H_1\): variables asociadas

Por qué NO otras opciones:

  • Test t: compara medias (requiere variable continua)
  • ANOVA/F: compara varianzas de grupos
  • Regresión: requiere relación más específica
Solución pregunta 19 — Grados de libertad Chi-cuadrado

Concepto: Cálculo de gl en bondad de ajuste

Para bondad de ajuste: $\(gl = k - 1\)$ donde \(k\) = número de categorías

En este problema:

  • k = 5 categorías
  • gl = 5 - 1 = 4 ✓

Corrección por parámetros estimados:

  • Si estimamos \(m\) parámetros: \(gl = k - 1 - m\)
  • Ejemplo: estimamos media y varianza (m=2) → gl = 5 - 1 - 2 = 2

Razón teórica:

  • Una restricción (suma de frecuencias = n) reduce 1 gl
  • Cada parámetro estimado reduce adicional gl

Nota: para independencia (tabla r×c): \(gl = (r-1)(c-1)\)

Solución pregunta 20 — Distribución F

Concepto: Cociente de varianzas

Definición: $\(F_{\nu_1, \nu_2} = \frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2}\)$

(cociente de dos Chi-cuadrado normalizadas por sus grados de libertad)

Usos principales:

  1. Test de igualdad de varianzas: \(\frac{s_1^2}{s_2^2} \sim F\)
  2. ANOVA: comparar medias de múltiples grupos vía análisis de varianzas
  3. Regresión: test global de significación

Aplicación en IA:

  • Comparar estabilidad de algoritmos
  • Algoritmo con menor varianza = más consistente
  • ANOVA: "¿Hay diferencias significativas entre 3+ algoritmos?"

Propiedades:

  • Rango: \([0, \infty)\)
  • Distribución sesgada positiva
  • Dependencia en dos parámetros: \(\nu_1\) (numerador), \(\nu_2\) (denominador)
Solución pregunta 21 — Teorema Central del Límite

Concepto: Normalidad asintótica de media muestral

Enunciado formal: Si \(X_1, X_2, ..., X_n\) son iid con media \(\mu\) y varianza \(\sigma^2\) finita:

\[\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1) \text{ cuando } n \to \infty\]

Equivalentemente: $\(\bar{X}_n \approx N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{para } n \text{ grande}\)$

Criterio práctico: \(n \ge 30\)

Importancia en inferencia:

  1. Justifica métodos normales incluso con datos no-normales
  2. Base de intervalos de confianza para medias
  3. Tests de hipótesis para medias
  4. Explica estabilidad de media muestral

Ejemplo:

  • Salarios (muy sesgados) → media de 100 personas → ≈ Normal
  • Permite usar z-test aunque datos originales sean sesgados
Solución pregunta 22 — Escala de temperatura en R

Concepto: Asignación de vector en R

Función c() (concatenate):

  • Combina elementos en vector
  • c(10, 20, 30) crea vector [10, 20, 30]

Alternativas incorrectas:

  • list(): crea lista (estructura recursiva, no vector simple)
  • vector(): requiere argumentos vector(mode, length), ej: vector("numeric", 3)
  • datos =: asignación con = funciona pero <- es estándar R

Operaciones comunes:

datos <- c(10, 20, 30)
mean(datos)       # 20
sd(datos)         # 10
length(datos)     # 3

Buena práctica: usar <- en lugar de = para consistencia.

Solución pregunta 23 — Función mean() en R

Concepto: Funciones descriptivas básicas en R

Familia de funciones:

mean(x)    # Media aritmética ✓
median(x)  # Mediana (valor central)
sd(x)      # Desviación típica (estándar)
var(x)     # Varianza
min(x)     # Mínimo
max(x)     # Máximo
sum(x)     # Suma

No existen:

  • average() en base R (SAS usa este nombre)
  • En R es mean()

Ejemplo:

datos <- c(10, 20, 30)
mean(datos)  # 20
sd(datos)    # 10

Nota: sd() divide por n-1 (varianza muestral).

Solución pregunta 24 — Funciones de distribución en R

Concepto: Familia de funciones para distribuciones en R

Nomenclatura: [prefijo][nombre distribución]

Prefijos:

  • d: density (PDF o PMF)
  • p: probability (CDF, \(P(X \le x)\)) ✓
  • q: quantile (inversa de CDF, p-ésimo cuantil)
  • r: random (generar valores aleatorios)

Ejemplos para Chi-cuadrado:

dchisq(2, 5)  # PDF en x=2, gl=5
pchisq(2, 5)  # P(X≤2), gl=5 ✓
qchisq(0.95, 5)  # x tal que P(X≤x)=0.95
rchisq(100, 5)  # 100 valores aleatorios

Uso: pchisq(2, 5) devuelve la probabilidad acumulada.

Solución pregunta 25 — Función t.test() en R

Concepto: Test t de Student en R

Función:

t.test(x, conf.level = 0.95)

Devuelve:

  • Estadístico t: valor observado
  • p-valor: probabilidad bajo \(H_0\)
  • IC 95%: intervalo de confianza para media
  • Media muestral: \(\bar{x}\)
  • Alternativa: una o dos colas

Salida típica:

t = 2.345, df = 99, p-value = 0.0205
95 percent confidence interval:
 [1.23, 5.67]

No devuelve:

  • ✗ Histograma (usar hist())
  • ✗ Correlación (usar cor())
  • ✗ Solo varianza (pero aparece en output)

Variantes:

t.test(x, y)  # test t de dos muestras
t.test(x, mu=100)  # test contra valor fijo
Solución pregunta 26 — Función plot() en R

Concepto: Visualización en R base

Funciones comunes:

plot(x, y)       # Diagrama de dispersión (scatter plot) ✓
hist(x)          # Histograma
boxplot(x, y)    # Diagrama de cajas
barplot(x)       # Gráfico de barras (para categóricas)
lines(x, y)      # Líneas (superponer en plot existente)

Ejemplo:

x <- rnorm(100)
y <- 2*x + rnorm(100)
plot(x, y)  # Muestra relación lineal

Opciones de plot():

plot(x, y, main="Título", xlab="X", ylab="Y", col="blue")

Para paquete ggplot2: ggplot() + geom_point()

Solución pregunta 27 — Función sigmoide en IA

Concepto: Modelado de probabilidades

Función sigmoide: $\(\sigma(z) = \frac{1}{1 + e^{-z}}\)$

Propiedades:

  • Rango: \((0, 1)\) ✓ (ideal para probabilidades)
  • Derivada: \(\sigma'(z) = \sigma(z)(1-\sigma(z))\)
  • Monótona creciente
  • S-shape

Uso en clasificación binaria:

  • Neurona de salida con sigmoide
  • Valor ∈ [0, 1] → interpretado como P(clase=1)
  • Ejemplo: 0.8 → 80% probabilidad de clase positiva

Alternativas:

  • Tanh (similar, rango [-1, 1])
  • ReLU (capas ocultas)
  • Softmax (multi-clase)

Razón: transforma suma ponderada (-∞, ∞) en probabilidad [0, 1].

Solución pregunta 28 — Garbage In, Garbage Out (GIGO)

Concepto: Dependencia crítica en calidad de datos

Principio:

  • Datos malos → modelo malo (incluso con algoritmo perfecto)
  • Datos buenos + algoritmo bueno → modelo bueno

Manifestaciones:

  1. Datos sesgados: modelo aprende sesgo
  2. Datos ruidosos: sobreajuste, baja generalización
  3. Datos incompletos: pérdida de información
  4. Datos injustos: modelo discriminador

Consecuencias:

  • Baja precisión en producción
  • Predicciones injustas (bias)
  • Errores en subgrupos

Solución: Análisis Exploratorio de Datos (EDA)

  • Detectar anomalías, sesgos, patrones
  • Limpiar y transformar datos
  • Validación en test set
Solución pregunta 29 — Estandarización en kNN

Concepto: Escalado de variables en algoritmos de distancia

Problema: sin estandarizar

  • Variable 1: rango [0, 1000]
  • Variable 2: rango [0, 1]
  • Distancia euclidiana dominada por Variable 1
  • Variable 2 prácticamente ignorada

Estandarización: \(z_i = \frac{x_i - \mu}{\sigma}\)

  • Ambas variables: media 0, sd 1
  • Rango típico: [-3, 3]
  • Contribución equilibrada

Algoritmos afectados:

  • kNN: basado en distancia ✓
  • k-means: basado en distancia ✓
  • SVM: basado en distancia ✓
  • Árboles/Random Forest: menos sensibles (basados en divisiones)

Nota: no es necesario si todas variables tienen escala similar.

Solución pregunta 30 — Potencia del test vs. tamaño muestral

Concepto: Relación entre n y capacidad de detección

Definición: $\(\text{Potencia} = 1 - \beta = P(\text{rechazar } H_0 | H_0 \text{ falsa})\)$

Al aumentar n:

  • Varianza muestral \(\frac{\sigma^2}{n}\) disminuye
  • Intervalo de confianza más estrecho
  • Estadístico t/z más extremo
  • Capacidad de detectar efecto real aumenta
  • Potencia aumenta (1 - β sube)

Ejemplo:

  • Test pequeño (n=10): potencia 0.4 (40% chance detectar efecto real)
  • Test grande (n=100): potencia 0.9 (90% chance detectar efecto real)

Trade-off Error I/II:

  • Aumentar n reduce AMBOS α y β
  • Sin aumento de n: disminuir α requiere aumentar β (bad)

Diseño: con análisis de potencia, determinar n requerida.