Práctica 7 Variante v2 (incl. R)

Duración estimada: 120 minutos.

Instrucciones

Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

Bloque 1: Análisis Descriptivo y Escalas (Unidades 1-2)

#

Pregunta 1

Una variable que mide la temperatura en grados Celsius se clasifica en la escala de:

#

Pregunta 2

Si el coeficiente de variación (CV) de los tiempos de carga de una App es del 85%, esto indica:

#

Pregunta 3

En un diagrama de caja (boxplot), si observas puntos aislados más allá de los "bigotes", estos representan:

#

Pregunta 4

El Coeficiente de Determinación ($R^2$) en una regresión lineal mide:

#

Pregunta 5

Si la covarianza entre "Uso de CPU" y "Temperatura del procesador" es 150.5 (positiva), podemos afirmar que:

Bloque 2: Variables Aleatorias y Modelos (Unidades 3-4)

#

Pregunta 6

¿Cuál de las siguientes es una propiedad obligatoria de cualquier Función de Distribución Acumulada $F(x)$?

#

Pregunta 7

Si $X$ es una variable aleatoria con $E[X] = 10$, ¿cuál es el valor esperado de la transformación $Y = 2X + 5$?

#

Pregunta 8

La Función Generatriz de Momentos (MGF) sirve primordialmente para:

#

Pregunta 9

En Machine Learning, para modelar el número de correos spam recibidos en una hora, la distribución más adecuada es:

#

Pregunta 10

Un sistema tiene una probabilidad de fallo por intento de $p=0.01$. ¿Qué distribución modela el número de intentos hasta el primer fallo?

#

Pregunta 11

¿Qué característica define a la distribución Exponencial debido a su "falta de memoria"?

#

Pregunta 12

Para una variable $X \sim N(\mu, \sigma^2)$, ¿qué porcentaje aproximado de datos cae en el intervalo $[\mu - 2\sigma, \mu + 2\sigma]$?

Bloque 3: Inferencia Estadística (Unidades 5-6)

#

Pregunta 13

Un estimador se denomina "insesgado" si:

#

Pregunta 14

Al construir un intervalo de confianza para la media, si pasamos de una confianza del 90% al 95% (manteniendo $n$ constante):

#

Pregunta 15

El Error de Tipo II ($\beta$) en un contraste de hipótesis consiste en:

#

Pregunta 16

Si realizas un test con $\alpha = 0.05$ y obtienes un p-valor de 0.001, la conclusión es:

#

Pregunta 17

El test de Kolmogorov-Smirnov (KS) se utiliza para:

#

Pregunta 18

En una tabla de contingencia de $3 \times 4$, ¿cuántos grados de libertad tendría el estadístico Chi-cuadrado para el test de independencia?

#

Pregunta 19

La distribución $t$ de Student se prefiere sobre la Normal para inferencia de medias cuando:

#

Pregunta 20

Según el Teorema Central del Límite (TCL), la distribución de la media muestral tiende a la Normal si:

Bloque 4: Programación y Software (R)

#

Pregunta 21

En R, para asignar un vector con los valores 10, 20 y 30 a la variable datos, se usa:

#

Pregunta 22

¿Qué función de R permite calcular la media aritmética de un vector de datos?

#

Pregunta 23

Si quieres obtener la probabilidad acumulada $P(X \le 2)$ de una Chi-cuadrado con 5 grados de libertad en R, usas:

#

Pregunta 24

La función t.test(x, conf.level = 0.95) en R devuelve principalmente:

#

Pregunta 25

Para visualizar un diagrama de dispersión entre dos variables x e y en R básico, se utiliza:

Bloque 5: Conceptos Integradores (IA)

#

Pregunta 26

En un problema de clasificación binaria (IA), la probabilidad de salida de una neurona (sigmoide) se modela mejor como:

#

Pregunta 27

El fenómeno "Garbage in, Garbage out" en proyectos de IA se refiere a:

#

Pregunta 28

¿Por qué es necesario estandarizar variables (ej. media=0, sd=1) antes de usar algoritmos de distancia como kNN?

#

Pregunta 29

En un contraste de hipótesis, si aumentamos el tamaño de la muestra ($n$), la potencia del test ($1-\beta$):

#

Pregunta 30

La distribución F de Snedecor se utiliza en IA principalmente para:

Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas

Soluciones Desarrolladas

Solución pregunta 1 — Escala de intervalo en temperatura

Concepto: Diferencia entre escala de intervalo y razón

Escala de intervalo (Celsius):

Cero arbitrario: 0°C = punto de congelación del agua (no significa ausencia de temperatura)
Permite restas: 30°C - 10°C = 20°C (válido)
No permite proporciones: decir "20°C es el doble de 10°C" es incorrecto (no hay razón física)

Escala de razón (Kelvin):

Cero absoluto: 0K = ausencia total de energía térmica
Permite proporciones: 200K es el doble de 100K

En estadística: ambas son cuantitativas continuas, pero razón es más restrictiva.

Solución pregunta 2 — Coeficiente de Variación (CV)

Concepto: Dispersión relativa respecto a la media

Definición: $$CV = \frac{\sigma}{\mu} \times 100\%$$

Interpretación (CV = 85%):

La desviación típica es el 85% del valor de la media
Indica alta dispersión relativa
Datos muy heterogéneos/variable

Escala de referencia:

CV < 25%: datos homogéneos
25% ≤ CV < 50%: dispersión moderada
CV ≥ 50%: dispersión alta
CV ≥ 75%: dispersión muy alta (como en este caso)

Utilidad: compara variabilidad entre variables con escalas diferentes.

Solución pregunta 3 — Outliers en boxplot

Concepto: Identificación de valores atípicos

Estructura de boxplot:

Bigote inferior: Q1 - 1.5×IQR
Caja: Q1 a Q3
Línea mediana: Q2
Bigote superior: Q3 + 1.5×IQR
Puntos fuera: outliers

Interpretación de outliers:

Errores de medición/entrada
Datos reales extremos (valores genuinos raros)
Fenómenos interesantes (investigar)

Decisión: antes de eliminar, investigar causa. Pueden ser información valiosa.

Solución pregunta 4 — Coeficiente de Determinación

Concepto: R² como proporción de varianza explicada

Fórmula: $$R^2 = \frac{\sum(\hat{y}_i - \bar{y})^2}{\sum(y_i - \bar{y})^2} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$$

Interpretación (R² = 0.75):

Modelo explica el 75% de variabilidad en Y
25% explicado por otros factores + ruido

Lo que NO es:

✗ No es porcentaje de "aciertos" (requiere métrica diferente)
✗ No es correlación (r = √0.75 ≈ 0.866)
✗ No es predicción de error promedio individual

Contexto: 0.75 es bueno en ciencias sociales, pero depende del dominio.

Solución pregunta 5 — Covarianza positiva

Concepto: Dirección de co-variabilidad

Covarianza positiva > 0:

Cuando CPU ↑, Temperatura ↑ (variación directa)
Cuando CPU ↓, Temperatura ↓

Limitaciones:

Magnitud depende de unidades de medida
No indica "fuerza" de relación
Para fuerza: usar correlación de Pearson $r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} \in [-1,1]$

Ejemplo físico:

CPU con alta carga → mayor actividad → más calor generado
Relación directa (positiva)

Nota: la relación perfecta sin error es independiente de si Cov es positiva/negativa.

Solución pregunta 6 — Propiedades de CDF

Concepto: Axiomas de función de distribución acumulada

Propiedades obligatorias de $F(x) = P(X \le x)$:

$\lim_{x \to -\infty} F(x) = 0$
$\lim_{x \to \infty} F(x) = 1$ ✓
$F(x)$ es monótona no-decreciente
$0 \le F(x) \le 1$ para todo $x$

Lo que NO es obligatorio:

Continuidad: distribuciones discretas tienen saltos (ej. Poisson)
Monótona decreciente: es lo opuesto
Solo para normales: existe para cualquier distribución

Aplicación: CDF es herramienta universal en probabilidad.

Solución pregunta 7 — Linealidad de esperanza

Concepto: Operador esperanza es lineal

Propiedad: $$E[aX + b] = a \cdot E[X] + b$$

En este caso: $$E[2X + 5] = 2 \cdot E[X] + 5 = 2(10) + 5 = 20 + 5 = 25$$

Error común: pensar que transformación lineal "no cambia" la esperanza (falso):

$E[2X] = 2 \cdot E[X] \ne E[X]$
$E[X+5] = E[X] + 5 \ne E[X]$

Nota: linealidad es diferente en varianza: $$\text{Var}(aX+b) = a^2 \cdot \text{Var}(X)$$ (multiplicador cuadrático)

Solución pregunta 8 — MGF

Concepto: Función generatriz de momentos

Definición: $$M_X(t) = E[e^{tX}] = \sum_x e^{tx} P(X=x) \text{ (discreta)}$$ $$M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \text{ (continua)}$$

Propiedad clave: derivadas dan momentos $$E[X^n] = \frac{d^n}{dt^n} M_X(t) \bigg|_{t=0} = M_X^{(n)}(0)$$

Utilidad:

Caracterización única: MGF única → distribución única (si existe)
Cálculo de momentos: sin integración directa
Sumas de variables: si X, Y independientes: $M_{X+Y}(t) = M_X(t) \cdot M_Y(t)$

Herramienta teórica fundamental en probabilidad.

Solución pregunta 9 — Distribución Poisson para conteo

Concepto: Modelo de eventos raros en tiempo/espacio

Poisson($\lambda$):

Modela conteo de eventos en intervalo fijo (tiempo, espacio)
Parámetro $\lambda$ = tasa promedio de eventos
$P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}$

Aplicaciones:

Número de emails spam por hora
Llamadas a centro de atención por minuto
Errores por página en un documento
Clicks en sitio web por día

Por qué no otras distribuciones:

Bernoulli/Binomial: evento sí/no por ensayo (no conteo)
Exponencial: tiempo ENTRE eventos (no cantidad)

Supuestos: eventos independientes, tasa constante, no hay eventos simultáneos.

Solución pregunta 10 — Distribución Geométrica

Concepto: Número de ensayos hasta primer éxito/fallo

Distribución Geométrica(p):

$X$ = número de intentos hasta primer éxito
$P(X=k) = (1-p)^{k-1} p$
Esperanza: $E[X] = \frac{1}{p}$

En este problema:

Probabilidad de fallo por intento: $p = 0.01$
Esperanza: $E[X] = \frac{1}{0.01} = 100$ intentos promedio

Comparación con otras:

Binomial: número de éxitos en n ensayos (fijos)
Geométrica: número de ensayos hasta primer éxito
Poisson: conteo de eventos en intervalo

Propiedad: "falta de memoria" igual que exponencial (análogo discreto).

Solución pregunta 11 — Falta de memoria exponencial

Concepto: Propiedad markoviana

Ecuación: $$P(X > s+t | X > s) = P(X > t)$$

Interpretación:

Si un sistema ha funcionado $s$ unidades sin fallar
Probabilidad de fallo en próximas $t$ unidades = igual que si empezara de cero
"Olvida" el tiempo ya transcurrido

Implicación:

No hay "envejecimiento": componente viejo = componente nuevo (en términos de probabilidad futura)

Aplicaciones:

Vida de componentes electrónicos (sin desgaste visible)
Tiempo entre llegadas en colas (proceso de Poisson)
Desintegración radiactiva

Limitación: no modeliza bien componentes con desgaste (usar Weibull).

Solución pregunta 12 — Regla empírica 68-95-99.7

Concepto: Proporción de datos en intervalos para distribución normal

Para $X \sim N(\mu, \sigma^2)$:

Intervalo	Proporción
$[\mu - \sigma, \mu + \sigma]$	68.3%
$[\mu - 2\sigma, \mu + 2\sigma]$	95.4% ✓
$[\mu - 3\sigma, \mu + 3\sigma]$	99.7%

Derivación: usando tabla de distribución normal estándar.

Implicaciones prácticas:

~95% de datos en ±2σ (muy común en tolerancias)
Valores fuera de ±3σ son muy raros (~0.3%)

Nota: regla aplica a distribuciones aproximadamente normales.

Solución pregunta 13 — Estimador insesgado

Concepto: $E[\hat{\theta}] = \theta$

Ejemplo: media muestral $$E[\bar{X}] = E\left[\frac{1}{n}\sum X_i\right] = \frac{1}{n} \sum E[X_i] = \frac{1}{n} \cdot n\mu = \mu$$ ✓ insesgada

Contraejemplo: máximo muestral $$E[X_{\max}] \ne \max(\text{población})$$ ✗ sesgado

Importancia:

Estimador insesgado "apunta" al parámetro en promedio
No significa sin error en caso individual
Insesgadez + baja varianza = buen estimador

Trade-off: puede haber estimador sesgado pero con menor error cuadrático medio.

Solución pregunta 14 — Efecto confianza en amplitud

Concepto: Relación entre nivel de confianza y ancho del IC

Amplitud de IC para media: $$\text{Amplitud} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$$

Multiplicadores: | Confianza | α | $z_{\alpha/2}$ | |---|---|---| | 90% | 0.10 | 1.645 | | 95% | 0.05 | 1.96 | | 99% | 0.01 | 2.576 |

Al aumentar confianza (90% → 95%):

$z_{\alpha/2}$ aumenta (1.645 → 1.96)
Amplitud aumenta (intervalo más ancho)
Trade-off: mayor confianza = menor precisión

Independencia: nivel de confianza se controla separadamente de tamaño muestral.

Solución pregunta 15 — Error Tipo II

Concepto: Falso negativo en contrastes

Tabla de decisiones: | | $H_0$ Verdadera | $H_0$ Falsa | |---|---|---| | Rechazar | Error I (α) | Correcto | | No Rechazar | Correcto | Error II (β) ✗ |

Error Tipo II:

No rechazar $H_0$ siendo $H_0$ falsa
Ejemplo: no detectar enfermedad siendo enfermo
Probabilidad = β (no controlamos directamente)

Potencia del test: $$\text{Potencia} = 1 - \beta = P(\text{rechazar } H_0 | H_0 \text{ falsa})$$

Formas de aumentar potencia:

Aumentar $n$ (reduce β)
Aumentar α (pero aumenta Error I)
Mejorar diseño experimental

Solución pregunta 16 — Decisión con p < α

Concepto: Interpretación de p-valor versus α

Regla de decisión:

Si $p\text{-valor} < \alpha$ → Rechazamos $H_0$ ✓
Si $p\text{-valor} \ge \alpha$ → No rechazamos $H_0$

En este caso: $p = 0.001, \alpha = 0.05$

0.001 < 0.05 ✓
Decisión: Rechazar $H_0$
Interpretación: "Resultado altamente significativo al 5%"

Significado:

Si $H_0$ fuera cierta, observar datos tan extremos ocurriría 0.1% de veces
Muy raro → rechazamos $H_0$

Nota: p-valor muy pequeño ≠ efecto muy grande (depende de tamaño muestral).

Solución pregunta 17 — Test de Kolmogorov-Smirnov

Concepto: Bondad de ajuste a distribución teórica

Propósito: ¿Muestra sigue distribución teórica?

Estadístico: $$D = \max_x |F_{\text{empírica}}(x) - F_{\text{teórica}}(x)|$$

Sensibilidad:

Detecta diferencias en cualquier punto de distribución
Centro (media, localización)
Forma (simetría, curtosis)
Colas

Ventajas vs. Chi-cuadrado:

No requiere agrupar en categorías
Retiene información en cada observación
Aplicable a distribuciones continuas

Hipótesis:

$H_0$: muestra sigue distribución teórica
$H_1$: muestra NO sigue distribución teórica

Aplicación: verificar normalidad de residuos en regresión.

Solución pregunta 18 — Chi-cuadrado para independencia

Concepto: Relación entre dos variables categóricas

Situación: ambas variables nominales (tipo dispositivo, tasa de clics)

Tabla de contingencia: frecuencias observadas en cada combinación

Estadístico: $$\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$

donde $E_{ij} = \frac{(\text{total fila i}) \times (\text{total columna j})}{\text{total general}}$

Hipótesis:

$H_0$: variables independientes
$H_1$: variables asociadas

Por qué NO otras opciones:

Test t: compara medias (requiere variable continua)
ANOVA/F: compara varianzas de grupos
Regresión: requiere relación más específica

Solución pregunta 19 — Grados de libertad Chi-cuadrado

Concepto: Cálculo de gl en bondad de ajuste

Para bondad de ajuste: $$gl = k - 1$$ donde $k$ = número de categorías

En este problema:

k = 5 categorías
gl = 5 - 1 = 4 ✓

Corrección por parámetros estimados:

Si estimamos $m$ parámetros: $gl = k - 1 - m$
Ejemplo: estimamos media y varianza (m=2) → gl = 5 - 1 - 2 = 2

Razón teórica:

Una restricción (suma de frecuencias = n) reduce 1 gl
Cada parámetro estimado reduce adicional gl

Nota: para independencia (tabla r×c): $gl = (r-1)(c-1)$

Solución pregunta 20 — Distribución F

Concepto: Cociente de varianzas

Definición: $$F_{\nu_1, \nu_2} = \frac{\chi^2_{\nu_1} / \nu_1}{\chi^2_{\nu_2} / \nu_2}$$

(cociente de dos Chi-cuadrado normalizadas por sus grados de libertad)

Usos principales:

Test de igualdad de varianzas: $\frac{s_1^2}{s_2^2} \sim F$
ANOVA: comparar medias de múltiples grupos vía análisis de varianzas
Regresión: test global de significación

Aplicación en IA:

Comparar estabilidad de algoritmos
Algoritmo con menor varianza = más consistente
ANOVA: "¿Hay diferencias significativas entre 3+ algoritmos?"

Propiedades:

Rango: $[0, \infty)$
Distribución sesgada positiva
Dependencia en dos parámetros: $\nu_1$ (numerador), $\nu_2$ (denominador)

Solución pregunta 21 — Teorema Central del Límite

Concepto: Normalidad asintótica de media muestral

Enunciado formal: Si $X_1, X_2, ..., X_n$ son iid con media $\mu$ y varianza $\sigma^2$ finita:

\[\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1) \text{ cuando } n \to \infty\]

Equivalentemente: $$\bar{X}_n \approx N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{para } n \text{ grande}$$

Criterio práctico: $n \ge 30$

Importancia en inferencia:

Justifica métodos normales incluso con datos no-normales
Base de intervalos de confianza para medias
Tests de hipótesis para medias
Explica estabilidad de media muestral

Ejemplo:

Salarios (muy sesgados) → media de 100 personas → ≈ Normal
Permite usar z-test aunque datos originales sean sesgados

Solución pregunta 22 — Escala de temperatura en R

Concepto: Asignación de vector en R

Función c() (concatenate):

Combina elementos en vector
c(10, 20, 30) crea vector [10, 20, 30]

Alternativas incorrectas:

list(): crea lista (estructura recursiva, no vector simple)
vector(): requiere argumentos vector(mode, length), ej: vector("numeric", 3)
datos =: asignación con = funciona pero <- es estándar R

Operaciones comunes:

datos <- c(10, 20, 30)
mean(datos)       # 20
sd(datos)         # 10
length(datos)     # 3

Buena práctica: usar <- en lugar de = para consistencia.

Solución pregunta 23 — Función mean() en R

Concepto: Funciones descriptivas básicas en R

Familia de funciones:

mean(x)    # Media aritmética ✓
median(x)  # Mediana (valor central)
sd(x)      # Desviación típica (estándar)
var(x)     # Varianza
min(x)     # Mínimo
max(x)     # Máximo
sum(x)     # Suma

No existen:

average() en base R (SAS usa este nombre)
En R es mean()

Ejemplo:

datos <- c(10, 20, 30)
mean(datos)  # 20
sd(datos)    # 10

Nota: sd() divide por n-1 (varianza muestral).

Solución pregunta 24 — Funciones de distribución en R

Concepto: Familia de funciones para distribuciones en R

Nomenclatura: [prefijo][nombre distribución]

Prefijos:

d: density (PDF o PMF)
p: probability (CDF, $P(X \le x)$) ✓
q: quantile (inversa de CDF, p-ésimo cuantil)
r: random (generar valores aleatorios)

Ejemplos para Chi-cuadrado:

dchisq(2, 5)  # PDF en x=2, gl=5
pchisq(2, 5)  # P(X≤2), gl=5 ✓
qchisq(0.95, 5)  # x tal que P(X≤x)=0.95
rchisq(100, 5)  # 100 valores aleatorios

Uso: pchisq(2, 5) devuelve la probabilidad acumulada.

Solución pregunta 25 — Función t.test() en R

Concepto: Test t de Student en R

Función:

t.test(x, conf.level = 0.95)

Devuelve:

Estadístico t: valor observado
p-valor: probabilidad bajo $H_0$
IC 95%: intervalo de confianza para media
Media muestral: $\bar{x}$
Alternativa: una o dos colas

Salida típica:

t = 2.345, df = 99, p-value = 0.0205
95 percent confidence interval:
 [1.23, 5.67]

No devuelve:

✗ Histograma (usar hist())
✗ Correlación (usar cor())
✗ Solo varianza (pero aparece en output)

Variantes:

t.test(x, y)  # test t de dos muestras
t.test(x, mu=100)  # test contra valor fijo

Solución pregunta 26 — Función plot() en R

Concepto: Visualización en R base

Funciones comunes:

plot(x, y)       # Diagrama de dispersión (scatter plot) ✓
hist(x)          # Histograma
boxplot(x, y)    # Diagrama de cajas
barplot(x)       # Gráfico de barras (para categóricas)
lines(x, y)      # Líneas (superponer en plot existente)

Ejemplo:

x <- rnorm(100)
y <- 2*x + rnorm(100)
plot(x, y)  # Muestra relación lineal

Opciones de plot():

plot(x, y, main="Título", xlab="X", ylab="Y", col="blue")

Para paquete ggplot2: ggplot() + geom_point()

Solución pregunta 27 — Función sigmoide en IA

Concepto: Modelado de probabilidades

Función sigmoide: $$\sigma(z) = \frac{1}{1 + e^{-z}}$$

Propiedades:

Rango: $(0, 1)$ ✓ (ideal para probabilidades)
Derivada: $\sigma'(z) = \sigma(z)(1-\sigma(z))$
Monótona creciente
S-shape

Uso en clasificación binaria:

Neurona de salida con sigmoide
Valor ∈ [0, 1] → interpretado como P(clase=1)
Ejemplo: 0.8 → 80% probabilidad de clase positiva

Alternativas:

Tanh (similar, rango [-1, 1])
ReLU (capas ocultas)
Softmax (multi-clase)

Razón: transforma suma ponderada (-∞, ∞) en probabilidad [0, 1].

Solución pregunta 28 — Garbage In, Garbage Out (GIGO)

Concepto: Dependencia crítica en calidad de datos

Principio:

Datos malos → modelo malo (incluso con algoritmo perfecto)
Datos buenos + algoritmo bueno → modelo bueno

Manifestaciones:

Datos sesgados: modelo aprende sesgo
Datos ruidosos: sobreajuste, baja generalización
Datos incompletos: pérdida de información
Datos injustos: modelo discriminador

Consecuencias:

Baja precisión en producción
Predicciones injustas (bias)
Errores en subgrupos

Solución: Análisis Exploratorio de Datos (EDA)

Detectar anomalías, sesgos, patrones
Limpiar y transformar datos
Validación en test set

Solución pregunta 29 — Estandarización en kNN

Concepto: Escalado de variables en algoritmos de distancia

Problema: sin estandarizar

Variable 1: rango [0, 1000]
Variable 2: rango [0, 1]
Distancia euclidiana dominada por Variable 1
Variable 2 prácticamente ignorada

Estandarización: $z_i = \frac{x_i - \mu}{\sigma}$

Ambas variables: media 0, sd 1
Rango típico: [-3, 3]
Contribución equilibrada

Algoritmos afectados:

kNN: basado en distancia ✓
k-means: basado en distancia ✓
SVM: basado en distancia ✓
Árboles/Random Forest: menos sensibles (basados en divisiones)

Nota: no es necesario si todas variables tienen escala similar.

Solución pregunta 30 — Potencia del test vs. tamaño muestral

Concepto: Relación entre n y capacidad de detección

Definición: $$\text{Potencia} = 1 - \beta = P(\text{rechazar } H_0 | H_0 \text{ falsa})$$

Al aumentar n:

Varianza muestral $\frac{\sigma^2}{n}$ disminuye
Intervalo de confianza más estrecho
Estadístico t/z más extremo
Capacidad de detectar efecto real aumenta
Potencia aumenta (1 - β sube)

Ejemplo:

Test pequeño (n=10): potencia 0.4 (40% chance detectar efecto real)
Test grande (n=100): potencia 0.9 (90% chance detectar efecto real)

Trade-off Error I/II:

Aumentar n reduce AMBOS α y β
Sin aumento de n: disminuir α requiere aumentar β (bad)

Diseño: con análisis de potencia, determinar n requerida.

Intervalo	Proporción
\([\mu - \sigma, \mu + \sigma]\)	68.3%
\([\mu - 2\sigma, \mu + 2\sigma]\)	95.4% ✓
\([\mu - 3\sigma, \mu + 3\sigma]\)	99.7%

Práctica 7 Variante v2 (incl. R)

Bloque 1: Análisis Descriptivo y Escalas (Unidades 1-2)

Pregunta 1

Pregunta 2

Pregunta 3

Pregunta 4

Pregunta 5

Bloque 2: Variables Aleatorias y Modelos (Unidades 3-4)

Pregunta 6

Pregunta 7

Pregunta 8

Pregunta 9

Pregunta 10

Pregunta 11

Pregunta 12

Bloque 3: Inferencia Estadística (Unidades 5-6)

Pregunta 13

Pregunta 14

Pregunta 15

Pregunta 16

Pregunta 17

Pregunta 18

Pregunta 19

Pregunta 20

Bloque 4: Programación y Software (R)

Pregunta 21

Pregunta 22

Pregunta 23

Pregunta 24

Pregunta 25

Bloque 5: Conceptos Integradores (IA)

Pregunta 26

Pregunta 27

Pregunta 28

Pregunta 29

Pregunta 30

Progreso del cuestionario

¡Cuestionario completado!

Soluciones Desarrolladas