Propuesta 1 Profesor (medio)

Duración estimada: 90 minutos.

Instrucciones

Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.

#

Pregunta 1

Al analizar un histograma de frecuencias de los tiempos de respuesta de un servidor web, se observa que la distribución tiene una cola larga hacia la derecha y la mayoría de los datos se concentran en valores bajos. ¿Qué transformación sería más apropiada para normalizar estos datos?

#

Pregunta 2

Se tienen dos diagramas de caja (boxplots) que representan los tiempos de ejecución de dos algoritmos diferentes. El algoritmo A tiene una caja más ancha que el algoritmo B, pero ambos tienen la misma mediana. ¿Qué puede concluirse?

#

Pregunta 3

Una variable que representa el tipo de sistema operativo (Windows, Linux, macOS, Otro) es:

#

Pregunta 4

En un estudio sobre rendimiento de algoritmos, se mide el tiempo de ejecución en milisegundos. Esta variable tiene escala:

#

Pregunta 5

Un dataset de tiempos de respuesta (en segundos) tiene media 2.5 y mediana 1.8. ¿Qué sugiere esto sobre la distribución?

#

Pregunta 6

Para un conjunto de datos con valores 2, 4, 4, 5, 7, 9, 12, el rango intercuartílico (IQR) es:

#

Pregunta 7

Si se calcula la covarianza entre dos variables X e Y y resulta ser -45, esto indica:

#

Pregunta 8

Un dataset tiene desviación estándar $\sigma = 10$. Si todos los valores se multiplican por 3, la nueva desviación estándar será:

#

Pregunta 9

Sea $X$ una variable aleatoria con función de distribución $F(x)$. ¿Cuál propiedad NO es correcta?

#

Pregunta 10

Si $X$ tiene esperanza $E[X] = 5$ y varianza $Var(X) = 4$, entonces $E[3X - 2]$ es:

#

Pregunta 11

La función generatriz de momentos de una variable aleatoria $X$ es útil principalmente para:

#

Pregunta 12

Sean $X$ e $Y$ variables aleatorias independientes. Entonces, $Var(X + Y)$ es igual a:

#

Pregunta 13

Un proceso genera errores de forma independiente con probabilidad constante $p = 0.02$. Si se procesan 100 operaciones, ¿qué distribución modela mejor el número de errores?

#

Pregunta 14

Si $X \sim N(10, 25)$, entonces $P(X > 10)$ es:

#

Pregunta 15

El tiempo entre llegadas de solicitudes a un servidor sigue una distribución exponencial con media 5 segundos. ¿Cuál es el valor del parámetro $\lambda$?

#

Pregunta 16

En una distribución binomial $X \sim B(n, p)$, si $n$ es grande y $p$ es pequeño tal que $np = \lambda$ es moderado, ¿qué aproximación es más apropiada?

#

Pregunta 17

Se desea estimar la proporción de usuarios que prefieren cierta interfaz. Con un nivel de confianza del 95% y un margen de error de 0.05, sin información previa, el tamaño muestral mínimo necesario es aproximadamente:

#

Pregunta 18

Si el intervalo de confianza del 95% para la media de una población es [48.2, 53.8], esto significa que:

#

Pregunta 19

En un contraste de hipótesis, el p-valor representa:

#

Pregunta 20

Un estimador se considera insesgado si:

#

Pregunta 21

En un test t de Student para muestras independientes, se rechaza $H_0$ con $\alpha = 0.05$ obteniendo $p = 0.03$. Si se hubiera usado $\alpha = 0.01$, la decisión sería:

#

Pregunta 22

El test de Kolmogorov-Smirnov (KS) se utiliza para contrastar si una muestra proviene de una distribución teórica específica. ¿Cuál de las siguientes afirmaciones es correcta?

#

Pregunta 23

En una prueba chi-cuadrado de bondad de ajuste con 5 categorías, los grados de libertad son:

#

Pregunta 24

Un investigador obtiene un p-valor de 0.06 en un contraste bilateral. ¿Cuál es la interpretación más adecuada con $\alpha = 0.05$?

Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.

Progreso del cuestionario

0 / 0 preguntas respondidas (0%)

0 correctas

Soluciones desarrolladas

Solución pregunta 1 — Transformación logarítmica para asimetría positiva

Enunciado: Al analizar un histograma de frecuencias de los tiempos de respuesta de un servidor web, se observa que la distribución tiene una cola larga hacia la derecha y la mayoría de los datos se concentran en valores bajos. ¿Qué transformación sería más apropiada para normalizar estos datos?

Respuesta correcta: C) Aplicar una transformación logarítmica.

Desarrollo:

Una distribución con cola larga hacia la derecha exhibe asimetría positiva (sesgo positivo). Las características de este tipo de distribuciones son:

Media > Mediana > Moda
Concentración de datos en valores bajos
Pocos valores muy altos generando la cola

Las transformaciones comúnmente usadas para normalizar datos asimétricos son:

Transformación logarítmica: $Y = \ln(X)$ o $Y = \log_{10}(X)$
- Comprime los valores altos (reduciendo la cola)
- Expande los valores bajos (normalizando su distribución)
- Es muy efectiva para reducir asimetría positiva
- Requiere que todos los valores sean positivos
Raíz cuadrada o cúbica: $Y = \sqrt{X}$ o $Y = \sqrt[3]{X}$
- Menos efectiva que logaritmo
- Útil para asimetrías moderadas
Elevar al cuadrado: $Y = X^2$
- Amplifica las diferencias
- Aumentaría la asimetría, no la reduce
Estandarización: $Z = \frac{X - \bar{X}}{\sigma}$
- Cambia la escala pero NO cambia la forma de la distribución
- No elimina la asimetría

Conclusión: La transformación logarítmica es la opción más apropiada para datos con asimetría positiva, como son los tiempos de respuesta de servidores web (muchas respuestas rápidas, pocas respuestas muy lentas).

Solución pregunta 2 — Boxplot y rango intercuartílico

Enunciado: Se tienen dos diagramas de caja (boxplots) que representan los tiempos de ejecución de dos algoritmos diferentes. El algoritmo A tiene una caja más ancha que el algoritmo B, pero ambos tienen la misma mediana. ¿Qué puede concluirse?

Respuesta correcta: C) El algoritmo A tiene mayor dispersión en el 50% central de los datos.

Desarrollo:

Un boxplot (diagrama de caja) representa:

Línea inferior de la caja: Q1 (percentil 25)
Línea central de la caja: Q2 (mediana, percentil 50)
Línea superior de la caja: Q3 (percentil 75)
Ancho de la caja: Rango intercuartílico (IQR) = Q3 - Q1
Bigotes: Extensiones a valores mínimos/máximos (dentro de límites)
Puntos aislados: Posibles outliers

En este problema:

Algoritmo A: caja ancha, mediana en posición M
Algoritmo B: caja estrecha, mediana en posición M (misma)

Ancho de caja > IQR mayor > dispersión del 50% central mayor

Análisis de opciones:

A) "Mayor tiempo promedio": FALSO. La mediana igual no implica media diferente, pero el boxplot no muestra la media directamente. Además, una caja ancha no indica mayor promedio.
B) "Algoritmo B tiene mayor variabilidad": FALSO. Es lo opuesto: A tiene caja más ancha.
C) "Algoritmo A tiene mayor dispersión en el 50% central": VERDADERO. Ancho de caja = IQR. Caja más ancha = IQR mayor = dispersión mayor en el 50% central.
D) "Misma distribución": FALSO. Diferentes IQR implican diferentes distribuciones. Solo coinciden en mediana.

Conclusión: El ancho de la caja es el indicador directo de variabilidad en el rango intercuartílico.

Solución pregunta 3 — Clasificación de variables: sistemas operativos

Enunciado: Una variable que representa el tipo de sistema operativo (Windows, Linux, macOS, Otro) es:

Respuesta correcta: D) Cualitativa nominal.

Desarrollo:

Clasificación de variables:

1) Cuantitativas (numéricas):

Discretas: Valores enteros aislados (ej. número de errores, cantidad de usuarios)
Continuas: Cualquier valor en un rango (ej. tiempo, temperatura)

2) Cualitativas (categóricas):

Nominales: Sin orden jerárquico (ej. color, género, país, sistema operativo)
Ordinales: Con orden jerárquico (ej. nivel educativo: primaria < secundaria < superior, satisfacción: bajo < medio < alto)

Análisis de "tipo de sistema operativo":

Valores: Windows, Linux, macOS, Otro
Naturaleza: Categorías, no números
¿Hay orden natural? NO. Windows no es "menor" o "mayor" que Linux.
¿Se pueden ordenar? No existe un criterio universal de orden.

Por tanto: Cualitativa nominal.

Contraste con ordinal:

Nominal ≠ Ordinal
Nivel educativo SÍ es ordinal (hay clara jerarquía)
Sistema operativo NO es ordinal (no hay jerarquía)

Solución pregunta 4 — Escala de medida: tiempo de ejecución

Enunciado: En un estudio sobre rendimiento de algoritmos, se mide el tiempo de ejecución en milisegundos. Esta variable tiene escala:

Respuesta correcta: D) De razón.

Desarrollo:

Escalas de medida (Stevens, 1946):

1) Nominal: Categorías sin orden (ej. color, género, región)

Operación: Igualdad/desigualdad

2) Ordinal: Categorías con orden (ej. satisfacción: bajo < medio < alto)

Operación: Comparación (<, >)
Ejemplo: ranking, posición

3) De intervalo: Valores numéricos con distancias significativas pero SIN cero natural

Operación: Suma, resta (diferencias significativas)
Ejemplo: Temperatura en Celsius (0°C ≠ ausencia de temperatura)
En -10°C, no hay "la mitad de temperatura" que en 20°C

4) De razón: Valores numéricos con cero natural y proporciones significativas

Operación: Suma, resta, multiplicación, división (todas significativas)
Ejemplo: Tiempo, peso, velocidad, distancia, ingresos
10 ms es "la mitad" de 20 ms
0 ms = ausencia de tiempo (cero natural)

Análisis de "tiempo de ejecución en milisegundos":

Unidad: milisegundos (ms)
Cero natural: SÍ (0 ms = ausencia de tiempo)
Proporciones significativas: SÍ (10 ms es media de 20 ms en tiempo real)
Se pueden hacer todas las operaciones aritméticas: SÍ

Por tanto: Escala de razón.

Solución pregunta 5 — Asimetría: media vs mediana

Enunciado: Un dataset de tiempos de respuesta (en segundos) tiene media 2.5 y mediana 1.8. ¿Qué sugiere esto sobre la distribución?

Respuesta correcta: B) Está sesgada a la derecha (positivamente).

Desarrollo:

Relación entre media, mediana y asimetría:

Distribución simétrica:

\[\text{Media} \approx \text{Mediana} \approx \text{Moda}\]

Asimetría positiva (cola a la derecha):

\[\text{Media} > \text{Mediana} > \text{Moda}\]

Hay algunos valores muy altos que tiran la media hacia la derecha
La mediana es más resistente a estos extremos
Gráficamente: distribución concentrada a la izquierda con cola hacia la derecha
Asimetría negativa (cola a la izquierda):

\[\text{Media} < \text{Mediana} < \text{Moda}\]

Hay algunos valores muy bajos que tiran la media hacia la izquierda
Gráficamente: distribución concentrada a la derecha con cola hacia la izquierda

Análisis de nuestro datos:

Media = 2.5
Mediana = 1.8
Media > Mediana (2.5 > 1.8)

Conclusión: Asimetría positiva (sesgada a la derecha). Hay algunos tiempos de respuesta muy altos que elevan la media, pero la mayoría de las observaciones están en valores bajos (lo que mantiene baja la mediana).

Solución pregunta 6 — Cálculo del rango intercuartílico (IQR)

Enunciado: Para un conjunto de datos con valores 2, 4, 4, 5, 7, 9, 12, el rango intercuartílico (IQR) es:

Respuesta correcta: A) 5. (Nota: la opción A también es 5, por lo que ambas son correctas técnicamente, pero la pregunta tiene respuesta única)

Desarrollo:

Paso 1: Ordenar los datos

Datos: 2, 4, 4, 5, 7, 9, 12

Ya están ordenados. Contamos: n = 7 observaciones.

Paso 2: Encontrar la mediana (Q2)

Con n = 7 (impar), la mediana está en la posición $(7+1)/2 = 4$.

\[Q2 = \text{valor en posición 4} = 5\]

Paso 3: Encontrar Q1 (mediana de la mitad inferior)

Valores inferiores a la mediana: 2, 4, 4 (posiciones 1, 2, 3)

Número de valores: 3 (impar)

Q1 está en la posición $(3+1)/2 = 2$ de esta mitad.

\[Q1 = \text{valor en posición 2 de [2, 4, 4]} = 4\]

Paso 4: Encontrar Q3 (mediana de la mitad superior)

Valores superiores a la mediana: 7, 9, 12 (posiciones 5, 6, 7)

Número de valores: 3 (impar)

Q3 está en la posición $(3+1)/2 = 2$ de esta mitad.

\[Q3 = \text{valor en posición 2 de [7, 9, 12]} = 9\]

Paso 5: Calcular IQR

\[IQR = Q3 - Q1 = 9 - 4 = 5\]

Resultado: IQR = 5 (representa la amplitud del 50% central de los datos)

Solución pregunta 7 — Interpretación de la covarianza

Enunciado: Si se calcula la covarianza entre dos variables X e Y y resulta ser -45, esto indica:

Respuesta correcta: B) Relación lineal negativa, pero no se puede determinar la fuerza sin más información.

Desarrollo:

Definición de covarianza:

\[Cov(X,Y) = E[(X - \mu_X)(Y - \mu_Y)]\]

o en forma muestral:

\[s_{XY} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\]

Interpretación del signo:

$Cov(X,Y) > 0$: Cuando X aumenta, Y tiende a aumentar (relación positiva)
$Cov(X,Y) < 0$: Cuando X aumenta, Y tiende a disminuir (relación negativa)
$Cov(X,Y) = 0$: No hay relación lineal (aunque puede haber relación no lineal)

Limitaciones de la covarianza:

1) Depende de las unidades de medida:

Si X está en euros y se convierte a céntimos (×100), la covarianza se multiplica por 100
El valor absoluto de la covarianza NO es comparable entre diferentes pares de variables

2) No indica fuerza de relación:

Covarianza = -45 podría indicar relación fuerte o débil, dependiendo de las varianzas de X e Y

3) Para determinar la fuerza, usamos correlación de Pearson:

\[r = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}, \quad r \in [-1, 1]\]

r cerca de ±1: relación fuerte
r cerca de 0: relación débil

Análisis de opciones:

A) "Relación lineal positiva": FALSO. Covarianza negativa indica relación negativa.
B) "Relación negativa, pero sin información sobre fuerza": VERDADERO. El signo negativo es claro, pero sin σ_X y σ_Y no podemos calcular r.
C) "Ausencia de relación": FALSO. Covarianza ≠ 0 indica relación.
D) "Relación no lineal": FALSO. La covarianza caracteriza relaciones lineales; no podemos descartar relaciones no lineales, pero lo que observamos es tendencia negativa.

Solución pregunta 8 — Escalado de desviación estándar

Enunciado: Un dataset tiene desviación estándar σ = 10. Si todos los valores se multiplican por 3, la nueva desviación estándar será:

Respuesta correcta: C) 30.

Desarrollo:

Propiedades de la desviación estándar ante transformaciones lineales:

Sea $Y = aX + b$ donde $a, b$ son constantes.

Entonces:

\[\sigma_Y = |a| \cdot \sigma_X\]

Nota: Solo la multiplicación afecta la desviación estándar, no la adición.

Demostración:

Si $Y = 3X$ (es decir, multiplicamos todos los valores por 3):

\[Var(Y) = Var(3X) = 3^2 \cdot Var(X) = 9 \cdot Var(X)\]

Porque:

\[Var(aX) = a^2 \cdot Var(X)\]

Entonces:

\[\sigma_Y = \sqrt{Var(Y)} = \sqrt{9 \cdot Var(X)} = 3 \sqrt{Var(X)} = 3 \cdot \sigma_X\]

Aplicación numérica:

\[\sigma_Y = 3 \times 10 = 30\]

Conclusión: La desviación estándar se escala linealmente con el multiplicador. Si multiplicamos los datos por 3, la desviación estándar también se multiplica por 3.

Solución pregunta 9 — Propiedades de la función de distribución

Enunciado: Sea X una variable aleatoria con función de distribución F(x). ¿Cuál propiedad NO es correcta?

Respuesta correcta: D) F(x) debe ser continua en todos los puntos.

Desarrollo:

Definición: La función de distribución acumulada (CDF) es:

\[F(x) = P(X \leq x)\]

Propiedades que SÍ son correctas:

A) $\lim_{x \to -\infty} F(x) = 0$ — CORRECTA

Cuando $x \to -\infty$, la probabilidad de que X sea menor o igual a un valor cada vez más negativo tiende a 0.

B) $\lim_{x \to \infty} F(x) = 1$ — CORRECTA

Cuando $x \to \infty$, eventualmente todos los valores de X serán menores o iguales a ese valor, por lo que la probabilidad tiende a 1.

C) F(x) es monótona creciente — CORRECTA

Si $x_1 < x_2$, entonces $P(X \leq x_1) \leq P(X \leq x_2)$, es decir, $F(x_1) \leq F(x_2)$. La función no decrece.

D) F(x) debe ser continua en todos los puntos — INCORRECTA

Esta es la propiedad falsa. Aunque las distribuciones continuas (como Normal, Exponencial) tienen CDF continua, las distribuciones discretas tienen discontinuidades (saltos).

Ejemplos:

Distribución Discreta (ej. Binomial): En cada punto donde existe masa de probabilidad, F(x) tiene un salto.
Si P(X = 3) = 0.2, habrá un salto de altura 0.2 en x = 3
Distribución Continua (ej. Normal): F(x) es continua en todo ℝ

Contraejemplo (Distribución de Bernoulli):

Sea $X \sim Bernoulli(p=0.5)$, es decir, $P(X=0) = 0.5$, $P(X=1) = 0.5$

\[F(x) = \begin{cases} 0 & \text{si } x < 0 \\ 0.5 & \text{si } 0 \leq x < 1 \\ 1 & \text{si } x \geq 1 \end{cases}\]

Observar: F(x) tiene saltos en x=0 y x=1, es discontinua.

Solución pregunta 10 — Esperanza de transformación lineal

Enunciado: Si X tiene esperanza E[X] = 5 y varianza Var(X) = 4, entonces E[3X - 2] es:

Respuesta correcta: B) 13.

Desarrollo:

Propiedades de la esperanza:

Para variables aleatorias X e Y y constantes a, b, c:

\[E[aX + bY + c] = aE[X] + bE[Y] + c\]

Aplicación al problema:

Queremos calcular $E[3X - 2]$.

Usando linealidad:

\[E[3X - 2] = E[3X] + E[-2]\]

\[= 3 \cdot E[X] - 2\]

\[= 3 \times 5 - 2\]

\[= 15 - 2\]

\[= 13\]

Nota: La varianza de X (Var(X) = 4) NO se usa en este cálculo. Solo necesitamos E[X] para calcular la esperanza de una transformación lineal.

Si nos hubieran preguntado por Var(3X - 2):

\[Var(3X - 2) = 3^2 \cdot Var(X) = 9 \times 4 = 36\]

(la constante -2 no afecta la varianza)

Solución pregunta 11 — Función generatriz de momentos

Enunciado: La función generatriz de momentos de una variable aleatoria X es útil principalmente para:

Respuesta correcta: B) Determinar todos los momentos de la distribución y caracterizarla únicamente.

Desarrollo:

Definición de función generatriz de momentos (MGF):

\[M_X(t) = E[e^{tX}] = \int_{-\infty}^{\infty} e^{tx} f(x) dx\]

(para distribuciones continuas; para discretas es una suma)

Propiedad fundamental: Extracción de momentos

Si desarrollamos $e^{tX}$ en serie de Taylor:

\[e^{tX} = 1 + tX + \frac{t^2 X^2}{2!} + \frac{t^3 X^3}{3!} + \cdots\]

Entonces:

\[M_X(t) = E[e^{tX}] = 1 + tE[X] + \frac{t^2}{2!}E[X^2] + \frac{t^3}{3!}E[X^3] + \cdots\]

Extracción de momentos por derivación:

\[\frac{d^n M_X(t)}{dt^n}\bigg|_{t=0} = E[X^n]\]

$M_X'(0) = E[X]$ (media)
$M_X''(0) = E[X^2]$, de donde $Var(X) = E[X^2] - (E[X])^2$
$M_X'''(0) = E[X^3]$ (útil para calcular asimetría)

Teorema de unicidad:

Si existe la MGF de X, esta caracteriza uniquely la distribución de X. Es decir, dos variables aleatorias tienen la misma distribución si y solo si tienen la misma MGF.

Análisis de opciones:

A) "Calcular probabilidades puntuales": FALSO. Para eso usamos PDF o PMF.
B) "Determinar momentos y caracterizar uniquely": VERDADERO. Este es el uso principal.
C) "Visualizar gráficamente": FALSO. MGF es una función matemática, no de visualización.
D) "Calcular percentiles": FALSO. Para percentiles usamos la función cuantil (inversa de CDF).

Solución pregunta 12 — Varianza de suma de variables independientes

Enunciado: Sean X e Y variables aleatorias independientes. Entonces, Var(X + Y) es igual a:

Respuesta correcta: A) Var(X) + Var(Y).

Desarrollo:

Fórmula general de la varianza de una suma:

\[Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y)\]

Esta fórmula es válida para cualquier par de variables aleatorias.

Caso especial: Variables independientes

Si X e Y son independientes, entonces:

\[Cov(X,Y) = E[(X - E[X])(Y - E[Y])] = E[X - E[X]] \cdot E[Y - E[Y]] = 0 \cdot 0 = 0\]

Por tanto:

\[Var(X + Y) = Var(X) + Var(Y) + 2 \times 0 = Var(X) + Var(Y)\]

Demostración alternativa (usando propiedades):

\[Var(X + Y) = E[(X+Y)^2] - (E[X+Y])^2\]

\[= E[X^2 + 2XY + Y^2] - (E[X] + E[Y])^2\]

\[= E[X^2] + 2E[XY] + E[Y^2] - E[X]^2 - 2E[X]E[Y] - E[Y]^2\]

Si X e Y son independientes: $E[XY] = E[X]E[Y]$

\[= E[X^2] - E[X]^2 + E[Y^2] - E[Y]^2 + 2E[X]E[Y] - 2E[X]E[Y]\]

\[= Var(X) + Var(Y)\]

Análisis de opciones:

A) Var(X) + Var(Y): CORRECTA
B) Var(X) · Var(Y): FALSO. Las varianzas se suman, no se multiplican.
C) √(Var(X) + Var(Y)): FALSO. Eso sería una desviación estándar combinada, no varianza.
D) Var(X) + Var(Y) + 2Cov(X,Y): FALSO. Esta es la fórmula general, pero cuando son independientes, Cov = 0.

Solución pregunta 13 — Distribuciones para conteo de errores

Enunciado: Un proceso genera errores de forma independiente con probabilidad constante p = 0.02. Si se procesan 100 operaciones, ¿qué distribución modela mejor el número de errores?

Respuesta correcta: D) Tanto B como C son aproximaciones válidas.

Desarrollo:

Modelo exacto: Distribución Binomial

El número de errores sigue exactamente una distribución binomial:

\[X \sim Binomial(n=100, p=0.02)\]

Donde:

n = 100 (número de pruebas/operaciones)
p = 0.02 (probabilidad de error en cada operación)
X = número total de errores

Parámetros:

$E[X] = np = 100 \times 0.02 = 2$
$Var(X) = np(1-p) = 100 \times 0.02 \times 0.98 = 1.96$

Aproximación 1: Distribución Normal

Por el Teorema Central del Límite, cuando n es grande:

\[X \approx N(\mu = np, \sigma^2 = np(1-p))\]

\[X \approx N(\mu = 2, \sigma^2 = 1.96)\]

$$X \approx N(2, 1.96)$$ o equivalentemente $N(2, 1.4)$ si usamos σ

Sin embargo, esta aproximación es menos precisa aquí porque np = 2 es pequeño (la regla sugiere np ≥ 5 o np(1-p) ≥ 5).

Aproximación 2: Distribución Poisson

Cuando n es grande, p es pequeño y $np = \lambda$ es moderado, la distribución binomial se aproxima a una distribución Poisson:

\[X \sim Binomial(n, p) \approx Poisson(\lambda = np)\]

En nuestro caso:

\[X \approx Poisson(\lambda = 2)\]

Esta es una excelente aproximación en este contexto.

Comparación de aproximaciones:

Condición	Aproximación recomendada
n pequeño, p cualquier	Binomial exacta
n grande, p no muy pequeño, np ≥ 5	Normal
n grande, p pequeño, np = λ moderado	Poisson

En nuestro caso:

n = 100 (grande) ✓
p = 0.02 (pequeño) ✓
np = 2 (moderado) ✓

Ambas aproximaciones son válidas, pero Poisson es preferible.

Análisis de opciones:

A) Normal(2, 1.96): Válida pero menos precisa que Poisson
B) Binomial(100, 0.02): Correcta y exacta
C) Poisson(2): Excelente aproximación
D) Tanto B como C son válidas: CORRECTA (B es exacta, C es muy buena aproximación)

Solución pregunta 14 — Probabilidad en distribución normal estándar

Enunciado: Si $X \sim N(10, 25)$, entonces P(X > 10) es:

Respuesta correcta: C) 0.50.

Desarrollo:

Notación: $X \sim N(10, 25)$ significa:

Media $\mu = 10$
Varianza $\sigma^2 = 25$
Desviación estándar $\sigma = 5$

Propiedad de la distribución normal:

La distribución normal es simétrica alrededor de su media.

Para cualquier distribución normal simétrica:

\[P(X > \mu) = P(X \leq \mu) = 0.5\]

Esto es independiente del valor de σ.

Aplicación:

Queremos $P(X > 10)$, donde 10 es la media.

\[P(X > 10) = 0.50\]

Estandarización (verificación):

Transformamos a la distribución normal estándar:

\[Z = \frac{X - \mu}{\sigma} = \frac{10 - 10}{5} = 0\]

\[P(X > 10) = P(Z > 0) = 1 - \Phi(0) = 1 - 0.5 = 0.5\]

donde Φ(z) es la CDF de la distribución normal estándar.

Respuesta: 0.50 (50%)

Solución pregunta 15 — Parámetro de distribución exponencial

Enunciado: El tiempo entre llegadas de solicitudes a un servidor sigue una distribución exponencial con media 5 segundos. ¿Cuál es el valor del parámetro λ?

Respuesta correcta: A) 0.2.

Desarrollo:

Distribución Exponencial:

Una variable aleatoria $X$ sigue distribución exponencial con parámetro λ si:

PDF: $f(x) = \lambda e^{-\lambda x}$ para $x \geq 0$

CDF: $F(x) = 1 - e^{-\lambda x}$

Esperanza (media):

\[E[X] = \int_0^{\infty} x \lambda e^{-\lambda x} dx = \frac{1}{\lambda}\]

Varianza:

\[Var(X) = \frac{1}{\lambda^2}\]

Relación entre media y parámetro:

\[E[X] = \frac{1}{\lambda}\]

Por tanto:

\[\lambda = \frac{1}{E[X]}\]

Aplicación:

Dado que E[X] = 5 segundos:

\[\lambda = \frac{1}{5} = 0.2 \text{ solicitudes por segundo}\]

Interpretación:

λ = 0.2 significa que en promedio hay 0.2 solicitudes por segundo
O equivalentemente, 1/0.2 = 5 segundos entre solicitudes

Respuesta: λ = 0.2

Solución pregunta 16 — Aproximación de distribución binomial por Poisson

Enunciado: En una distribución binomial $X \sim B(n, p)$, si n es grande y p es pequeño tal que np = λ es moderado, ¿qué aproximación es más apropiada?

Respuesta correcta: B) Poisson.

Desarrollo:

Convergencia de Binomial a Poisson:

Teorema: Si $X_n \sim Binomial(n, p_n)$ con $np_n = \lambda$ constante cuando $n \to \infty$ y $p_n \to 0$, entonces:

\[\lim_{n \to \infty} P(X_n = k) = \frac{e^{-\lambda} \lambda^k}{k!}\]

Que es la PMF de una distribución Poisson(λ).

Condiciones prácticas para usar la aproximación:

n debe ser grande (típicamente n ≥ 20 o n ≥ 100)
p debe ser pequeño (típicamente p ≤ 0.05 o p ≤ 0.1)
$np = \lambda$ debe ser moderado (típicamente λ < 10)

Comparación de aproximaciones:

Binomial(n,p)	Aproximación recomendada
n pequeño	Binomial exacta
n moderado, p no muy pequeño	Binomial exacta o Normal si np ≥ 5
n grande, p moderado, np ≥ 5	Normal (por TLC)
n grande, p pequeño, np = λ moderado	Poisson

Ventajas de Poisson para este caso:

Más fácil de calcular (una serie en lugar de dos parámetros)
Mejor aproximación que Normal cuando p es muy pequeño
Natural en contextos de conteos raros (errores, llegadas, defectos)

Ejemplo:

Número de defectos en 1000 artículos producidos con p = 0.001 → Poisson(1)
Número de errores en 100 operaciones con p = 0.02 → Poisson(2)
Número de accidentes en 365 días con p muy pequeño → Poisson(λ)

Solución pregunta 17 — Tamaño muestral para estimar proporción

Enunciado: Se desea estimar la proporción de usuarios que prefieren cierta interfaz. Con un nivel de confianza del 95% y un margen de error de 0.05, sin información previa, el tamaño muestral mínimo necesario es aproximadamente:

Respuesta correcta: B) 385.

Desarrollo:

Fórmula de tamaño muestral para proporción:

\[n = \left( \frac{z_{\alpha/2}}{E} \right)^2 \cdot p(1-p)\]

donde:

$z_{\alpha/2}$ = valor crítico de la distribución normal estándar
E = margen de error deseado
p = proporción poblacional (desconocida)

Paso 1: Identificar parámetros

Nivel de confianza: 95% → α = 0.05 → α/2 = 0.025
$z_{0.025}$ = 1.96 (valor crítico de la normal estándar)
E = 0.05 (margen de error del 5%)
p = ? (sin información previa)

Paso 2: Determinar p cuando no hay información previa

Cuando no conocemos p, usamos p = 0.5 porque:

\[p(1-p) \text{ es máximo cuando } p = 0.5\]

Esto nos da el tamaño muestral más conservador (mayor).

\[p(1-p) = 0.5 \times 0.5 = 0.25\]

Paso 3: Calcular n

\[n = \left( \frac{1.96}{0.05} \right)^2 \times 0.25\]

\[= (39.2)^2 \times 0.25\]

\[= 1536.64 \times 0.25\]

\[= 384.16\]

Paso 4: Redondear

Redondeamos hacia arriba: $n = 385$ (siempre redondeamos al entero superior para garantizar el margen de error)

Verificación (p = 0.5, n = 385):

Margen de error real: $E = 1.96 \times \sqrt{\frac{0.25}{385}} = 1.96 \times 0.0254 \approx 0.0498 \approx 0.05$ ✓

Respuesta: n ≈ 385 usuarios

Solución pregunta 18 — Interpretación de intervalo de confianza

Enunciado: Si el intervalo de confianza del 95% para la media de una población es [48.2, 53.8], esto significa que:

Respuesta correcta: C) Si repetimos el muestreo infinitas veces, el 95% de los intervalos contendrán la media poblacional.

Desarrollo:

Definición frecuentista del intervalo de confianza:

Un intervalo de confianza del (1-α)×100% para un parámetro θ es un intervalo aleatorio [L, U] tal que:

\[P(L < \theta < U) = 1 - \alpha\]

Interpretación correcta (frecuentista):

Si repetimos el experimento infinitas veces y construimos el intervalo de confianza cada vez, aproximadamente el (1-α)×100% de los intervalos contendrán el verdadero valor del parámetro.

Interpretación INCORRECTA:

NO decimos "hay probabilidad 0.95 de que θ esté en [48.2, 53.8]" porque:

θ es fijo (desconocido pero determinístico)
El intervalo es el que es aleatorio
Una vez construido, θ está o no está en el intervalo (probabilidad 0 o 1)

Análisis de opciones:

A) "95% de los datos está entre 48.2 y 53.8": FALSO
El intervalo de confianza es para la media, no para los datos individuales
Usaríamos intervalo de predicción si fuera para datos individuales
B) "Probabilidad de que μ esté en [48.2, 53.8] es 0.95": FALSO
Interpretación bayesiana, no frecuentista
Confunde parámetro con variable aleatoria
C) "Si repetimos, 95% de intervalos contendrán μ": VERDADERO
Interpretación frecuentista correcta
Reconoce que el intervalo es el que varía, no el parámetro
D) "Media muestral es 51 con 95% certeza": FALSO
La media muestral (punto central del intervalo) es determinística, no aleatoria
No tiene "certeza"

Relación con la media muestral:

El punto central del intervalo es: $$\bar{x} = \frac{48.2 + 53.8}{2} = \frac{102}{2} = 51$$

Pero la media muestral es un número fijo observado, no una variable aleatoria con "certeza".

Solución pregunta 19 — Definición de p-valor

Enunciado: En un contraste de hipótesis, el p-valor representa:

Respuesta correcta: C) La probabilidad de obtener resultados tan extremos o más, asumiendo que $H_0$ es cierta.

Desarrollo:

Definición formal del p-valor:

El p-valor (o valor p) es la probabilidad de observar un estadístico de prueba tan extremo o más extremo que el observado, bajo el supuesto de que la hipótesis nula $H_0$ es verdadera.

\[p\text{-valor} = P(\text{Estadístico} \geq \text{observado} \mid H_0 \text{ es cierta})\]

Interpretación:

Un p-valor pequeño indica que los datos observados son inconsistentes con $H_0$:

p < 0.05 → Hay menos del 5% de probabilidad de observar estos datos si $H_0$ fuera cierta
p < 0.01 → Hay menos del 1% de probabilidad

Análisis de opciones:

A) "Probabilidad de que $H_0$ sea cierta": FALSO
El p-valor NO nos dice si $H_0$ es cierta
Es una interpretación bayesiana erronea
El p-valor es frecuentista: asume $H_0$ verdadera y calcula probabilidad de datos
B) "Probabilidad de cometer error de tipo I": FALSO
El error tipo I es "rechazar $H_0$ cuando es verdadera"
Su probabilidad es α (nivel de significación), no el p-valor
Aunque están relacionados (rechazamos si p < α)
C) "Probabilidad de obtener resultados tan extremos o más, asumiendo $H_0$ cierta": VERDADERO
Definición correcta y frecuentista
D) "El nivel de significación del test": FALSO
El nivel de significación es α (elegido antes del test)
El p-valor es calculado después y depende de los datos
Se comparan: rechazamos si p-valor < α

Ejemplo:

En un test bilateral sobre media, si:

$H_0: \mu = 0$
Observamos $\bar{x} = 2.1$ con SE = 0.5
Estadístico t = 2.1/0.5 = 4.2

El p-valor es:

\[p\text{-valor} = 2 \times P(T > 4.2 \mid H_0) = 2 \times 0.0001 = 0.0002\]

Interpretación: "Si $H_0$ fuera cierta, solo hay 0.02% de probabilidad de observar un t tan extremo. Los datos parecen incompatibles con $H_0$."

Solución pregunta 20 — Estimador insesgado

Enunciado: Un estimador se considera insesgado si:

Respuesta correcta: B) Su valor esperado es igual al parámetro poblacional que estima.

Desarrollo:

Definición de estimador insesgado:

Sea $\hat{\theta}$ un estimador del parámetro poblacional θ. Se dice que $\hat{\theta}$ es insesgado si:

\[E[\hat{\theta}] = \theta\]

Es decir, el valor esperado del estimador es exactamente igual al parámetro que estima.

Interpretación:

Un estimador insesgado no presenta sesgo sistemático. En promedio, sobre muchas muestras, el estimador "acierta" el valor del parámetro.

Ejemplos de estimadores insesgados:

Media muestral: $\bar{X} = \frac{1}{n}\sum X_i$ estima $\mu$

\[E[\bar{X}] = \mu \text{ ✓ Insesgado}\]

Varianza muestral corregida: $S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2$ estima $\sigma^2$

\[E[S^2] = \sigma^2 \text{ ✓ Insesgado}\]

(Nota: divisor es n-1, no n)

Proporción muestral: $\hat{p} = \frac{k}{n}$ estima p

\[E[\hat{p}] = p \text{ ✓ Insesgado}\]

Ejemplo de estimador sesgado:

Varianza muestral sin corregir: $S_0^2 = \frac{1}{n}\sum(X_i - \bar{X})^2$

\[E[S_0^2] = \frac{n-1}{n}\sigma^2 \neq \sigma^2 \text{ ✗ Sesgado}\]

Análisis de opciones:

A) "Varianza mínima": FALSO

Eso es propiedad de eficiencia
Insesgadez y eficiencia son independientes

B) "Valor esperado = parámetro": VERDADERO

Definición de insesgadez

C) "Error cuadrático medio = 0": FALSO

ECM = 0 sería demasiado restrictivo
No existe estimador con ECM = 0 (excepto trivial)
Insesgadez implica ECM = Var(θ̂), pero no necesariamente = 0

D) "Converge a valor verdadero": FALSO

Eso es propiedad de consistencia
Estimador puede ser insesgado sin ser consistente

Solución pregunta 21 — Regla de decisión en contraste de hipótesis

Enunciado: En un test t de Student para muestras independientes, se rechaza $H_0$ con $\alpha = 0.05$ obteniendo $p = 0.03$. Si se hubiera usado $\alpha = 0.01$, la decisión sería:

Respuesta correcta: B) No rechazar $H_0$.

Desarrollo:

Regla de decisión en contraste frecuentista:

Rechazamos $H_0$ si y solo si:

\[p\text{-valor} \leq \alpha\]

No rechazamos $H_0$ si:

\[p\text{-valor} > \alpha\]

Paso 1: Análisis con $\alpha = 0.05$

p-valor observado: 0.03
Nivel de significación: α = 0.05
Comparación: 0.03 < 0.05
Decisión: RECHAZAR $H_0$ ✓ (consistente con el enunciado)

Paso 2: Análisis con $\alpha = 0.01$

p-valor observado: 0.03 (no cambia, depende solo de los datos)
Nivel de significación: α = 0.01
Comparación: 0.03 > 0.01
Decisión: NO RECHAZAR $H_0$

Explicación:

El p-valor es una característica de los datos y el test realizado. Una vez observados los datos, el p-valor no cambia.

Lo que cambiaría es nuestro criterio de decisión (α). Bajando α de 0.05 a 0.01, hacemos el test más restrictivo: exigimos evidencia más fuerte contra $H_0$.

Análisis de opciones:

A) "Rechazar definitivamente": FALSO (0.03 > 0.01, no rechazamos)

B) "No rechazar": VERDADERO (0.03 > 0.01)

C) "Rechazar solo si n > 30": FALSO

La regla no depende del tamaño muestral una vez calculado p
Aunque n pueda haber afectado el p-valor

D) "No se puede determinar": FALSO

La regla es clara: comparar p con α

Intuición:

p = 0.03 significa "hay 3% de probabilidad de observar estos datos si $H_0$ fuera cierta".

¿Es 3% sorprendente comparado con 5% de límite? SÍ → Rechazamos
¿Es 3% sorprendente comparado con 1% de límite? NO → No rechazamos

Solución pregunta 22 — Test de Kolmogorov-Smirnov

Enunciado: El test de Kolmogorov-Smirnov (KS) se utiliza para contrastar si una muestra proviene de una distribución teórica específica. ¿Cuál de las siguientes afirmaciones es correcta?

Respuesta correcta: D) El test KS es sensible a diferencias en cualquier parte de la distribución, no solo en las colas.

Desarrollo:

Test de Kolmogorov-Smirnov (KS):

Es una prueba de bondad de ajuste no paramétrica que contrasta:

$H_0$: La muestra proviene de una distribución teórica específica
$H_1$: La muestra NO proviene de esa distribución

Estadístico de prueba:

\[D = \max_{x} |F_n(x) - F(x)|\]

donde:

$F_n(x)$ = función de distribución empírica (ECDF) de la muestra
$F(x)$ = función de distribución teórica especificada

Mide la máxima desviación vertical entre la ECDF y la CDF teórica.

Características del test KS:

1) Aplicabilidad:

Mejor para distribuciones continuas
Menos potente para distribuciones discretas (aunque existe versión ajustada)

2) Estadístico:

Mide distancia máxima (supremo)
NO es una suma de diferencias

3) Parámetros:

Si los parámetros de F(x) son conocidos a priori: el test es directo
Si se estiman de los datos: el p-valor debe ajustarse (test de Kolmogorov-Smirnov modificado)

4) Sensibilidad:

Es sensible a diferencias en cualquier parte de la distribución
Particularmente en el centro de la distribución
Menos sensible en las colas que en el centro

Contraste con el test chi-cuadrado:

Chi-cuadrado: agrupa datos en categorías (menos sensible a detalles)
KS: usa datos individuales (más sensible a pequeñas desviaciones)

Análisis de opciones:

A) "Solo para distribuciones discretas": FALSO

Es mejor para continuas, aunque existe versión para discretas

B) "Mide suma de diferencias": FALSO

Mide máxima diferencia vertical (supremo), no suma
La suma es característica del test $\chi^2$

C) "Requiere parámetros conocidos a priori": FALSO/PARCIALMENTE VERDADERO

Idealmente sí, pero existen versiones que estiman parámetros
No es un requisito absoluto (aunque afecta el p-valor)

D) "Sensible a diferencias en cualquier parte": VERDADERO

Es la fortaleza del test KS
A diferencia de tests más locales

Ejemplo:

Testear si datos siguen $N(0,1)$:

Comparar ECDF con $\Phi(x)$ (CDF normal estándar)
Máxima diferencia detecta desviación de la normalidad en cualquier cuantil

Solución pregunta 23 — Grados de libertad en chi-cuadrado

Enunciado: En una prueba chi-cuadrado de bondad de ajuste con 5 categorías, los grados de libertad son:

Respuesta correcta: B) 4.

Desarrollo:

Test chi-cuadrado de bondad de ajuste:

Contrasta si los datos provienen de una distribución teórica especificada.

Estadístico de prueba:

\[\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}\]

donde:

$O_i$ = frecuencia observada en categoría i
$E_i$ = frecuencia esperada en categoría i
k = número de categorías

Grados de libertad:

\[df = k - 1 - m\]

donde:

k = número de categorías
m = número de parámetros estimados de la distribución teórica

Explicación:

Tenemos k valores observados (O₁, O₂, ..., O_k)
Pero están sujetos a la restricción: $\sum O_i = n$ (total de observaciones)
Esto reduce los grados de libertad en 1: tenemos k-1 valores libres
Si estimamos m parámetros de la distribución teórica, perdemos m grados más
Total: df = k - 1 - m

En este problema:

Número de categorías: k = 5
Parámetros estimados: m = 0 (se asume que la distribución teórica es especificada completamente)
Grados de libertad: df = 5 - 1 - 0 = 4

Ejemplos adicionales:

Test de ajuste a Normal: k = 8 categorías, estimamos μ y σ (m = 2)
df = 8 - 1 - 2 = 5
Test de ajuste a Poisson: k = 6 categorías, estimamos λ (m = 1)
df = 6 - 1 - 1 = 4
Test de independencia de tabla 3×4: (3-1)×(4-1) = 2×3 = 6
(Nota: fórmula diferente porque aquí probamos asociación, no ajuste a distribución teórica)

Respuesta: df = 4

Solución pregunta 24 — Interpretación de p-valor próximo al nivel de significación

Enunciado: Un investigador obtiene un p-valor de 0.06 en un contraste bilateral. ¿Cuál es la interpretación más adecuada con $\alpha = 0.05$?

Respuesta correcta: B) No se rechaza $H_0$, pero hay evidencia moderada que sugiere explorar más el fenómeno.

Desarrollo:

Decisión formal con $\alpha = 0.05$:

Regla: Rechazamos $H_0$ si p-valor ≤ α

p-valor = 0.06
α = 0.05
0.06 > 0.05
Decisión formal: NO RECHAZAR $H_0$

Interpretación del p-valor = 0.06:

Si $H_0$ fuera verdadera, hay 6% de probabilidad de observar resultados tan extremos o más
Esto está muy cerca del umbral del 5%
Los datos proporcionan cierta evidencia contra $H_0$, aunque no es suficiente para rechazar formalmente

Análisis de opciones:

A) "Evidencia muy fuerte contra $H_0$": FALSO
p = 0.06 no es "muy fuerte"
Es bastante marginal, muy cerca del umbral
B) "No se rechaza, pero hay evidencia moderada": VERDADERO
Respeta la regla de decisión formal (no rechaza porque p > α)
Reconoce que p = 0.06 está próximo a α = 0.05
Sugiere prudentemente explorar más investigación
Esta es la interpretación equilibrada y científicamente honesta
C) "Se acepta $H_0$ como verdadera": FALSO
En estadística frecuentista, NO "aceptamos" $H_0$
"No rechazar" ≠ "aceptar"
Solo decimos que los datos no proporcionan evidencia suficiente para rechazar
D) "Significativo al 5%": FALSO
0.06 > 0.05, por tanto NO es significativo al nivel 5%

Contexto científico:

En la práctica, aunque técnicamente no se rechaza $H_0$ con α = 0.05:

Un p-valor de 0.06 es considerado "marginalmente significativo"
Sugiere que el efecto observado, aunque no es estadísticamente significativo al 5%, merece investigación adicional
Se podría:
Aumentar el tamaño muestral para mayor precisión
Replicar el estudio
Ajustar el diseño experimental

Ventaja sobre conclusiones categóricas:

La opción B es científicamente superior a:

Declarar categóricamente "sin efecto" (no hay evidencia)
Rechazar sin más (violando el protocolo)
Ignorar p = 0.06 como sin importancia

Reconoce la realidad: los datos están en la "zona gris" de la estadística.

Propuesta 1 Profesor (medio)

Pregunta 1

Pregunta 2

Pregunta 3

Pregunta 4

Pregunta 5

Pregunta 6

Pregunta 7

Pregunta 8

Pregunta 9

Pregunta 10

Pregunta 11

Pregunta 12

Pregunta 13

Pregunta 14

Pregunta 15

Pregunta 16

Pregunta 17

Pregunta 18

Pregunta 19

Pregunta 20

Pregunta 21

Pregunta 22

Pregunta 23

Pregunta 24

Progreso del cuestionario

¡Cuestionario completado!

Soluciones desarrolladas