Propuesta 1 Profesor (medio)
Duración estimada: 90 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
Pregunta 1
Al analizar un histograma de frecuencias de los tiempos de respuesta de un servidor web, se observa que la distribución tiene una cola larga hacia la derecha y la mayoría de los datos se concentran en valores bajos. ¿Qué transformación sería más apropiada para normalizar estos datos?
Pregunta 2
Se tienen dos diagramas de caja (boxplots) que representan los tiempos de ejecución de dos algoritmos diferentes. El algoritmo A tiene una caja más ancha que el algoritmo B, pero ambos tienen la misma mediana. ¿Qué puede concluirse?
Pregunta 3
Una variable que representa el tipo de sistema operativo (Windows, Linux, macOS, Otro) es:
Pregunta 4
En un estudio sobre rendimiento de algoritmos, se mide el tiempo de ejecución en milisegundos. Esta variable tiene escala:
Pregunta 5
Un dataset de tiempos de respuesta (en segundos) tiene media 2.5 y mediana 1.8. ¿Qué sugiere esto sobre la distribución?
Pregunta 6
Para un conjunto de datos con valores 2, 4, 4, 5, 7, 9, 12, el rango intercuartílico (IQR) es:
Pregunta 8
Un dataset tiene desviación estándar \(\sigma = 10\). Si todos los valores se multiplican por 3, la nueva desviación estándar será:
Pregunta 9
Sea \(X\) una variable aleatoria con función de distribución \(F(x)\). ¿Cuál propiedad NO es correcta?
Pregunta 10
Si \(X\) tiene esperanza \(E[X] = 5\) y varianza \(Var(X) = 4\), entonces \(E[3X - 2]\) es:
Pregunta 11
La función generatriz de momentos de una variable aleatoria \(X\) es útil principalmente para:
Pregunta 12
Sean \(X\) e \(Y\) variables aleatorias independientes. Entonces, \(Var(X + Y)\) es igual a:
Pregunta 13
Un proceso genera errores de forma independiente con probabilidad constante \(p = 0.02\). Si se procesan 100 operaciones, ¿qué distribución modela mejor el número de errores?
Pregunta 15
El tiempo entre llegadas de solicitudes a un servidor sigue una distribución exponencial con media 5 segundos. ¿Cuál es el valor del parámetro \(\lambda\)?
Pregunta 16
En una distribución binomial \(X \sim B(n, p)\), si \(n\) es grande y \(p\) es pequeño tal que \(np = \lambda\) es moderado, ¿qué aproximación es más apropiada?
Pregunta 17
Se desea estimar la proporción de usuarios que prefieren cierta interfaz. Con un nivel de confianza del 95% y un margen de error de 0.05, sin información previa, el tamaño muestral mínimo necesario es aproximadamente:
Pregunta 18
Si el intervalo de confianza del 95% para la media de una población es [48.2, 53.8], esto significa que:
Pregunta 21
En un test t de Student para muestras independientes, se rechaza \(H_0\) con \(\alpha = 0.05\) obteniendo \(p = 0.03\). Si se hubiera usado \(\alpha = 0.01\), la decisión sería:
Pregunta 22
El test de Kolmogorov-Smirnov (KS) se utiliza para contrastar si una muestra proviene de una distribución teórica específica. ¿Cuál de las siguientes afirmaciones es correcta?
Pregunta 23
En una prueba chi-cuadrado de bondad de ajuste con 5 categorías, los grados de libertad son:
Pregunta 24
Un investigador obtiene un p-valor de 0.06 en un contraste bilateral. ¿Cuál es la interpretación más adecuada con \(\alpha = 0.05\)?
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones desarrolladas
Solución pregunta 1 — Transformación logarítmica para asimetría positiva
Enunciado: Al analizar un histograma de frecuencias de los tiempos de respuesta de un servidor web, se observa que la distribución tiene una cola larga hacia la derecha y la mayoría de los datos se concentran en valores bajos. ¿Qué transformación sería más apropiada para normalizar estos datos?
Respuesta correcta: C) Aplicar una transformación logarítmica.
Desarrollo:
Una distribución con cola larga hacia la derecha exhibe asimetría positiva (sesgo positivo). Las características de este tipo de distribuciones son:
- Media > Mediana > Moda
- Concentración de datos en valores bajos
- Pocos valores muy altos generando la cola
Las transformaciones comúnmente usadas para normalizar datos asimétricos son:
-
Transformación logarítmica: \(Y = \ln(X)\) o \(Y = \log_{10}(X)\)
- Comprime los valores altos (reduciendo la cola)
- Expande los valores bajos (normalizando su distribución)
- Es muy efectiva para reducir asimetría positiva
- Requiere que todos los valores sean positivos
-
Raíz cuadrada o cúbica: \(Y = \sqrt{X}\) o \(Y = \sqrt[3]{X}\)
- Menos efectiva que logaritmo
- Útil para asimetrías moderadas
-
Elevar al cuadrado: \(Y = X^2\)
- Amplifica las diferencias
- Aumentaría la asimetría, no la reduce
-
Estandarización: \(Z = \frac{X - \bar{X}}{\sigma}\)
- Cambia la escala pero NO cambia la forma de la distribución
- No elimina la asimetría
Conclusión: La transformación logarítmica es la opción más apropiada para datos con asimetría positiva, como son los tiempos de respuesta de servidores web (muchas respuestas rápidas, pocas respuestas muy lentas).
Solución pregunta 2 — Boxplot y rango intercuartílico
Enunciado: Se tienen dos diagramas de caja (boxplots) que representan los tiempos de ejecución de dos algoritmos diferentes. El algoritmo A tiene una caja más ancha que el algoritmo B, pero ambos tienen la misma mediana. ¿Qué puede concluirse?
Respuesta correcta: C) El algoritmo A tiene mayor dispersión en el 50% central de los datos.
Desarrollo:
Un boxplot (diagrama de caja) representa:
- Línea inferior de la caja: Q1 (percentil 25)
- Línea central de la caja: Q2 (mediana, percentil 50)
- Línea superior de la caja: Q3 (percentil 75)
- Ancho de la caja: Rango intercuartílico (IQR) = Q3 - Q1
- Bigotes: Extensiones a valores mínimos/máximos (dentro de límites)
- Puntos aislados: Posibles outliers
En este problema:
- Algoritmo A: caja ancha, mediana en posición M
- Algoritmo B: caja estrecha, mediana en posición M (misma)
Ancho de caja > IQR mayor > dispersión del 50% central mayor
Análisis de opciones:
-
A) "Mayor tiempo promedio": FALSO. La mediana igual no implica media diferente, pero el boxplot no muestra la media directamente. Además, una caja ancha no indica mayor promedio.
-
B) "Algoritmo B tiene mayor variabilidad": FALSO. Es lo opuesto: A tiene caja más ancha.
-
C) "Algoritmo A tiene mayor dispersión en el 50% central": VERDADERO. Ancho de caja = IQR. Caja más ancha = IQR mayor = dispersión mayor en el 50% central.
-
D) "Misma distribución": FALSO. Diferentes IQR implican diferentes distribuciones. Solo coinciden en mediana.
Conclusión: El ancho de la caja es el indicador directo de variabilidad en el rango intercuartílico.
Solución pregunta 3 — Clasificación de variables: sistemas operativos
Enunciado: Una variable que representa el tipo de sistema operativo (Windows, Linux, macOS, Otro) es:
Respuesta correcta: D) Cualitativa nominal.
Desarrollo:
Clasificación de variables:
1) Cuantitativas (numéricas):
- Discretas: Valores enteros aislados (ej. número de errores, cantidad de usuarios)
- Continuas: Cualquier valor en un rango (ej. tiempo, temperatura)
2) Cualitativas (categóricas):
- Nominales: Sin orden jerárquico (ej. color, género, país, sistema operativo)
- Ordinales: Con orden jerárquico (ej. nivel educativo: primaria < secundaria < superior, satisfacción: bajo < medio < alto)
Análisis de "tipo de sistema operativo":
- Valores: Windows, Linux, macOS, Otro
- Naturaleza: Categorías, no números
- ¿Hay orden natural? NO. Windows no es "menor" o "mayor" que Linux.
- ¿Se pueden ordenar? No existe un criterio universal de orden.
Por tanto: Cualitativa nominal.
Contraste con ordinal:
- Nominal ≠ Ordinal
- Nivel educativo SÍ es ordinal (hay clara jerarquía)
- Sistema operativo NO es ordinal (no hay jerarquía)
Solución pregunta 4 — Escala de medida: tiempo de ejecución
Enunciado: En un estudio sobre rendimiento de algoritmos, se mide el tiempo de ejecución en milisegundos. Esta variable tiene escala:
Respuesta correcta: D) De razón.
Desarrollo:
Escalas de medida (Stevens, 1946):
1) Nominal: Categorías sin orden (ej. color, género, región)
- Operación: Igualdad/desigualdad
2) Ordinal: Categorías con orden (ej. satisfacción: bajo < medio < alto)
- Operación: Comparación (<, >)
- Ejemplo: ranking, posición
3) De intervalo: Valores numéricos con distancias significativas pero SIN cero natural
- Operación: Suma, resta (diferencias significativas)
- Ejemplo: Temperatura en Celsius (0°C ≠ ausencia de temperatura)
- En -10°C, no hay "la mitad de temperatura" que en 20°C
4) De razón: Valores numéricos con cero natural y proporciones significativas
- Operación: Suma, resta, multiplicación, división (todas significativas)
- Ejemplo: Tiempo, peso, velocidad, distancia, ingresos
- 10 ms es "la mitad" de 20 ms
- 0 ms = ausencia de tiempo (cero natural)
Análisis de "tiempo de ejecución en milisegundos":
- Unidad: milisegundos (ms)
- Cero natural: SÍ (0 ms = ausencia de tiempo)
- Proporciones significativas: SÍ (10 ms es media de 20 ms en tiempo real)
- Se pueden hacer todas las operaciones aritméticas: SÍ
Por tanto: Escala de razón.
Solución pregunta 5 — Asimetría: media vs mediana
Enunciado: Un dataset de tiempos de respuesta (en segundos) tiene media 2.5 y mediana 1.8. ¿Qué sugiere esto sobre la distribución?
Respuesta correcta: B) Está sesgada a la derecha (positivamente).
Desarrollo:
Relación entre media, mediana y asimetría:
- Distribución simétrica:
- Asimetría positiva (cola a la derecha):
- Hay algunos valores muy altos que tiran la media hacia la derecha
- La mediana es más resistente a estos extremos
-
Gráficamente: distribución concentrada a la izquierda con cola hacia la derecha
-
Asimetría negativa (cola a la izquierda):
- Hay algunos valores muy bajos que tiran la media hacia la izquierda
- Gráficamente: distribución concentrada a la derecha con cola hacia la izquierda
Análisis de nuestro datos:
- Media = 2.5
- Mediana = 1.8
- Media > Mediana (2.5 > 1.8)
Conclusión: Asimetría positiva (sesgada a la derecha). Hay algunos tiempos de respuesta muy altos que elevan la media, pero la mayoría de las observaciones están en valores bajos (lo que mantiene baja la mediana).
Solución pregunta 6 — Cálculo del rango intercuartílico (IQR)
Enunciado: Para un conjunto de datos con valores 2, 4, 4, 5, 7, 9, 12, el rango intercuartílico (IQR) es:
Respuesta correcta: A) 5. (Nota: la opción A también es 5, por lo que ambas son correctas técnicamente, pero la pregunta tiene respuesta única)
Desarrollo:
Paso 1: Ordenar los datos
Datos: 2, 4, 4, 5, 7, 9, 12
Ya están ordenados. Contamos: n = 7 observaciones.
Paso 2: Encontrar la mediana (Q2)
Con n = 7 (impar), la mediana está en la posición \((7+1)/2 = 4\).
Paso 3: Encontrar Q1 (mediana de la mitad inferior)
Valores inferiores a la mediana: 2, 4, 4 (posiciones 1, 2, 3)
Número de valores: 3 (impar)
Q1 está en la posición \((3+1)/2 = 2\) de esta mitad.
Paso 4: Encontrar Q3 (mediana de la mitad superior)
Valores superiores a la mediana: 7, 9, 12 (posiciones 5, 6, 7)
Número de valores: 3 (impar)
Q3 está en la posición \((3+1)/2 = 2\) de esta mitad.
Paso 5: Calcular IQR
Resultado: IQR = 5 (representa la amplitud del 50% central de los datos)
Solución pregunta 7 — Interpretación de la covarianza
Enunciado: Si se calcula la covarianza entre dos variables X e Y y resulta ser -45, esto indica:
Respuesta correcta: B) Relación lineal negativa, pero no se puede determinar la fuerza sin más información.
Desarrollo:
Definición de covarianza:
o en forma muestral:
Interpretación del signo:
- \(Cov(X,Y) > 0\): Cuando X aumenta, Y tiende a aumentar (relación positiva)
- \(Cov(X,Y) < 0\): Cuando X aumenta, Y tiende a disminuir (relación negativa)
- \(Cov(X,Y) = 0\): No hay relación lineal (aunque puede haber relación no lineal)
Limitaciones de la covarianza:
1) Depende de las unidades de medida:
- Si X está en euros y se convierte a céntimos (×100), la covarianza se multiplica por 100
- El valor absoluto de la covarianza NO es comparable entre diferentes pares de variables
2) No indica fuerza de relación:
- Covarianza = -45 podría indicar relación fuerte o débil, dependiendo de las varianzas de X e Y
3) Para determinar la fuerza, usamos correlación de Pearson:
- r cerca de ±1: relación fuerte
- r cerca de 0: relación débil
Análisis de opciones:
-
A) "Relación lineal positiva": FALSO. Covarianza negativa indica relación negativa.
-
B) "Relación negativa, pero sin información sobre fuerza": VERDADERO. El signo negativo es claro, pero sin σ_X y σ_Y no podemos calcular r.
-
C) "Ausencia de relación": FALSO. Covarianza ≠ 0 indica relación.
-
D) "Relación no lineal": FALSO. La covarianza caracteriza relaciones lineales; no podemos descartar relaciones no lineales, pero lo que observamos es tendencia negativa.
Solución pregunta 8 — Escalado de desviación estándar
Enunciado: Un dataset tiene desviación estándar σ = 10. Si todos los valores se multiplican por 3, la nueva desviación estándar será:
Respuesta correcta: C) 30.
Desarrollo:
Propiedades de la desviación estándar ante transformaciones lineales:
Sea \(Y = aX + b\) donde \(a, b\) son constantes.
Entonces:
Nota: Solo la multiplicación afecta la desviación estándar, no la adición.
Demostración:
Si \(Y = 3X\) (es decir, multiplicamos todos los valores por 3):
Porque:
Entonces:
Aplicación numérica:
Conclusión: La desviación estándar se escala linealmente con el multiplicador. Si multiplicamos los datos por 3, la desviación estándar también se multiplica por 3.
Solución pregunta 9 — Propiedades de la función de distribución
Enunciado: Sea X una variable aleatoria con función de distribución F(x). ¿Cuál propiedad NO es correcta?
Respuesta correcta: D) F(x) debe ser continua en todos los puntos.
Desarrollo:
Definición: La función de distribución acumulada (CDF) es:
Propiedades que SÍ son correctas:
A) \(\lim_{x \to -\infty} F(x) = 0\) — CORRECTA
Cuando \(x \to -\infty\), la probabilidad de que X sea menor o igual a un valor cada vez más negativo tiende a 0.
B) \(\lim_{x \to \infty} F(x) = 1\) — CORRECTA
Cuando \(x \to \infty\), eventualmente todos los valores de X serán menores o iguales a ese valor, por lo que la probabilidad tiende a 1.
C) F(x) es monótona creciente — CORRECTA
Si \(x_1 < x_2\), entonces \(P(X \leq x_1) \leq P(X \leq x_2)\), es decir, \(F(x_1) \leq F(x_2)\). La función no decrece.
D) F(x) debe ser continua en todos los puntos — INCORRECTA
Esta es la propiedad falsa. Aunque las distribuciones continuas (como Normal, Exponencial) tienen CDF continua, las distribuciones discretas tienen discontinuidades (saltos).
Ejemplos:
- Distribución Discreta (ej. Binomial): En cada punto donde existe masa de probabilidad, F(x) tiene un salto.
- Si P(X = 3) = 0.2, habrá un salto de altura 0.2 en x = 3
- Distribución Continua (ej. Normal): F(x) es continua en todo ℝ
Contraejemplo (Distribución de Bernoulli):
Sea \(X \sim Bernoulli(p=0.5)\), es decir, \(P(X=0) = 0.5\), \(P(X=1) = 0.5\)
Observar: F(x) tiene saltos en x=0 y x=1, es discontinua.
Solución pregunta 10 — Esperanza de transformación lineal
Enunciado: Si X tiene esperanza E[X] = 5 y varianza Var(X) = 4, entonces E[3X - 2] es:
Respuesta correcta: B) 13.
Desarrollo:
Propiedades de la esperanza:
Para variables aleatorias X e Y y constantes a, b, c:
Aplicación al problema:
Queremos calcular \(E[3X - 2]\).
Usando linealidad:
Nota: La varianza de X (Var(X) = 4) NO se usa en este cálculo. Solo necesitamos E[X] para calcular la esperanza de una transformación lineal.
Si nos hubieran preguntado por Var(3X - 2):
(la constante -2 no afecta la varianza)
Solución pregunta 11 — Función generatriz de momentos
Enunciado: La función generatriz de momentos de una variable aleatoria X es útil principalmente para:
Respuesta correcta: B) Determinar todos los momentos de la distribución y caracterizarla únicamente.
Desarrollo:
Definición de función generatriz de momentos (MGF):
(para distribuciones continuas; para discretas es una suma)
Propiedad fundamental: Extracción de momentos
Si desarrollamos \(e^{tX}\) en serie de Taylor:
Entonces:
Extracción de momentos por derivación:
- \(M_X'(0) = E[X]\) (media)
- \(M_X''(0) = E[X^2]\), de donde \(Var(X) = E[X^2] - (E[X])^2\)
- \(M_X'''(0) = E[X^3]\) (útil para calcular asimetría)
Teorema de unicidad:
Si existe la MGF de X, esta caracteriza uniquely la distribución de X. Es decir, dos variables aleatorias tienen la misma distribución si y solo si tienen la misma MGF.
Análisis de opciones:
-
A) "Calcular probabilidades puntuales": FALSO. Para eso usamos PDF o PMF.
-
B) "Determinar momentos y caracterizar uniquely": VERDADERO. Este es el uso principal.
-
C) "Visualizar gráficamente": FALSO. MGF es una función matemática, no de visualización.
-
D) "Calcular percentiles": FALSO. Para percentiles usamos la función cuantil (inversa de CDF).
Solución pregunta 12 — Varianza de suma de variables independientes
Enunciado: Sean X e Y variables aleatorias independientes. Entonces, Var(X + Y) es igual a:
Respuesta correcta: A) Var(X) + Var(Y).
Desarrollo:
Fórmula general de la varianza de una suma:
Esta fórmula es válida para cualquier par de variables aleatorias.
Caso especial: Variables independientes
Si X e Y son independientes, entonces:
Por tanto:
Demostración alternativa (usando propiedades):
Si X e Y son independientes: \(E[XY] = E[X]E[Y]\)
Análisis de opciones:
-
A) Var(X) + Var(Y): CORRECTA
-
B) Var(X) · Var(Y): FALSO. Las varianzas se suman, no se multiplican.
-
C) √(Var(X) + Var(Y)): FALSO. Eso sería una desviación estándar combinada, no varianza.
-
D) Var(X) + Var(Y) + 2Cov(X,Y): FALSO. Esta es la fórmula general, pero cuando son independientes, Cov = 0.
Solución pregunta 13 — Distribuciones para conteo de errores
Enunciado: Un proceso genera errores de forma independiente con probabilidad constante p = 0.02. Si se procesan 100 operaciones, ¿qué distribución modela mejor el número de errores?
Respuesta correcta: D) Tanto B como C son aproximaciones válidas.
Desarrollo:
Modelo exacto: Distribución Binomial
El número de errores sigue exactamente una distribución binomial:
Donde:
- n = 100 (número de pruebas/operaciones)
- p = 0.02 (probabilidad de error en cada operación)
- X = número total de errores
Parámetros:
- \(E[X] = np = 100 \times 0.02 = 2\)
- \(Var(X) = np(1-p) = 100 \times 0.02 \times 0.98 = 1.96\)
Aproximación 1: Distribución Normal
Por el Teorema Central del Límite, cuando n es grande:
$\(X \approx N(2, 1.96)\)$ o equivalentemente \(N(2, 1.4)\) si usamos σ
Sin embargo, esta aproximación es menos precisa aquí porque np = 2 es pequeño (la regla sugiere np ≥ 5 o np(1-p) ≥ 5).
Aproximación 2: Distribución Poisson
Cuando n es grande, p es pequeño y \(np = \lambda\) es moderado, la distribución binomial se aproxima a una distribución Poisson:
En nuestro caso:
Esta es una excelente aproximación en este contexto.
Comparación de aproximaciones:
| Condición | Aproximación recomendada |
|---|---|
| n pequeño, p cualquier | Binomial exacta |
| n grande, p no muy pequeño, np ≥ 5 | Normal |
| n grande, p pequeño, np = λ moderado | Poisson |
En nuestro caso:
- n = 100 (grande) ✓
- p = 0.02 (pequeño) ✓
- np = 2 (moderado) ✓
Ambas aproximaciones son válidas, pero Poisson es preferible.
Análisis de opciones:
- A) Normal(2, 1.96): Válida pero menos precisa que Poisson
- B) Binomial(100, 0.02): Correcta y exacta
- C) Poisson(2): Excelente aproximación
- D) Tanto B como C son válidas: CORRECTA (B es exacta, C es muy buena aproximación)
Solución pregunta 14 — Probabilidad en distribución normal estándar
Enunciado: Si \(X \sim N(10, 25)\), entonces P(X > 10) es:
Respuesta correcta: C) 0.50.
Desarrollo:
Notación: \(X \sim N(10, 25)\) significa:
- Media \(\mu = 10\)
- Varianza \(\sigma^2 = 25\)
- Desviación estándar \(\sigma = 5\)
Propiedad de la distribución normal:
La distribución normal es simétrica alrededor de su media.
Para cualquier distribución normal simétrica:
Esto es independiente del valor de σ.
Aplicación:
Queremos \(P(X > 10)\), donde 10 es la media.
Estandarización (verificación):
Transformamos a la distribución normal estándar:
donde Φ(z) es la CDF de la distribución normal estándar.
Respuesta: 0.50 (50%)
Solución pregunta 15 — Parámetro de distribución exponencial
Enunciado: El tiempo entre llegadas de solicitudes a un servidor sigue una distribución exponencial con media 5 segundos. ¿Cuál es el valor del parámetro λ?
Respuesta correcta: A) 0.2.
Desarrollo:
Distribución Exponencial:
Una variable aleatoria \(X\) sigue distribución exponencial con parámetro λ si:
PDF: \(f(x) = \lambda e^{-\lambda x}\) para \(x \geq 0\)
CDF: \(F(x) = 1 - e^{-\lambda x}\)
Esperanza (media):
Varianza:
Relación entre media y parámetro:
Por tanto:
Aplicación:
Dado que E[X] = 5 segundos:
Interpretación:
- λ = 0.2 significa que en promedio hay 0.2 solicitudes por segundo
- O equivalentemente, 1/0.2 = 5 segundos entre solicitudes
Respuesta: λ = 0.2
Solución pregunta 16 — Aproximación de distribución binomial por Poisson
Enunciado: En una distribución binomial \(X \sim B(n, p)\), si n es grande y p es pequeño tal que np = λ es moderado, ¿qué aproximación es más apropiada?
Respuesta correcta: B) Poisson.
Desarrollo:
Convergencia de Binomial a Poisson:
Teorema: Si \(X_n \sim Binomial(n, p_n)\) con \(np_n = \lambda\) constante cuando \(n \to \infty\) y \(p_n \to 0\), entonces:
Que es la PMF de una distribución Poisson(λ).
Condiciones prácticas para usar la aproximación:
- n debe ser grande (típicamente n ≥ 20 o n ≥ 100)
- p debe ser pequeño (típicamente p ≤ 0.05 o p ≤ 0.1)
- \(np = \lambda\) debe ser moderado (típicamente λ < 10)
Comparación de aproximaciones:
| Binomial(n,p) | Aproximación recomendada |
|---|---|
| n pequeño | Binomial exacta |
| n moderado, p no muy pequeño | Binomial exacta o Normal si np ≥ 5 |
| n grande, p moderado, np ≥ 5 | Normal (por TLC) |
| n grande, p pequeño, np = λ moderado | Poisson |
Ventajas de Poisson para este caso:
- Más fácil de calcular (una serie en lugar de dos parámetros)
- Mejor aproximación que Normal cuando p es muy pequeño
- Natural en contextos de conteos raros (errores, llegadas, defectos)
Ejemplo:
- Número de defectos en 1000 artículos producidos con p = 0.001 → Poisson(1)
- Número de errores en 100 operaciones con p = 0.02 → Poisson(2)
- Número de accidentes en 365 días con p muy pequeño → Poisson(λ)
Solución pregunta 17 — Tamaño muestral para estimar proporción
Enunciado: Se desea estimar la proporción de usuarios que prefieren cierta interfaz. Con un nivel de confianza del 95% y un margen de error de 0.05, sin información previa, el tamaño muestral mínimo necesario es aproximadamente:
Respuesta correcta: B) 385.
Desarrollo:
Fórmula de tamaño muestral para proporción:
donde:
- \(z_{\alpha/2}\) = valor crítico de la distribución normal estándar
- E = margen de error deseado
- p = proporción poblacional (desconocida)
Paso 1: Identificar parámetros
- Nivel de confianza: 95% → α = 0.05 → α/2 = 0.025
- \(z_{0.025}\) = 1.96 (valor crítico de la normal estándar)
- E = 0.05 (margen de error del 5%)
- p = ? (sin información previa)
Paso 2: Determinar p cuando no hay información previa
Cuando no conocemos p, usamos p = 0.5 porque:
Esto nos da el tamaño muestral más conservador (mayor).
Paso 3: Calcular n
Paso 4: Redondear
Redondeamos hacia arriba: \(n = 385\) (siempre redondeamos al entero superior para garantizar el margen de error)
Verificación (p = 0.5, n = 385):
Margen de error real: \(E = 1.96 \times \sqrt{\frac{0.25}{385}} = 1.96 \times 0.0254 \approx 0.0498 \approx 0.05\) ✓
Respuesta: n ≈ 385 usuarios
Solución pregunta 18 — Interpretación de intervalo de confianza
Enunciado: Si el intervalo de confianza del 95% para la media de una población es [48.2, 53.8], esto significa que:
Respuesta correcta: C) Si repetimos el muestreo infinitas veces, el 95% de los intervalos contendrán la media poblacional.
Desarrollo:
Definición frecuentista del intervalo de confianza:
Un intervalo de confianza del (1-α)×100% para un parámetro θ es un intervalo aleatorio [L, U] tal que:
Interpretación correcta (frecuentista):
Si repetimos el experimento infinitas veces y construimos el intervalo de confianza cada vez, aproximadamente el (1-α)×100% de los intervalos contendrán el verdadero valor del parámetro.
Interpretación INCORRECTA:
NO decimos "hay probabilidad 0.95 de que θ esté en [48.2, 53.8]" porque:
- θ es fijo (desconocido pero determinístico)
- El intervalo es el que es aleatorio
- Una vez construido, θ está o no está en el intervalo (probabilidad 0 o 1)
Análisis de opciones:
- A) "95% de los datos está entre 48.2 y 53.8": FALSO
- El intervalo de confianza es para la media, no para los datos individuales
-
Usaríamos intervalo de predicción si fuera para datos individuales
-
B) "Probabilidad de que μ esté en [48.2, 53.8] es 0.95": FALSO
- Interpretación bayesiana, no frecuentista
-
Confunde parámetro con variable aleatoria
-
C) "Si repetimos, 95% de intervalos contendrán μ": VERDADERO
- Interpretación frecuentista correcta
-
Reconoce que el intervalo es el que varía, no el parámetro
-
D) "Media muestral es 51 con 95% certeza": FALSO
- La media muestral (punto central del intervalo) es determinística, no aleatoria
- No tiene "certeza"
Relación con la media muestral:
El punto central del intervalo es: $\(\bar{x} = \frac{48.2 + 53.8}{2} = \frac{102}{2} = 51\)$
Pero la media muestral es un número fijo observado, no una variable aleatoria con "certeza".
Solución pregunta 19 — Definición de p-valor
Enunciado: En un contraste de hipótesis, el p-valor representa:
Respuesta correcta: C) La probabilidad de obtener resultados tan extremos o más, asumiendo que \(H_0\) es cierta.
Desarrollo:
Definición formal del p-valor:
El p-valor (o valor p) es la probabilidad de observar un estadístico de prueba tan extremo o más extremo que el observado, bajo el supuesto de que la hipótesis nula \(H_0\) es verdadera.
Interpretación:
Un p-valor pequeño indica que los datos observados son inconsistentes con \(H_0\):
- p < 0.05 → Hay menos del 5% de probabilidad de observar estos datos si \(H_0\) fuera cierta
- p < 0.01 → Hay menos del 1% de probabilidad
Análisis de opciones:
- A) "Probabilidad de que \(H_0\) sea cierta": FALSO
- El p-valor NO nos dice si \(H_0\) es cierta
- Es una interpretación bayesiana erronea
-
El p-valor es frecuentista: asume \(H_0\) verdadera y calcula probabilidad de datos
-
B) "Probabilidad de cometer error de tipo I": FALSO
- El error tipo I es "rechazar \(H_0\) cuando es verdadera"
- Su probabilidad es α (nivel de significación), no el p-valor
-
Aunque están relacionados (rechazamos si p < α)
-
C) "Probabilidad de obtener resultados tan extremos o más, asumiendo \(H_0\) cierta": VERDADERO
-
Definición correcta y frecuentista
-
D) "El nivel de significación del test": FALSO
- El nivel de significación es α (elegido antes del test)
- El p-valor es calculado después y depende de los datos
- Se comparan: rechazamos si p-valor < α
Ejemplo:
En un test bilateral sobre media, si:
- \(H_0: \mu = 0\)
- Observamos \(\bar{x} = 2.1\) con SE = 0.5
- Estadístico t = 2.1/0.5 = 4.2
El p-valor es:
Interpretación: "Si \(H_0\) fuera cierta, solo hay 0.02% de probabilidad de observar un t tan extremo. Los datos parecen incompatibles con \(H_0\)."
Solución pregunta 20 — Estimador insesgado
Enunciado: Un estimador se considera insesgado si:
Respuesta correcta: B) Su valor esperado es igual al parámetro poblacional que estima.
Desarrollo:
Definición de estimador insesgado:
Sea \(\hat{\theta}\) un estimador del parámetro poblacional θ. Se dice que \(\hat{\theta}\) es insesgado si:
Es decir, el valor esperado del estimador es exactamente igual al parámetro que estima.
Interpretación:
Un estimador insesgado no presenta sesgo sistemático. En promedio, sobre muchas muestras, el estimador "acierta" el valor del parámetro.
Ejemplos de estimadores insesgados:
- Media muestral: \(\bar{X} = \frac{1}{n}\sum X_i\) estima \(\mu\)
- Varianza muestral corregida: \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\) estima \(\sigma^2\)
(Nota: divisor es n-1, no n)
- Proporción muestral: \(\hat{p} = \frac{k}{n}\) estima p
Ejemplo de estimador sesgado:
Varianza muestral sin corregir: \(S_0^2 = \frac{1}{n}\sum(X_i - \bar{X})^2\)
Análisis de opciones:
A) "Varianza mínima": FALSO
- Eso es propiedad de eficiencia
- Insesgadez y eficiencia son independientes
B) "Valor esperado = parámetro": VERDADERO
- Definición de insesgadez
C) "Error cuadrático medio = 0": FALSO
- ECM = 0 sería demasiado restrictivo
- No existe estimador con ECM = 0 (excepto trivial)
- Insesgadez implica ECM = Var(θ̂), pero no necesariamente = 0
D) "Converge a valor verdadero": FALSO
- Eso es propiedad de consistencia
- Estimador puede ser insesgado sin ser consistente
Solución pregunta 21 — Regla de decisión en contraste de hipótesis
Enunciado: En un test t de Student para muestras independientes, se rechaza \(H_0\) con \(\alpha = 0.05\) obteniendo \(p = 0.03\). Si se hubiera usado \(\alpha = 0.01\), la decisión sería:
Respuesta correcta: B) No rechazar \(H_0\).
Desarrollo:
Regla de decisión en contraste frecuentista:
Rechazamos \(H_0\) si y solo si:
No rechazamos \(H_0\) si:
Paso 1: Análisis con \(\alpha = 0.05\)
- p-valor observado: 0.03
- Nivel de significación: α = 0.05
- Comparación: 0.03 < 0.05
- Decisión: RECHAZAR \(H_0\) ✓ (consistente con el enunciado)
Paso 2: Análisis con \(\alpha = 0.01\)
- p-valor observado: 0.03 (no cambia, depende solo de los datos)
- Nivel de significación: α = 0.01
- Comparación: 0.03 > 0.01
- Decisión: NO RECHAZAR \(H_0\)
Explicación:
El p-valor es una característica de los datos y el test realizado. Una vez observados los datos, el p-valor no cambia.
Lo que cambiaría es nuestro criterio de decisión (α). Bajando α de 0.05 a 0.01, hacemos el test más restrictivo: exigimos evidencia más fuerte contra \(H_0\).
Análisis de opciones:
A) "Rechazar definitivamente": FALSO (0.03 > 0.01, no rechazamos)
B) "No rechazar": VERDADERO (0.03 > 0.01)
C) "Rechazar solo si n > 30": FALSO
- La regla no depende del tamaño muestral una vez calculado p
- Aunque n pueda haber afectado el p-valor
D) "No se puede determinar": FALSO
- La regla es clara: comparar p con α
Intuición:
p = 0.03 significa "hay 3% de probabilidad de observar estos datos si \(H_0\) fuera cierta".
- ¿Es 3% sorprendente comparado con 5% de límite? SÍ → Rechazamos
- ¿Es 3% sorprendente comparado con 1% de límite? NO → No rechazamos
Solución pregunta 22 — Test de Kolmogorov-Smirnov
Enunciado: El test de Kolmogorov-Smirnov (KS) se utiliza para contrastar si una muestra proviene de una distribución teórica específica. ¿Cuál de las siguientes afirmaciones es correcta?
Respuesta correcta: D) El test KS es sensible a diferencias en cualquier parte de la distribución, no solo en las colas.
Desarrollo:
Test de Kolmogorov-Smirnov (KS):
Es una prueba de bondad de ajuste no paramétrica que contrasta:
- \(H_0\): La muestra proviene de una distribución teórica específica
- \(H_1\): La muestra NO proviene de esa distribución
Estadístico de prueba:
donde:
- \(F_n(x)\) = función de distribución empírica (ECDF) de la muestra
- \(F(x)\) = función de distribución teórica especificada
Mide la máxima desviación vertical entre la ECDF y la CDF teórica.
Características del test KS:
1) Aplicabilidad:
- Mejor para distribuciones continuas
- Menos potente para distribuciones discretas (aunque existe versión ajustada)
2) Estadístico:
- Mide distancia máxima (supremo)
- NO es una suma de diferencias
3) Parámetros:
- Si los parámetros de F(x) son conocidos a priori: el test es directo
- Si se estiman de los datos: el p-valor debe ajustarse (test de Kolmogorov-Smirnov modificado)
4) Sensibilidad:
- Es sensible a diferencias en cualquier parte de la distribución
- Particularmente en el centro de la distribución
- Menos sensible en las colas que en el centro
Contraste con el test chi-cuadrado:
- Chi-cuadrado: agrupa datos en categorías (menos sensible a detalles)
- KS: usa datos individuales (más sensible a pequeñas desviaciones)
Análisis de opciones:
A) "Solo para distribuciones discretas": FALSO
- Es mejor para continuas, aunque existe versión para discretas
B) "Mide suma de diferencias": FALSO
- Mide máxima diferencia vertical (supremo), no suma
- La suma es característica del test \(\chi^2\)
C) "Requiere parámetros conocidos a priori": FALSO/PARCIALMENTE VERDADERO
- Idealmente sí, pero existen versiones que estiman parámetros
- No es un requisito absoluto (aunque afecta el p-valor)
D) "Sensible a diferencias en cualquier parte": VERDADERO
- Es la fortaleza del test KS
- A diferencia de tests más locales
Ejemplo:
Testear si datos siguen \(N(0,1)\):
- Comparar ECDF con \(\Phi(x)\) (CDF normal estándar)
- Máxima diferencia detecta desviación de la normalidad en cualquier cuantil
Solución pregunta 23 — Grados de libertad en chi-cuadrado
Enunciado: En una prueba chi-cuadrado de bondad de ajuste con 5 categorías, los grados de libertad son:
Respuesta correcta: B) 4.
Desarrollo:
Test chi-cuadrado de bondad de ajuste:
Contrasta si los datos provienen de una distribución teórica especificada.
Estadístico de prueba:
donde:
- \(O_i\) = frecuencia observada en categoría i
- \(E_i\) = frecuencia esperada en categoría i
- k = número de categorías
Grados de libertad:
donde:
- k = número de categorías
- m = número de parámetros estimados de la distribución teórica
Explicación:
- Tenemos k valores observados (O₁, O₂, ..., O_k)
- Pero están sujetos a la restricción: \(\sum O_i = n\) (total de observaciones)
- Esto reduce los grados de libertad en 1: tenemos k-1 valores libres
- Si estimamos m parámetros de la distribución teórica, perdemos m grados más
- Total: df = k - 1 - m
En este problema:
- Número de categorías: k = 5
- Parámetros estimados: m = 0 (se asume que la distribución teórica es especificada completamente)
- Grados de libertad: df = 5 - 1 - 0 = 4
Ejemplos adicionales:
- Test de ajuste a Normal: k = 8 categorías, estimamos μ y σ (m = 2)
-
df = 8 - 1 - 2 = 5
-
Test de ajuste a Poisson: k = 6 categorías, estimamos λ (m = 1)
-
df = 6 - 1 - 1 = 4
-
Test de independencia de tabla 3×4: (3-1)×(4-1) = 2×3 = 6
- (Nota: fórmula diferente porque aquí probamos asociación, no ajuste a distribución teórica)
Respuesta: df = 4
Solución pregunta 24 — Interpretación de p-valor próximo al nivel de significación
Enunciado: Un investigador obtiene un p-valor de 0.06 en un contraste bilateral. ¿Cuál es la interpretación más adecuada con \(\alpha = 0.05\)?
Respuesta correcta: B) No se rechaza \(H_0\), pero hay evidencia moderada que sugiere explorar más el fenómeno.
Desarrollo:
Decisión formal con \(\alpha = 0.05\):
Regla: Rechazamos \(H_0\) si p-valor ≤ α
- p-valor = 0.06
- α = 0.05
- 0.06 > 0.05
- Decisión formal: NO RECHAZAR \(H_0\)
Interpretación del p-valor = 0.06:
- Si \(H_0\) fuera verdadera, hay 6% de probabilidad de observar resultados tan extremos o más
- Esto está muy cerca del umbral del 5%
- Los datos proporcionan cierta evidencia contra \(H_0\), aunque no es suficiente para rechazar formalmente
Análisis de opciones:
- A) "Evidencia muy fuerte contra \(H_0\)": FALSO
- p = 0.06 no es "muy fuerte"
-
Es bastante marginal, muy cerca del umbral
-
B) "No se rechaza, pero hay evidencia moderada": VERDADERO
- Respeta la regla de decisión formal (no rechaza porque p > α)
- Reconoce que p = 0.06 está próximo a α = 0.05
- Sugiere prudentemente explorar más investigación
-
Esta es la interpretación equilibrada y científicamente honesta
-
C) "Se acepta \(H_0\) como verdadera": FALSO
- En estadística frecuentista, NO "aceptamos" \(H_0\)
- "No rechazar" ≠ "aceptar"
-
Solo decimos que los datos no proporcionan evidencia suficiente para rechazar
-
D) "Significativo al 5%": FALSO
- 0.06 > 0.05, por tanto NO es significativo al nivel 5%
Contexto científico:
En la práctica, aunque técnicamente no se rechaza \(H_0\) con α = 0.05:
- Un p-valor de 0.06 es considerado "marginalmente significativo"
- Sugiere que el efecto observado, aunque no es estadísticamente significativo al 5%, merece investigación adicional
- Se podría:
- Aumentar el tamaño muestral para mayor precisión
- Replicar el estudio
- Ajustar el diseño experimental
Ventaja sobre conclusiones categóricas:
La opción B es científicamente superior a:
- Declarar categóricamente "sin efecto" (no hay evidencia)
- Rechazar sin más (violando el protocolo)
- Ignorar p = 0.06 como sin importancia
Reconoce la realidad: los datos están en la "zona gris" de la estadística.