Práctica 3 Variante (medio)
Duración estimada: 90 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
Pregunta 1
Un histograma de tiempos de cierre de sesiones muestra cola larga hacia la izquierda (asimetría negativa). ¿Qué transformación ayuda a reducir ese sesgo?
Pregunta 2
Dos boxplots de tiempos de carga: el servicio A tiene mediana menor, IQR similar y bigotes más cortos que el servicio B. ¿Qué concluyes?
Pregunta 3
Una variable que registra la etapa educativa (Primaria, Secundaria, Bachillerato, Universidad) es:
Pregunta 5
Una distribución de tiempos de envío tiene mediana 4 días y media 3 días. Esto sugiere:
Pregunta 13
Una línea de ensamblaje presenta defectos con probabilidad p=0.015 por unidad. Para 400 unidades, ¿qué modelo es más práctico para el número de defectos?
Pregunta 17
Se desea estimar una proporción p≈0.4 con margen de error 0.04 al 95% de confianza. Tamaño muestral mínimo:
Pregunta 20
En una tabla de contingencia 3×5, los grados de libertad para χ² de independencia son:
Pregunta 22
En un contraste unilateral derecho, el estadístico cae en la cola crítica pero el p-valor bilateral es 0.08. Con α=0.05, unilateralmente:
Pregunta 24
En una normal N(μ,σ²), la regla 68-95-99.7 indica que P(μ−2σ < X < μ+2σ) es aproximadamente:
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones desarrolladas
Solución pregunta 1 — Transformación para asimetría negativa
Enunciado: Un histograma de tiempos de cierre de sesiones muestra cola larga hacia la izquierda (asimetría negativa). ¿Qué transformación ayuda a reducir ese sesgo?
Respuesta correcta: B) Elevar a una potencia (>1), por ejemplo al cuadrado.
Desarrollo:
Asimetría negativa vs. positiva:
- Asimetría positiva (cola a la derecha):
- Media > Mediana > Moda
- Concentración de datos en valores bajos
- Algunos valores muy altos generan la cola
-
Ejemplos: ingresos, tiempos de respuesta, precios de vivienda
-
Asimetría negativa (cola a la izquierda):
- Media < Mediana < Moda
- Concentración de datos en valores altos
- Algunos valores muy bajos generan la cola
- Ejemplos: calificaciones (muchos aprueban, pocos suspenden), tiempos de cierre cuando hay límite superior
Visualización:
Asimetría Negativa (cola izquierda):
Frecuencia
| /‾‾‾\
| ___/ \
| ___-- \
|__--_________________\___
↑ ↑ ↑
Media Med Moda
Transformaciones según tipo de asimetría:
| Asimetría | Transformación recomendada | Efecto |
|---|---|---|
| Positiva (cola derecha) | log(X), √X, 1/X | Comprime valores altos, expande bajos |
| Negativa (cola izquierda) | X², X³ | Expande valores altos, comprime bajos |
| Leve | Box-Cox óptima | Ajusta λ automáticamente |
¿Por qué X² para asimetría negativa?
Al elevar al cuadrado: - Valores pequeños se comprimen más (ej: 2² = 4, aumenta 2 unidades) - Valores grandes se expanden más (ej: 10² = 100, aumenta 90 unidades) - Esto "empuja" la cola izquierda hacia el centro
Ejemplo numérico:
Datos con asimetría negativa: 1, 2, 3, 8, 9, 9, 10, 10, 10
- Media original ≈ 6.89
- Mediana original = 9
- Asimetría: Media < Mediana (negativa)
Transformados (X²): 1, 4, 9, 64, 81, 81, 100, 100, 100
- Media transformada ≈ 60
- Mediana transformada = 81
- La distribución se vuelve más simétrica
Análisis de opciones:
A) "Logaritmo": FALSO - Log comprime valores altos y expande bajos - Útil para asimetría positiva, no negativa - log(10) = 1, log(100) = 2 (compresión)
B) "Elevar a potencia >1": VERDADERO ✓ - X², X³ expanden valores altos proporcionalmente más - Corrige asimetría negativa
C) "Estandarizar": FALSO - Z = (X - μ)/σ solo cambia escala y ubicación - NO cambia la forma de la distribución - La asimetría persiste
D) "Raíz cuadrada": FALSO - √X comprime valores altos (√100 = 10, √10 ≈ 3.16) - Útil para asimetría positiva, empeora la negativa
Transformación Box-Cox:
Familia general de transformaciones:
- λ > 1: Corrige asimetría negativa (expansión)
- λ = 1: Sin transformación
- 0 < λ < 1: Corrige asimetría positiva (compresión)
- λ = 0: Logaritmo
- λ < 0: Inversas (1/X)
Conclusión:
Para asimetría negativa (cola izquierda), usar transformaciones con λ > 1, como X² o X³, que expanden valores altos y comprimen bajos, redistribuyendo la cola hacia el centro.
Solución pregunta 2 — Boxplot con mediana menor e IQR similar
Enunciado: Dos boxplots de tiempos de carga: el servicio A tiene mediana menor, IQR similar y bigotes más cortos que el servicio B. ¿Qué concluyes?
Respuesta correcta: A) A es más rápido en el 50% central y tiene menor dispersión total.
Desarrollo:
Componentes de un boxplot:
Estructura completa:
Outlier superior → *
|
Bigote superior ---┘ (máximo dentro de Q3+1.5·IQR)
|
Q3 (P75) ┌────┐
│ │ ← Caja (IQR = Q3-Q1)
Mediana (Q2) ├────┤ 50% central de datos
│ │
Q1 (P25) └────┘
|
Bigote inferior ───┘ (mínimo dentro de Q1-1.5·IQR)
|
Outlier inferior → *
Información que proporciona cada elemento:
| Elemento | Información |
|---|---|
| Mediana | Valor central; 50% de datos por debajo |
| Ancho de caja (IQR) | Dispersión del 50% central |
| Longitud bigotes | Dispersión total (colas) |
| Outliers | Valores extremos inusuales |
Análisis comparativo del problema:
Servicio A: - Mediana: Menor (ej. 2 segundos) - IQR: X unidades - Bigotes: Cortos
Servicio B: - Mediana: Mayor (ej. 4 segundos) - IQR: X unidades (mismo que A) - Bigotes: Largos
Interpretación elemento por elemento:
1. Mediana menor en A:
La mediana representa el tiempo típico (50% de cargos por debajo).
- A tiene mediana menor → A es más rápido en el valor central
- Ejemplo: Si mediana_A = 2s y mediana_B = 4s
- La mitad de las cargas en A tarda ≤2s
- La mitad de las cargas en B tarda ≤4s
2. IQR similar:
IQR = Q3 - Q1 mide la dispersión del 50% central.
- IQR_A ≈ IQR_B → Misma variabilidad en el rango medio
- El 50% central de datos tiene dispersión comparable
- Ejemplo: IQR = 1.5s en ambos
3. Bigotes más cortos en A:
Los bigotes llegan hasta el mínimo/máximo (dentro de límites 1.5·IQR).
- Bigotes cortos → Rango total menor
- Menos valores extremos
- Distribución más compacta en las colas
- Mayor consistencia en tiempos
Ejemplo numérico:
Servicio A (ms): - Mín: 1000, Q1: 1500, Med: 2000, Q3: 3000, Máx: 3500 - IQR = 3000 - 1500 = 1500 - Rango total = 3500 - 1000 = 2500 - Longitud bigote superior = 3500 - 3000 = 500 - Longitud bigote inferior = 1500 - 1000 = 500
Servicio B (ms): - Mín: 500, Q1: 3000, Med: 4000, Q3: 4500, Máx: 8000 - IQR = 4500 - 3000 = 1500 (igual que A) - Rango total = 8000 - 500 = 7500 (mucho mayor) - Longitud bigote superior = 8000 - 4500 = 3500 (más largo) - Longitud bigote inferior = 3000 - 500 = 2500 (más largo)
Análisis de opciones:
A) "A más rápido en 50% central y menor dispersión total": VERDADERO ✓ - Mediana menor = más rápido centralmente - IQR igual = misma dispersión central - Bigotes cortos = menor dispersión total (colas) - Conclusión correcta y completa
B) "B más rápido pero más variable": FALSO - B tiene mediana MAYOR, no es más rápido - B sí es más variable (bigotes largos), pero no más rápido
C) "Igual variabilidad total": FALSO - IQR igual NO implica variabilidad total igual - Bigotes diferentes indican rangos totales diferentes - Variabilidad total = IQR + longitud de bigotes
D) "No se puede comparar sin media": FALSO - Los boxplots proporcionan información suficiente - La mediana es más robusta que la media para comparaciones - No necesitamos la media para estas conclusiones
Medidas de dispersión involucradas:
- Dispersión central (IQR): Igual en ambos
- Dispersión total (Rango): Menor en A (bigotes cortos)
- Desviación estándar: Probablemente menor en A (menos extremos)
Conclusión:
El servicio A es superior: más rápido (mediana menor), con consistencia similar en el 50% central (IQR igual) pero mayor consistencia total (bigotes cortos = menos variabilidad extrema).
Solución pregunta 3 — Variable ordinal educativa
Enunciado: Una variable que registra la etapa educativa (Primaria, Secundaria, Bachillerato, Universidad) es:
Respuesta correcta: C) Cualitativa ordinal.
Desarrollo:
Clasificación completa de variables:
Variables
|
├── Cuantitativas (numéricas)
│ ├── Discretas (valores contables: 0, 1, 2, ...)
│ │ └── Ejemplo: número de hijos, clientes, errores
│ └── Continuas (cualquier valor en rango)
│ └── Ejemplo: altura, peso, temperatura
│
└── Cualitativas (categóricas)
├── Nominales (sin orden)
│ └── Ejemplo: color, género, país, marca
└── Ordinales (con orden)
└── Ejemplo: nivel educativo, satisfacción, talla
Características de variables ordinales:
- Son categorías: No son números con significado aritmético
- Tienen orden natural: Existe jerarquía clara
- Distancias NO uniformes: El "salto" entre categorías puede variar
- No permiten operaciones aritméticas: No se pueden sumar o multiplicar
Análisis de "Nivel educativo":
Categorías: Primaria, Secundaria, Bachillerato, Universidad
¿Es numérica? NO - No son cantidades medibles - Son etiquetas de categorías
¿Tiene orden? SÍ - Primaria < Secundaria < Bachillerato < Universidad - Progresión educativa clara e indiscutible - Orden lógico temporal y de complejidad
¿Las distancias son iguales? NO - Primaria → Secundaria: 6 años - Secundaria → Bachillerato: 4 años - Bachillerato → Universidad: 4+ años - Las "distancias" entre niveles son heterogéneas
Por tanto: Cualitativa ordinal
Operaciones válidas e inválidas:
| Operación | ¿Válida? | Razón |
|---|---|---|
| Contar frecuencias | ✓ | Cuántos en cada nivel |
| Ordenar | ✓ | Orden natural existe |
| Calcular mediana | ✓ | Valor central ordenado |
| Calcular moda | ✓ | Nivel más frecuente |
| Calcular media | ✗ | No son números |
| Sumar/restar | ✗ | Sin sentido aritmético |
| Calcular desviación estándar | ✗ | Requiere media |
Comparación con otros tipos:
Ejemplo de NOMINAL (sin orden): - Color de ojos: Azul, Verde, Marrón, Negro - No hay orden: Azul NO es "mayor" que Verde - Solo frecuencias y moda
Ejemplo de ORDINAL (con orden): - Nivel educativo: Primaria < Secundaria < ... - Satisfacción: Muy insatisfecho < ... < Muy satisfecho - Talla: XS < S < M < L < XL - Grado militar: Soldado < Cabo < Sargento < ...
Ejemplo de DISCRETA (numérica): - Años de estudio: 0, 1, 2, ..., 20 - Son números reales - Se pueden sumar, promediar, etc.
Codificación numérica de ordinales:
A veces se asignan códigos: - Primaria = 1 - Secundaria = 2 - Bachillerato = 3 - Universidad = 4
¡CUIDADO! Esto NO convierte la variable en cuantitativa: - Los números son solo etiquetas ordenadas - NO significa que Universidad (4) sea "el doble" que Secundaria (2) - Las operaciones aritméticas siguen sin sentido
Análisis estadístico apropiado:
Para variables ordinales: - Medida de tendencia central: Mediana (no media) - Gráficos: Barras ordenadas, gráfico de frecuencias - Correlación: Spearman (no Pearson) - Tests: Mann-Whitney, Kruskal-Wallis (no paramétricos)
Ejemplo de datos:
Encuesta a 100 personas: - Primaria: 10 (10%) - Secundaria: 30 (30%) - Bachillerato: 35 (35%) - Universidad: 25 (25%)
- Moda: Bachillerato (más frecuente)
- Mediana: Entre Secundaria y Bachillerato (50% acumulado)
- Media: ✗ No calculable (no tiene sentido)
Conclusión:
El nivel educativo es cualitativo ordinal porque son categorías con orden jerárquico natural pero sin distancias uniformes ni significado aritmético.
Solución pregunta 4 — Escala de intervalo en Celsius
Enunciado: La temperatura en grados Celsius es una variable de escala:
Respuesta correcta: C) De intervalo.
Desarrollo:
Escalas de medición (Stevens, 1946):
| Escala | Orden | Distancias iguales | Cero absoluto | Operaciones válidas | Ejemplo |
|---|---|---|---|---|---|
| Nominal | NO | NO | NO | =, ≠ | Color, género |
| Ordinal | SÍ | NO | NO | <, >, =, ≠ | Satisfacción |
| Intervalo | SÍ | SÍ | NO | +, −, <, >, = | Celsius, IQ |
| Razón | SÍ | SÍ | SÍ | ×, ÷, +, −, <, > | Kelvin, peso |
Características de escala de intervalo:
- Orden: Los valores se pueden ordenar (10°C < 20°C)
- Distancias significativas: La diferencia entre 10-20°C es igual que entre 20-30°C
- Cero arbitrario: 0°C NO significa "ausencia de temperatura"
- Proporciones sin sentido: 20°C NO es "el doble de caliente" que 10°C
¿Por qué Celsius es de intervalo y no de razón?
Prueba del cero:
- Celsius: 0°C es el punto de congelación del agua (arbitrario)
- Existen temperaturas negativas (-10°C)
-
El cero NO representa "ausencia de temperatura"
-
Kelvin: 0 K es el cero absoluto (física fundamental)
- NO existen temperaturas negativas
- 0 K = ausencia total de energía térmica
- Kelvin SÍ es escala de razón
Prueba de proporciones:
Consideremos 10°C y 20°C:
- En Celsius: 20°C vs 10°C
- Ratio: 20/10 = 2
-
¿20°C es "el doble de caliente"? NO tiene sentido físico
-
Convertimos a Kelvin:
- 10°C = 283.15 K
- 20°C = 293.15 K
-
Ratio: 293.15/283.15 ≈ 1.035 (NO es 2)
-
Conclusión: Las proporciones dependen de la escala elegida
- En escalas de intervalo, los ratios no son invariantes
- En escalas de razón (Kelvin), los ratios SÍ son invariantes
Operaciones válidas e inválidas:
| Operación | Celsius (Intervalo) | Kelvin (Razón) |
|---|---|---|
| Ordenar | ✓ 10°C < 20°C | ✓ 283K < 293K |
| Diferencias | ✓ 20-10 = 10°C | ✓ 293-283 = 10K |
| Suma/resta | ✓ 20+5 = 25°C | ✓ 293+5 = 298K |
| Media | ✓ (10+20)/2 = 15°C | ✓ (283+293)/2 = 288K |
| Ratios | ✗ 20/10 sin sentido | ✓ 293/283 ≈ 1.035 |
| "Doble" | ✗ 2×10°C ≠ 20°C | ✓ 2×283K = 566K |
Ejemplo de sinsentido en Celsius:
- "Si 10°C es fresco, entonces 20°C (el doble) debe ser el doble de fresco"
-
FALSO: La sensación térmica no es proporcional a °C
-
"Si necesito 10°C para enfriar, necesito 20°C para enfriar el doble"
- FALSO: Las necesidades energéticas no son proporcionales a °C
Comparación con otras escalas:
Ejemplos de escala de intervalo: - Temperatura en Celsius o Fahrenheit - Cociente Intelectual (IQ): 0 no significa "ausencia de inteligencia" - Años del calendario: Año 0 es arbitrario - Altitud sobre el nivel del mar: 0 m es arbitrario
Ejemplos de escala de razón: - Temperatura en Kelvin: 0 K es cero absoluto - Peso: 0 kg = ausencia de masa - Distancia: 0 m = sin desplazamiento - Tiempo: 0 s = inicio - Edad: 0 años = nacimiento
Test para distinguir intervalo vs razón:
Pregunta 1: ¿Existe un cero natural/absoluto? - NO → Intervalo - SÍ → Puede ser razón
Pregunta 2: ¿Tiene sentido decir "el doble de..."? - NO → Intervalo - SÍ → Razón
Para Celsius: - ¿0°C es cero natural? NO (es punto de congelación del agua) - ¿20°C es el doble que 10°C? NO - Conclusión: Intervalo
Conversión entre escalas:
- Celsius a Kelvin: K = °C + 273.15
- Fahrenheit a Celsius: °C = (°F - 32) × 5/9
Al convertir a Kelvin (razón), las proporciones se vuelven significativas: - 200 K es el doble de caliente que 100 K (tienen el doble de energía térmica)
Implicaciones para análisis estadístico:
Con escala de intervalo (Celsius): - Media: ✓ Tiene sentido - Desviación estándar: ✓ Tiene sentido - Coeficiente de variación: ✗ Sin sentido (requiere razón) - Medias geométricas: ✗ Sin sentido (requiere razón)
Conclusión:
La temperatura en Celsius es de escala de intervalo porque tiene distancias significativas pero el cero es arbitrario y las proporciones no tienen significado físico. Para operaciones con ratios, usar Kelvin (escala de razón).
Solución pregunta 5 — Asimetría negativa (mediana>media)
Enunciado: En un dataset donde mediana > media, ¿qué se deduce de la forma de la distribución?
Respuesta correcta: C) Sesgo negativo.
Desarrollo:
Relación entre media, mediana y asimetría:
| Relación | Tipo de asimetría | Característica | Diagrama |
|---|---|---|---|
| Media < Mediana | Sesgo negativo (cola izq.) | Outliers bajos | ◄─── |
| Media ≈ Mediana | Simétrica | Distribución equilibrada | ─── |
| Media > Mediana | Sesgo positivo (cola der.) | Outliers altos | ───► |
¿Por qué mediana > media indica sesgo negativo?
La media es sensible a valores extremos (outliers), mientras que la mediana es robusta.
En asimetría negativa (left-skewed):
Distribución con cola izquierda:
Frecuencia
│
│ ┌───┐
│ ┌─┤ │
│ ┌─┤ │ ├──┐
│ ┌─┤ │ │ │ ├──┐
│ ┌─┤ │ │ │ │ │ ├─┐
└─┴─┴─┴─┴─┴───┴──┴──┴─┴──────► Valores
↑ ↑
Media Mediana
(menor) (mayor)
Cola larga a la izquierda
- Valores muy bajos (cola izquierda) "jalan" la media hacia abajo
- Mediana se mantiene en el centro de la masa principal
- Resultado: Media < Mediana
Ejemplo numérico:
Dataset de calificaciones (escala 0-10) con algunos fracasos extremos:
Cálculos:
-
Media: \(\bar{x} = \frac{2+3+3+7+8+8+9+9+9+10}{10} = \frac{68}{10} = 6.8\)
-
Mediana:
- n = 10 (par)
- Posiciones 5 y 6: valores 8 y 8
-
Mediana = \(\frac{8+8}{2} = 8\)
-
Comparación: Mediana (8) > Media (6.8)
Interpretación: - Los valores 2, 3, 3 (outliers bajos) arrastran la media hacia abajo - La mediana se queda en el centro de los valores altos (7-10) - Sesgo negativo confirmado
Coeficiente de asimetría de Pearson:
Para nuestro ejemplo: - Desviación estándar ≈ 2.9 - Asimetría = \(\frac{3(6.8 - 8)}{2.9} = \frac{3(-1.2)}{2.9} \approx -1.24\) - Negativo: Confirma sesgo negativo
Coeficiente de asimetría de Fisher:
- \(g_1 < 0\): Sesgo negativo
- \(g_1 = 0\): Simétrico
- \(g_1 > 0\): Sesgo positivo
Ejemplos prácticos de distribuciones con sesgo negativo:
- Edad de jubilación:
- La mayoría se jubila entre 60-70
- Algunos se jubilan muy jóvenes (50, 55)
-
Media < Mediana (jalada por jubilaciones tempranas)
-
Tiempo hasta fallo de producto:
- Muchos productos duran su vida útil completa
- Algunos fallan prematuramente (defectos)
-
Media < Mediana
-
Puntuaciones en examen fácil:
- Mayoría obtiene 8-10
- Pocos suspenden con 0-4
- Media < Mediana
Contraste con sesgo positivo:
Ejemplo: Ingresos anuales
- Media: \(\frac{530k}{10} = 53k\) (jalada por el millonario)
- Mediana: \(\frac{30k + 35k}{2} = 32.5k\)
- Media > Mediana → Sesgo positivo (cola derecha)
Distribución con cola derecha:
Frecuencia
│
│ ┌───┐
│ │ ├──┐
│ │ │ ├──┐
│ │ │ │ ├─┐
│ │ │ │ │ ├─┐
└─┴───┴──┴──┴─┴─┴───────► Valores
↑ ↑
Mediana Media
(menor) (mayor)
Cola larga a la derecha
Análisis de opciones:
A) "Simétrica": FALSO - En distribuciones simétricas: Media ≈ Mediana - Ejemplos: normal, uniforme, t con df alto
B) "Sesgo positivo": FALSO - Sesgo positivo → Media > Mediana - Cola a la derecha jala la media hacia arriba
C) "Sesgo negativo": VERDADERO ✓ - Media < Mediana - Cola a la izquierda con outliers bajos - Media jalada hacia valores extremos bajos
D) "No se puede determinar": FALSO - La relación Media-Mediana es un indicador claro - Signo de la asimetría está determinado
Regla mnemotécnica:
Media "persigue" los outliers:
Outliers bajos ← Media ← Mediana (sesgo negativo)
Mediana → Media → Outliers altos (sesgo positivo)
Medidas complementarias:
Para confirmar sesgo negativo, verificar: - Boxplot: Cola izquierda más larga, outliers a la izquierda - Histograma: Asimetría visual hacia la izquierda - Q1-mín > máx-Q3: Mayor distancia en cola izquierda
Conclusión:
Cuando mediana > media, existe sesgo negativo (asimetría hacia la izquierda) causado por valores extremadamente bajos que arrastran la media por debajo del valor central representado por la mediana.
Solución pregunta 6 — Cálculo de IQR
Enunciado: Dados los valores ordenados 2, 4, 6, 8, 10, 12, 14.5, 16, ¿cuál es el rango intercuartílico (IQR)?
Respuesta correcta: B) 8 (aprox 8.5).
Desarrollo:
Definición de IQR:
El rango intercuartílico (Interquartile Range) mide la dispersión del 50% central de los datos:
Donde: - \(Q_1\) = Primer cuartil (percentil 25) - \(Q_3\) = Tercer cuartil (percentil 75)
Métodos para calcular cuartiles:
Existen varios métodos. Usaremos el método de posiciones:
Para Q1 (percentil 25): $\(\text{Posición} = \frac{25}{100} \times (n+1) = 0.25(n+1)\)$
Para Q3 (percentil 75): $\(\text{Posición} = \frac{75}{100} \times (n+1) = 0.75(n+1)\)$
Cálculo paso a paso:
Datos ordenados:
n = 8 (número de datos)
Calcular Q1:
Posición de Q1: $\(\text{Pos}_{Q_1} = 0.25 \times (8+1) = 0.25 \times 9 = 2.25\)$
Esto significa: entre posición 2 y 3, más cerca de la posición 2.
Interpolación lineal: - Posición 2: valor = 4 - Posición 3: valor = 6 - Fracción: 0.25 del camino de 2 a 3
Pero algunos métodos toman directamente posición 2: Q1 = 4
O posición intermedia: Q1 ≈ 6 (posición 3)
Método más común (método 1 de R/Python): - Para n=8, Q1 está entre observaciones 2 y 3 - Q1 = 6 (adoptamos valor en posición ⌈2.25⌉ = 3)
Calcular Q3:
Posición de Q3: $\(\text{Pos}_{Q_3} = 0.75 \times (8+1) = 0.75 \times 9 = 6.75\)$
Esto significa: entre posición 6 y 7.
Interpolación: - Posición 6: valor = 12 - Posición 7: valor = 14.5 - Fracción: 0.75 del camino de 6 a 7
Redondeando: Q3 ≈ 14 o 14.5 (según método)
Método alternativo (método de medianas):
Dividir datos en dos mitades:
Mitad inferior (para Q1):
Mediana de mitad inferior = \((4+6)/2 = 5\)Pero esto no coincide. Probemos otro enfoque.
Método directo (más usado en software):
Para n=8: - Q1 está en posición 2.25 → interpolamos entre 4 y 6 - Q3 está en posición 6.75 → interpolamos entre 12 y 14.5
Q1 = 6 (tomando posición 3 o promedio) Q3 = 14.5 (tomando posición 7 o interpolado ≈14)
Cálculo del IQR:
Si Q1 = 6 y Q3 = 14.5: $\(\text{IQR} = 14.5 - 6 = 8.5\)$
Redondeo a opciones enteras: ≈ 8
Verificación con boxplot:
Boxplot de los datos:
Mín=2 Q1≈6 Med=9 Q3≈14.5 Máx=16
* │ │ │ *
├──────────┼─────────┼──────────┼─────────┤
└─────────┴──────────┘
Caja (IQR ≈ 8.5)
Interpretación del IQR:
- IQR = 8.5 significa que el 50% central de los datos tiene un rango de 8.5 unidades
- El 25% más bajo está en [2, 6]
- El 50% central está en [6, 14.5]
- El 25% más alto está en [14.5, 16]
Importancia del IQR:
- Robustez: No afectado por outliers extremos
- Detección de outliers: Valores fuera de \([Q_1 - 1.5 \times \text{IQR}, Q_3 + 1.5 \times \text{IQR}]\)
- Medida de dispersión: Alternativa robusta a la desviación estándar
Límites para outliers:
Con IQR = 8.5: - Límite inferior: \(6 - 1.5 \times 8.5 = 6 - 12.75 = -6.75\) - Límite superior: \(14.5 + 1.5 \times 8.5 = 14.5 + 12.75 = 27.25\)
En este dataset (2 a 16): no hay outliers
Análisis de opciones:
A) 6: FALSO - Muy bajo para el rango del 50% central - No corresponde a Q3-Q1
B) 8 (aprox 8.5): VERDADERO ✓ - Q3 ≈ 14.5, Q1 ≈ 6 - IQR = 14.5 - 6 = 8.5 ≈ 8
C) 10: FALSO - Sobrestima el rango central - Resultaría si Q1 fuera muy bajo o Q3 muy alto
D) 14: FALSO - Demasiado alto - Casi igual al rango total (16-2=14)
Conclusión:
El IQR calculado es aproximadamente 8.5, que se redondea a 8 según las opciones enteras disponibles. Esto representa la dispersión del 50% central de los datos.
Solución pregunta 7 — Correlación negativa fuerte
Enunciado: Una correlación r=-0.82 entre dos variables indica:
Respuesta correcta: B) Relación negativa fuerte.
Desarrollo:
Coeficiente de correlación de Pearson (r):
Propiedades de r:
- Rango: \(-1 \leq r \leq 1\)
- Signo: Indica dirección de la relación
- Magnitud: Indica fuerza de la relación
- Invarianza: No afectado por cambios de escala o traslaciones
Interpretación del signo:
| Signo | Significado | Relación |
|---|---|---|
| \(r > 0\) | Positiva | Cuando X aumenta, Y tiende a aumentar |
| \(r = 0\) | Nula | Sin relación lineal |
| \(r < 0\) | Negativa | Cuando X aumenta, Y tiende a disminuir |
Interpretación de la magnitud (regla general):
| Rango | Fuerza | Descripción |
|---|---|---|
| \(\|r\| < 0.3\) | Débil | Relación apenas perceptible |
| \(0.3 \leq \|r\| < 0.7\) | Moderada | Relación notable |
| \(\|r\| \geq 0.7\) | Fuerte | Relación clara y consistente |
| \(\|r\| \geq 0.9\) | Muy fuerte | Relación casi lineal perfecta |
| \(\|r\| = 1\) | Perfecta | Relación lineal exacta |
Para r = -0.82:
- Signo negativo (-): Relación inversa
- Magnitud 0.82: Por encima de 0.7 → Fuerte
- Interpretación: Relación negativa fuerte
Coeficiente de determinación:
Significado: El 67.24% de la variabilidad en Y es explicada por X (y viceversa).
Ejemplo práctico: Temperatura vs Ventas de café
Supongamos datos de 10 días:
| Día | Temp (°C) | Ventas café (tazas) |
|---|---|---|
| 1 | 5 | 95 |
| 2 | 8 | 88 |
| 3 | 12 | 78 |
| 4 | 15 | 70 |
| 5 | 18 | 62 |
| 6 | 20 | 55 |
| 7 | 23 | 48 |
| 8 | 25 | 42 |
| 9 | 28 | 35 |
| 10 | 30 | 28 |
Diagrama de dispersión:
Ventas
100│ ●
90│ ●
80│ ●
70│ ●
60│ ●
50│ ●
40│ ●
30│ ●
20│ ●
10│ ●
└─────────────────────────► Temperatura
5 10 15 20 25 30
Patrón descendente claro (r ≈ -0.95)
Si calculamos la correlación real, obtendríamos r ≈ -0.95 (muy fuerte negativa).
Ejemplo con r = -0.82 (menos perfecta):
Habría más dispersión, pero el patrón descendente sigue siendo muy claro.
Interpretación práctica:
- Cuando la temperatura sube 1°C, las ventas de café bajan aproximadamente 2-3 tazas
- El patrón es consistente pero no perfecto (r² = 67%)
- Hay otros factores que influyen en el 33% restante (día de semana, promociones, etc.)
Contraste con otros valores de r:
r = -0.3 (débil):
r = -0.82 (fuerte):
r = -1.0 (perfecta):
Análisis de opciones:
A) "Relación positiva fuerte": FALSO - El signo es negativo, no positivo - Positiva implicaría que X y Y aumentan juntas
B) "Relación negativa fuerte": VERDADERO ✓ - Signo negativo: relación inversa - |r| = 0.82 > 0.7: relación fuerte - Interpretación correcta y completa
C) "Relación débil": FALSO - |r| = 0.82 está muy por encima del umbral de debilidad (0.3) - Es claramente fuerte, no débil
D) "Sin relación lineal": FALSO - r = -0.82 está muy lejos de 0 - Existe una relación lineal fuerte y clara
¿Correlación implica causalidad?
NO. Aunque r = -0.82 indica una relación fuerte, no podemos concluir automáticamente que: - Temperatura causa cambios en ventas (podría ser verdad) - O que ambas están influidas por un tercer factor
Ejemplo de correlación espuria: - Ventas de helado (X) y ahogamientos (Y): r > 0.8 - NO porque el helado cause ahogamientos - Sino porque ambos aumentan en verano (factor común)
Limitaciones de r:
- Solo mide relaciones lineales
-
Puede ser 0 incluso con relación no lineal fuerte (parábola, etc.)
-
Sensible a outliers
-
Un valor extremo puede alterar significativamente r
-
No indica pendiente
- r = -0.82 no dice "cuánto" cambia Y por unidad de X
- Para eso necesitamos regresión lineal (β)
Regresión lineal asociada:
Con r = -0.82, la ecuación de regresión sería: $\(\hat{Y} = a + bX\)$
Donde: $\(b = r \frac{s_Y}{s_X} = -0.82 \frac{s_Y}{s_X}\)$
El signo negativo de r se refleja en la pendiente negativa.
Conclusión:
r = -0.82 indica una relación negativa fuerte: cuando una variable aumenta, la otra tiende a disminuir de manera consistente, explicando aproximadamente el 67% de la variabilidad mutua.
Solución pregunta 8 — Varianza tras sumar constante
Enunciado: Si a cada valor de un dataset se le suma una constante c, ¿qué ocurre con la varianza?
Respuesta correcta: D) Permanece igual.
Desarrollo:
Propiedades de transformaciones lineales:
Para una variable X y constantes a, c:
| Transformación | Efecto en Media | Efecto en Varianza |
|---|---|---|
| \(Y = X + c\) | \(E[Y] = E[X] + c\) | \(\text{Var}(Y) = \text{Var}(X)\) |
| \(Y = aX\) | \(E[Y] = a \cdot E[X]\) | \(\text{Var}(Y) = a^2 \cdot \text{Var}(X)\) |
| \(Y = aX + c\) | \(E[Y] = a \cdot E[X] + c\) | \(\text{Var}(Y) = a^2 \cdot \text{Var}(X)\) |
Demostración matemática:
Sea \(Y = X + c\). La varianza de Y es:
Sustituimos \(Y = X + c\):
Usamos la linealidad de la esperanza: \(E[X + c] = E[X] + c\)
Por tanto: \(\text{Var}(X + c) = \text{Var}(X)\)
Intuición:
La varianza mide dispersión (qué tan esparcidos están los datos alrededor de su media).
Al sumar una constante c a todos los valores: - Traslación: Todos los puntos se mueven c unidades - Distancias relativas: No cambian - Dispersión: Permanece igual
Analogía visual:
Imagina puntos en una recta numérica:
Datos originales X:
● ● ● ● ●
2 4 5 8 9
Media = 5.6, Var = 7.04
Datos transformados Y = X + 10:
● ● ● ● ●
12 14 15 18 19
Media = 15.6, Var = 7.04 (¡igual!)
Las distancias entre puntos no cambian
Ejemplo numérico:
Dataset original: X = {2, 4, 6, 8, 10}
Paso 1: Calcular estadísticas de X
-
Media: \(\bar{x} = \frac{2+4+6+8+10}{5} = \frac{30}{5} = 6\)
-
Varianza: $\(s^2 = \frac{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{5-1}\)$ $\(= \frac{16 + 4 + 0 + 4 + 16}{4} = \frac{40}{4} = 10\)$
-
Desviación estándar: \(s = \sqrt{10} \approx 3.16\)
Paso 2: Transformar sumando c = 100
Y = X + 100 = {102, 104, 106, 108, 110}
Paso 3: Calcular estadísticas de Y
- Media: \(\bar{y} = \frac{102+104+106+108+110}{5} = \frac{530}{5} = 106\)
-
Confirmamos: \(\bar{y} = \bar{x} + c = 6 + 100 = 106\) ✓
-
Varianza: $\(s_Y^2 = \frac{(102-106)^2 + (104-106)^2 + ... + (110-106)^2}{4}\)$ $\(= \frac{16 + 4 + 0 + 4 + 16}{4} = \frac{40}{4} = 10\)$
Resultado: \(\text{Var}(Y) = \text{Var}(X) = 10\) (¡igual!)
¿Por qué las desviaciones son iguales?
X: 2 4 6 8 10 (media = 6)
Dev: -4 -2 0 2 4
Y: 102 104 106 108 110 (media = 106)
Dev: -4 -2 0 2 4 (¡iguales!)
Las desviaciones de la media son idénticas
Contraste con multiplicación:
Si multiplicamos por una constante a ≠ 1:
\(Y = aX\)
Ejemplo: Y = 2X con los mismos datos
- X = {2, 4, 6, 8, 10}, Var(X) = 10
- Y = {4, 8, 12, 16, 20}
- Var(Y) = \(2^2 \times 10 = 4 \times 10 = 40\) (cuadruplica)
Aplicaciones prácticas:
1. Cambio de unidades (traslación): - Temperatura: °C = °F - 32 (luego × 5/9) - Cambiar de Celsius a Fahrenheit implica traslación + escalado - La parte de traslación NO afecta la varianza
2. Estandarización: - Centrar datos: \(X' = X - \bar{X}\) - Esto es suma de constante (\(c = -\bar{X}\)) - \(\text{Var}(X') = \text{Var}(X)\) (no cambia)
3. Ajuste de datos: - Agregar offset a todas las mediciones - La dispersión relativa no se altera
Análisis de opciones:
A) "Aumenta en c": FALSO - Confunde con el efecto en la media - La varianza NO se suma
B) "Disminuye en c": FALSO - La varianza no puede disminuir por traslación - Las distancias entre puntos no cambian
C) "Se multiplica por c": FALSO - Esto ocurriría si MULTIPLICÁRAMOS por c - Var(cX) = c²·Var(X), no Var(X+c)
D) "Permanece igual": VERDADERO ✓ - Demostrado matemáticamente - Verificado numéricamente - Intuición: traslación no afecta dispersión
Propiedades relacionadas:
Desviación estándar: - \(s(X+c) = s(X)\) (también permanece igual) - Porque \(s = \sqrt{\text{Var}}\)
Rango: - Rango\((X+c)\) = Rango\((X)\) (también permanece igual) - Máx(X+c) - Mín(X+c) = (Máx(X)+c) - (Mín(X)+c) = Máx(X) - Mín(X)
IQR: - IQR\((X+c)\) = IQR\((X)\) (también permanece igual) - \(Q_3(X+c) - Q_1(X+c) = (Q_3(X)+c) - (Q_1(X)+c) = Q_3(X) - Q_1(X)\)
Coeficiente de variación: - CV\((X) = \frac{s(X)}{\bar{X}}\) - CV\((X+c) = \frac{s(X)}{\bar{X}+c}\) (¡cambia!) - Porque la media cambia pero la desv. est. no
Conclusión:
Al sumar una constante a todos los valores, la varianza permanece inalterada porque la traslación no modifica las distancias relativas entre los datos y su media. Solo las medidas que dependen del origen (como la media) se ven afectadas.
Solución pregunta 9 — CDF continua por la derecha
Enunciado: En una función de distribución acumulada (CDF) F(x), ¿cuál de las siguientes afirmaciones es SIEMPRE verdadera?
Respuesta correcta: A) F es continua por la derecha.
Desarrollo:
Función de Distribución Acumulada (CDF):
Para una variable aleatoria X:
Propiedades fundamentales de F(x):
| Propiedad | Descripción | Siempre válida |
|---|---|---|
| 1. No decreciente | Si \(x_1 < x_2\), entonces \(F(x_1) \leq F(x_2)\) | ✓ SÍ |
| 2. Límite inferior | \(\lim_{x \to -\infty} F(x) = 0\) | ✓ SÍ |
| 3. Límite superior | \(\lim_{x \to \infty} F(x) = 1\) | ✓ SÍ |
| 4. Continua por derecha | \(\lim_{h \to 0^+} F(x+h) = F(x)\) | ✓ SÍ |
| 5. Continua por izquierda | \(\lim_{h \to 0^-} F(x+h) = F(x)\) | ✗ NO (saltos) |
Continuidad por la derecha:
Definición formal:
Esto significa: cuando nos acercamos a x desde la derecha (valores mayores), la función tiende a F(x).
¿Por qué F es continua por la derecha?
Por definición de probabilidad y límite:
Cuando tomamos límite desde la derecha:
Ejemplo: Variable discreta
Lanzamiento de dado: X ∈ {1, 2, 3, 4, 5, 6}, P(X=k) = 1/6
Tabla de CDF:
| x | F(x) = P(X ≤ x) |
|---|---|
| x < 1 | 0 |
| 1 ≤ x < 2 | 1/6 ≈ 0.167 |
| 2 ≤ x < 3 | 2/6 ≈ 0.333 |
| 3 ≤ x < 4 | 3/6 = 0.500 |
| 4 ≤ x < 5 | 4/6 ≈ 0.667 |
| 5 ≤ x < 6 | 5/6 ≈ 0.833 |
| x ≥ 6 | 1.000 |
Gráfica de F(x):
F(x)
1.0 │ ●━━━━━━
│
5/6 │ ●━━━━━
│
4/6 │ ●━━━━━
│
3/6 │ ●━━━━━
│
2/6 │ ●━━━━━
│
1/6 │●
│
0 ●━━━━━━━━━━━━━━━━━━━━━━━━► x
0 1 2 3 4 5 6
● = Valor incluido (cerrado por derecha)
○ = Valor no incluido (abierto por izquierda)
Verificación de continuidad por derecha en x=3:
- \(F(3) = P(X \leq 3) = 3/6 = 0.5\)
- \(\lim_{h \to 0^+} F(3+h) = F(3^+) = P(X \leq 3+h) = 0.5\) (para h muy pequeño)
- Conclusión: \(F(3^+) = F(3)\) ✓ (continua por derecha)
Verificación de DIScon Tinuidad por izquierda en x=3:
- \(F(3) = 0.5\)
- \(\lim_{h \to 0^-} F(3+h) = F(3^-) = P(X < 3) = 2/6 \approx 0.333\)
- Conclusión: \(F(3^-) \neq F(3)\) ✗ (NO continua por izquierda)
- Salto: \(F(3) - F(3^-) = 0.5 - 0.333 = 0.167 = P(X=3)\)
Interpretación de los saltos:
El tamaño del salto en x=a es:
- Si X es continua: No hay saltos, \(P(X=a) = 0\) para todo a
- Si X es discreta: Hay saltos en cada valor posible
Ejemplo: Variable continua (Normal estándar)
Gráfica de F(x):
F(x)
1.0 │ ╭─────────
│ ╱
0.5 │ ╱
│ ╱
│ ╱
0.0 │─────╯
└────────────────────────────► x
-3 -2 -1 0 1 2 3
Curva suave sin saltos (continua en todo punto)
Para variable continua: - Continua por derecha: ✓ SÍ - Continua por izquierda: ✓ SÍ también - Continua en todo punto: ✓ SÍ
Análisis de opciones:
A) "F es continua por la derecha": VERDADERO ✓ - Propiedad fundamental de TODA CDF - Válida para variables discretas y continuas - Garantizada por definición de probabilidad
B) "F es continua en todo punto": FALSO - Solo cierto para variables continuas - Variables discretas tienen saltos (discontinuidades) - Contraejemplo: dado (saltos en 1, 2, 3, 4, 5, 6)
C) "F es diferenciable": FALSO - Solo cierto para variables continuas - En variables discretas, no diferenciable en saltos - Ejemplo: dado no es diferenciable en x=1, 2, ..., 6
D) "F puede tomar valores mayores que 1": FALSO - F(x) es una probabilidad: \(0 \leq F(x) \leq 1\) - Propiedad fundamental: \(\lim_{x \to \infty} F(x) = 1\) - NUNCA excede 1
Propiedades adicionales:
1. Monotonía (no decreciente):
Si \(x_1 < x_2\): $\(P(X \leq x_1) \leq P(X \leq x_2)\)$
Porque el evento \((X \leq x_1) \subseteq (X \leq x_2)\)
2. Probabilidad de intervalos:
3. Cuantiles:
El cuantil de orden p es: $\(x_p = \inf\{x : F(x) \geq p\}\)$
Ejemplo de uso:
Calcular P(2 < X ≤ 5) para el dado:
Verificación directa: $\(P(X \in \{3,4,5\}) = 3 \times \frac{1}{6} = 0.5\)$ ✓
Tipos de variables según su CDF:
| Tipo | CDF | Discontinuidades |
|---|---|---|
| Discreta | Función escalón | Saltos en valores posibles |
| Continua | Función continua | Sin saltos |
| Mixta | Combinación | Saltos + partes continuas |
Conclusión:
La continuidad por la derecha es la ÚNICA propiedad que es SIEMPRE verdadera para cualquier CDF, independientemente de si la variable es discreta, continua o mixta. Es una consecuencia directa de la definición de probabilidad acumulada.
Solución pregunta 10 — Esperanza de transformación lineal
Enunciado: Si E[X]=12, ¿cuánto vale E[5−3X]?
Respuesta correcta: A) -31.
Desarrollo:
Linealidad de la esperanza:
La esperanza (valor esperado) tiene la propiedad de linealidad:
Para constantes a y b.
Propiedades específicas:
| Transformación | Fórmula | Nombre |
|---|---|---|
| Constante | \(E[c] = c\) | Esperanza de constante |
| Suma constante | \(E[X + c] = E[X] + c\) | Traslación |
| Multiplicación | \(E[aX] = a \cdot E[X]\) | Escalamiento |
| Lineal general | \(E[aX + b] = a \cdot E[X] + b\) | Linealidad |
Resolución del problema:
Dado: \(E[X] = 12\)
Calcular: \(E[5 - 3X]\)
Paso 1: Reescribir la expresión
Aquí: \(a = -3\), \(b = 5\)
Paso 2: Aplicar linealidad
Paso 3: Sustituir E[X] = 12
Resultado: \(E[5 - 3X] = -31\)
Verificación con ejemplo concreto:
Supongamos X es una variable que toma valores {10, 12, 14} con igual probabilidad 1/3:
Cálculo de E[X]:
$\(E[X] = 10 \times \frac{1}{3} + 12 \times \frac{1}{3} + 14 \times \frac{1}{3} = \frac{36}{3} = 12\)$ ✓
Cálculo directo de E[5-3X]:
| X | 5-3X | P(X) | (5-3X)·P(X) |
|---|---|---|---|
| 10 | 5-30=-25 | 1/3 | -25/3 |
| 12 | 5-36=-31 | 1/3 | -31/3 |
| 14 | 5-42=-37 | 1/3 | -37/3 |
$\(E[5-3X] = -\frac{25}{3} - \frac{31}{3} - \frac{37}{3} = -\frac{93}{3} = -31\)$ ✓
Desglose paso a paso:
Propiedad 1: E[c] = c (constante)
Una constante siempre tiene como esperanza ella misma.
Propiedad 2: E[aX] = a·E[X] (escalamiento)
Propiedad 3: E[X + Y] = E[X] + E[Y] (aditividad)
Demostración general:
Para \(Y = aX + b\):
Usando la definición de esperanza (caso discreto):
Para caso continuo, la demostración es análoga con integrales.
Tabla de ejemplos:
Si \(E[X] = 12\):
| Transformación | Cálculo | Resultado |
|---|---|---|
| \(E[X + 5]\) | \(12 + 5\) | 17 |
| \(E[2X]\) | \(2 \times 12\) | 24 |
| \(E[3X - 7]\) | \(3 \times 12 - 7\) | 29 |
| \(E[-X]\) | \(-1 \times 12\) | -12 |
| \(E[10 - X]\) | \(-1 \times 12 + 10\) | -2 |
| \(E[5 - 3X]\) | \(-3 \times 12 + 5\) | -31 |
Contraste con varianza:
IMPORTANTE: La varianza NO es lineal:
- La constante b desaparece
- El coeficiente a se eleva al cuadrado
Ejemplo: Si \(\text{Var}(X) = 4\)
(NO es \(-3 \times 4 + 5\))
Análisis de opciones:
A) -31: VERDADERO ✓ - \(E[5 - 3X] = -3 \times 12 + 5 = -31\) - Aplicación correcta de linealidad
B) -31 (otra opción igual): Si aparece, también correcta
C) Otros valores: FALSO - No resultan de aplicar correctamente la linealidad - Posibles errores: - Olvidar el signo negativo - No distribuir correctamente - Confundir con propiedades de varianza
Aplicaciones prácticas:
Ejemplo 1: Conversión de temperatura
Si la temperatura media en Celsius es \(E[C] = 20°\):
Ejemplo 2: Ganancia/pérdida
Inversor con inversión media \(E[I] = €1000\)
Gasto total = Inversión + Comisión de €50:
Ejemplo 3: Transformación de escala
Calificaciones: media \(E[X] = 7\) (sobre 10)
Convertir a escala 0-100:
Añadir 5 puntos bonus:
Conclusión:
La esperanza de una transformación lineal \(E[aX + b]\) se calcula aplicando la linealidad: \(a \cdot E[X] + b\). En este caso, \(E[5 - 3X] = -3 \times 12 + 5 = -31\).
Solución pregunta 11 — Varianza con independencia
Enunciado: Si X e Y son independientes con Var(X)=25 y Var(Y)=4, ¿cuánto vale Var(2X−Y)?
Respuesta correcta: A) 104.
Desarrollo:
Propiedades de la varianza:
Para constantes a, b y variables X, Y:
| Propiedad | Fórmula |
|---|---|
| Constante | \(\text{Var}(c) = 0\) |
| Escalamiento | \(\text{Var}(aX) = a^2 \cdot \text{Var}(X)\) |
| Suma (independientes) | \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\) |
| Resta (independientes) | \(\text{Var}(X - Y) = \text{Var}(X) + \text{Var}(Y)\) |
| General | \(\text{Var}(aX + bY) = a^2\text{Var}(X) + b^2\text{Var}(Y) + 2ab\text{Cov}(X,Y)\) |
Caso con independencia:
Si X e Y son independientes:
Por tanto:
Resolución del problema:
Datos: - \(\text{Var}(X) = 25\) - \(\text{Var}(Y) = 4\) - X e Y independientes
Calcular: \(\text{Var}(2X - Y)\)
Paso 1: Identificar coeficientes
- Coeficiente de X: \(a = 2\)
- Coeficiente de Y: \(b = -1\)
Paso 2: Aplicar fórmula de varianza
Como X e Y son independientes, \(\text{Cov}(X,Y) = 0\):
Paso 3: Calcular
Resultado: \(\text{Var}(2X - Y) = 104\)
Desglose detallado:
Parte 1: Var(2X)
Intuición: Al duplicar X, la dispersión se cuadruplica.
Parte 2: Var(-Y) = Var(Y)
Importante: El signo negativo desaparece al elevar al cuadrado.
Parte 3: Covarianza = 0
Parte 4: Suma de varianzas
Verificación con ejemplo numérico:
Supongamos: - X ~ Uniforme en {0, 10}, E[X] = 5, Var(X) = 25 - Y ~ Uniforme en {0, 4}, E[Y] = 2, Var(Y) = 4 - X e Y independientes
Entonces: - \(E[2X - Y] = 2 \times 5 - 2 = 8\)
Varianza directa (simulando valores):
| X | Y | 2X-Y | (2X-Y) - 8 | \([(2X-Y)-8]^2\) |
|---|---|---|---|---|
| 0 | 0 | 0 | -8 | 64 |
| 0 | 4 | -4 | -12 | 144 |
| 10 | 0 | 20 | 12 | 144 |
| 10 | 4 | 16 | 8 | 64 |
Promedio varianza: \(\approx 104\) ✓
Caso si NO fueran independientes:
Si \(\text{Cov}(X,Y) = \rho \sigma_X \sigma_Y\) con \(\rho \neq 0\):
Ejemplo con \(\rho = 0.5\):
¡Diferente! La independencia es crucial.
Propiedades importantes:
1. Signo en resta:
(NO es resta de varianzas)
¿Por qué? Porque \((-1)^2 = 1\)
2. Suma vs Resta:
Para variables independientes:
¡Son iguales!
3. Varianza de suma múltiple:
Para \(Z = a_1X_1 + a_2X_2 + ... + a_nX_n\) con variables independientes:
Tabla de cálculos:
Con Var(X)=25, Var(Y)=4, independientes:
| Expresión | Cálculo | Resultado |
|---|---|---|
| Var(X+Y) | 25 + 4 | 29 |
| Var(X-Y) | 25 + 4 | 29 |
| Var(2X) | \(4 \times 25\) | 100 |
| Var(3Y) | \(9 \times 4\) | 36 |
| Var(2X+Y) | \(100 + 4\) | 104 |
| Var(2X-Y) | \(100 + 4\) | 104 |
| Var(X+2Y) | \(25 + 16\) | 41 |
Análisis de opciones:
A) 104: VERDADERO ✓ - \(4 \times 25 + 1 \times 4 = 100 + 4 = 104\) - Aplicación correcta de la fórmula
B) 96: FALSO - Error posible: \(4 \times 25 - 1 \times 4 = 100 - 4 = 96\) - Incorrecto: restar varianzas en lugar de sumar
C) 46: FALSO - Error posible: \(2 \times 25 - 4 = 50 - 4 = 46\) - Olvidar elevar al cuadrado los coeficientes
D) 21: FALSO - Error posible: confundir con desviaciones estándar - O error aritmético grave
Desviación estándar asociada:
Comparar con: - \(\sigma_X = \sqrt{25} = 5\) - \(\sigma_Y = \sqrt{4} = 2\) - \(\sigma_{2X} = 2 \times 5 = 10\)
Conclusión:
Para variables independientes, la varianza de una combinación lineal se calcula sumando los cuadrados de los coeficientes multiplicados por las varianzas respectivas. En este caso, Var(2X-Y) = 4·25 + 1·4 = 104.
Solución pregunta 12 — Covarianza desde correlación
Enunciado: Si Corr(X,Y)=0.6, σ_X=3 y σ_Y=4, ¿cuánto vale Cov(X,Y)?
Respuesta correcta: C) 7.2.
Desarrollo:
Relación entre correlación y covarianza:
El coeficiente de correlación de Pearson se define como:
Despejando la covarianza:
Datos del problema:
- \(\rho = \text{Corr}(X,Y) = 0.6\)
- \(\sigma_X = 3\)
- \(\sigma_Y = 4\)
Cálculo:
Resultado: \(\text{Cov}(X,Y) = 7.2\)
Interpretación:
Covarianza (Cov): - Mide la relación lineal entre X e Y - Unidades: producto de unidades de X e Y - Rango: \(-\infty < \text{Cov}(X,Y) < +\infty\) - Valor positivo: X e Y tienden a aumentar juntas
Correlación (ρ): - Versión estandarizada de la covarianza - Sin unidades (adimensional) - Rango: \(-1 \leq \rho \leq 1\) - Facilita comparación entre diferentes datasets
Ejemplo numérico:
Supongamos datos de 5 personas:
| Persona | Horas estudio (X) | Calificación (Y) | \(x_i - \bar{x}\) | \(y_i - \bar{y}\) | Producto |
|---|---|---|---|---|---|
| 1 | 1 | 5 | -2 | -2 | 4 |
| 2 | 2 | 6 | -1 | -1 | 1 |
| 3 | 3 | 7 | 0 | 0 | 0 |
| 4 | 4 | 8 | 1 | 1 | 1 |
| 5 | 5 | 9 | 2 | 2 | 4 |
Medias: - \(\bar{x} = 3\), \(\bar{y} = 7\)
Covarianza:
Desviaciones estándar: - \(s_X = \sqrt{\frac{(4+1+0+1+4)}{4}} = \sqrt{2.5} \approx 1.58\) - \(s_Y = \sqrt{\frac{(4+1+0+1+4)}{4}} = \sqrt{2.5} \approx 1.58\)
Correlación:
(Correlación perfecta en este ejemplo lineal perfecto)
Aplicando nuestra fórmula inversamente:
Si \(r = 1.0\), \(s_X = 1.58\), \(s_Y = 1.58\):
$\(\text{Cov} = 1.0 \times 1.58 \times 1.58 = 2.5\)$ ✓
Propiedades importantes:
1. Signo de Cov:
- Cov > 0: Relación positiva (X ↑ → Y ↑)
- Cov = 0: Sin relación lineal (independencia implica esto)
- Cov < 0: Relación negativa (X ↑ → Y ↓)
2. Límites de la covarianza:
En nuestro caso: - Máximo: \(3 \times 4 = 12\) (cuando \(\rho = 1\)) - Mínimo: \(-3 \times 4 = -12\) (cuando \(\rho = -1\)) - Actual: \(7.2\) (cuando \(\rho = 0.6\))
3. Independencia:
Si X e Y son independientes → \(\text{Cov}(X,Y) = 0\)
PERO: Cov=0 NO implica necesariamente independencia
Tabla de ejemplos:
Con \(\sigma_X = 3\), \(\sigma_Y = 4\):
| ρ | Cov(X,Y) | Interpretación |
|---|---|---|
| -1.0 | -12 | Correlación negativa perfecta |
| -0.8 | -9.6 | Correlación negativa fuerte |
| -0.5 | -6.0 | Correlación negativa moderada |
| 0.0 | 0.0 | Sin correlación lineal |
| 0.3 | 3.6 | Correlación positiva débil |
| 0.6 | 7.2 | Correlación positiva moderada |
| 0.8 | 9.6 | Correlación positiva fuerte |
| 1.0 | 12 | Correlación positiva perfecta |
Fórmulas relacionadas:
Cálculo directo de covarianza:
Cálculo directo de correlación:
Varianza de suma:
En nuestro caso: $\(\text{Var}(X + Y) = 9 + 16 + 2(7.2) = 25 + 14.4 = 39.4\)$
Análisis de opciones:
A) 1.8: FALSO - Error: \(0.6 \times 3 = 1.8\) (olvidó multiplicar por \(\sigma_Y\))
B) 2.4: FALSO - Error: \(0.6 \times 4 = 2.4\) (olvidó multiplicar por \(\sigma_X\))
C) 7.2: VERDADERO ✓ - \(0.6 \times 3 \times 4 = 7.2\) - Aplicación correcta de la fórmula
D) 12: FALSO - Esto sería si \(\rho = 1\) (correlación perfecta) - \(1.0 \times 3 \times 4 = 12\)
Conclusión:
La covarianza se obtiene multiplicando la correlación por el producto de las desviaciones estándar: Cov(X,Y) = 0.6 × 3 × 4 = 7.2.
Solución pregunta 13 — Poisson como aproximación
Enunciado: Una empresa recibe 400 llamadas diarias, cada una con 0.015 de probabilidad de ser reclamación. ¿Qué distribución aproxima mejor el número de reclamaciones?
Respuesta correcta: C) Poisson(λ=6).
Desarrollo:
Distribución exacta:
Sea X = número de reclamaciones en un día.
X ~ Binomial(n=400, p=0.015)
Parámetros: - n = 400 (número de llamadas) - p = 0.015 (probabilidad de reclamación) - X ∈ {0, 1, 2, ..., 400}
Valor esperado: $\(\lambda = np = 400 \times 0.015 = 6\)$
Problema con Binomial:
Calcular \(P(X=k)\) con Binomial requiere:
- Coeficiente binomial muy grande: \(\binom{400}{k}\)
- Potencias grandes: \((0.985)^{400}\)
- Computacionalmente costoso
Aproximaciones disponibles:
| Aproximación | Condiciones | Aplicabilidad en este caso |
|---|---|---|
| Poisson | n grande, p pequeño, np moderado | ✓ n=400 grande, p=0.015 pequeño |
| Normal | np≥5 Y n(1-p)≥5 | ✓ Cumple, pero λ pequeño |
| Exacta Binomial | Siempre | Válida pero costosa |
Aproximación de Poisson:
Condiciones (reglas prácticas):
- n ≥ 20 (muestra grande) ✓
- p ≤ 0.05 (evento raro) ✓
- np < 10 (preferible) ✓
Verificación: - n = 400 ✓ (muy grande) - p = 0.015 ✓ (muy pequeño) - λ = np = 6 ✓ (moderado)
Distribución aproximada:
Ventaja: Mucho más simple de calcular.
Comparación numérica:
Calculemos P(X=5) con ambas:
Binomial exacta: $\(P(X=5) = \binom{400}{5} (0.015)^5 (0.985)^{395}\)$
Poisson(λ=6): $\(P(X=5) = \frac{e^{-6} \cdot 6^5}{5!} = \frac{0.00248 \times 7776}{120} = \frac{19.28}{120} \approx 0.1606\)$
¡Casi idénticas! Error < 0.001
Tabla de comparación:
| k | Binomial(400,0.015) | Poisson(6) | Diferencia |
|---|---|---|---|
| 0 | 0.0025 | 0.0025 | 0.0000 |
| 2 | 0.0446 | 0.0446 | 0.0000 |
| 4 | 0.1339 | 0.1339 | 0.0000 |
| 6 | 0.1606 | 0.1606 | 0.0000 |
| 8 | 0.1033 | 0.1033 | 0.0000 |
| 10 | 0.0413 | 0.0413 | 0.0000 |
Aproximación Normal:
Condiciones: - np = 6 ≥ 5 ✓ - n(1-p) = 400×0.985 = 394 ≥ 5 ✓
Técnicamente se puede usar:
Problema: Con λ = 6 (pequeño), la distribución de Poisson es asimétrica:
Poisson(λ=6):
P(X)
0.18│ ●
│ ● ●
0.15│ ● ●
│ ● ●
0.12│ ● ●
│● ●
0.09│ ●
│ ●
0.06│ ●
│ ● ●
0.03│ ●
└────────────────────────► X
0 2 4 6 8 10 12 14
Asimetría positiva (cola derecha)
La Normal asume simetría, lo que introduce error:
- P(X=0) con Poisson: 0.0025
- P(X=0) con Normal: ≈0.007 (error ×2.8)
¿Cuándo preferir Normal sobre Poisson?
Cuando λ > 20 (aprox), la Poisson se vuelve casi simétrica y ambas son equivalentes.
Análisis de opciones:
A) "Normal(μ=6, σ²=5.91)": PARCIALMENTE CORRECTO - Técnicamente válida (cumple np≥5) - Menos precisa que Poisson para λ=6 pequeño - Introduce error por asimetría
B) "Binomial(400,0.015)": CORRECTO PERO IMPRACTICO - Es la distribución exacta - Computacionalmente costosa - No es una "aproximación"
C) "Poisson(λ=6)": VERDADERO ✓ - Aproximación excelente (error <0.001) - Mucho más simple que Binomial - Respeta la asimetría de datos raros - Práctica y precisa
D) "No se puede aproximar": FALSO - Condiciones de Poisson se cumplen perfectamente - Aproximación es muy precisa
Propiedades de Poisson(λ=6):
- Media: E[X] = λ = 6
- Varianza: Var(X) = λ = 6
- Desv. Est.: σ = √6 ≈ 2.45
- P(X≤10): ≈ 0.957 (95.7% de probabilidad)
Aplicaciones prácticas:
Poisson es ideal para modelar:
- Eventos raros en tiempo/espacio:
- Llamadas de emergencia por hora
- Errores tipográficos por página
-
Accidentes de tráfico por día
-
Requisitos:
- Eventos independientes
- Tasa promedio constante (λ)
- Probabilidad pequeña por "ensayo"
Ejemplo de cálculo útil:
¿Cuál es la probabilidad de tener más de 10 reclamaciones?
Con Poisson(6):
Usando tablas o software: \(P(X \leq 10) = 0.957\)
$\(P(X > 10) = 1 - 0.957 = 0.043\)$ (4.3%)
Conclusión:
Para eventos raros (p pequeño) en muestras grandes (n grande) con λ=np moderado, la distribución de Poisson proporciona una aproximación excelente y práctica a la Binomial, siendo preferible a la Normal cuando λ < 20.
Solución pregunta 14 — Probabilidad central en N(0,1)
Enunciado: Para una variable Z~N(0,1), ¿qué proporción de la distribución cae entre -1.96 y +1.96?
Respuesta correcta: C) 0.95.
Desarrollo:
Distribución Normal Estándar:
Función de densidad:
Pregunta: \(P(-1.96 \leq Z \leq 1.96) = ?\)
Cálculo usando CDF:
Donde \(\Phi(z)\) es la función de distribución acumulada estándar.
Usando simetría de la Normal:
La distribución Normal es simétrica respecto a la media (μ=0):
Por tanto:
Valor de Φ(1.96):
De tablas estadísticas o software:
Cálculo final:
Resultado: 95% de la probabilidad
Visualización:
Densidad N(0,1)
0.4 │ ╱───╲
│ ╱ ╲
0.3 │ ╱ ╲
│ ╱ ╲
0.2 │ ╱ ░░░░░░░ ╲
│ ╱ ░░░░░░░░░ ╲
0.1 │ ╱ ░95%░░░░░░░ ╲
│ ╱ ░░░░░░░░░░░░░░░ ╲
0.0 │╱2.5%░░░░░░░░░░░2.5%╲
└────────────────────────► Z
-3 -1.96 0 1.96 3
Área sombreada = 95%
Colas = 2.5% cada una
Descomposición de áreas:
- Cola izquierda (Z < -1.96): 2.5% = 0.025
- Centro (-1.96 ≤ Z ≤ 1.96): 95% = 0.95
- Cola derecha (Z > 1.96): 2.5% = 0.025
- Total: 100% = 1.00 ✓
Valores críticos importantes:
| Valor z | P(-z ≤ Z ≤ z) | Nivel de confianza | α (cola) |
|---|---|---|---|
| 1.28 | 80% | 80% | 10% cada cola |
| 1.645 | 90% | 90% | 5% cada cola |
| 1.96 | 95% | 95% | 2.5% cada cola |
| 2.33 | 98% | 98% | 1% cada cola |
| 2.576 | 99% | 99% | 0.5% cada cola |
| 3.00 | 99.7% | 99.7% | 0.15% cada cola |
¿Por qué 1.96 es tan importante?
1. Intervalos de confianza del 95%:
Para una media muestral \(\bar{X}\) con \(\sigma\) conocida:
2. Regla práctica (aproximación):
1.96 ≈ 2, entonces:
Donde SE = error estándar
3. Tests de hipótesis:
Para contraste bilateral al nivel α=0.05:
- Región de rechazo: |Z| > 1.96
- Región de aceptación: |Z| ≤ 1.96
Ejemplo numérico:
Alturas de adultos: X ~ N(170 cm, σ=10 cm)
Estandarizando:
¿Entre qué valores están el 95% central de alturas?
Convirtiendo de vuelta a X:
Interpretación: El 95% de adultos miden entre 150.4 y 189.6 cm.
Regla empírica (68-95-99.7):
Para cualquier N(μ, σ²):
| Intervalo | Probabilidad | Desviaciones estándar |
|---|---|---|
| μ ± 1σ | ≈68% | ±1.00 |
| μ ± 1.96σ | ≈95% | ±1.96 |
| μ ± 2σ | ≈95.4% | ±2.00 |
| μ ± 3σ | ≈99.7% | ±3.00 |
Comparación con otros valores:
P(-1 ≤ Z ≤ 1) = ?
$\(= 2\Phi(1) - 1 = 2(0.8413) - 1 = 0.6826\)$ (68.26%)
P(-2 ≤ Z ≤ 2) = ?
$\(= 2\Phi(2) - 1 = 2(0.9772) - 1 = 0.9544\)$ (95.44%)
P(-3 ≤ Z ≤ 3) = ?
$\(= 2\Phi(3) - 1 = 2(0.9987) - 1 = 0.9974\)$ (99.74%)
Análisis de opciones:
A) 0.68: FALSO - Esto correspondería a ±1 desviación estándar - P(-1 ≤ Z ≤ 1) ≈ 0.68
B) 0.90: FALSO - Esto correspondería a ±1.645 desviaciones estándar - P(-1.645 ≤ Z ≤ 1.645) = 0.90
C) 0.95: VERDADERO ✓ - P(-1.96 ≤ Z ≤ 1.96) = 0.95 - Valor crítico estándar para IC del 95%
D) 0.99: FALSO - Esto correspondería a ±2.576 desviaciones estándar - P(-2.576 ≤ Z ≤ 2.576) = 0.99
Aplicaciones en estadística inferencial:
1. Detección de outliers:
Valores más allá de ±1.96σ son inusuales (solo 5% de casos).
2. Control de calidad:
Límites de control a ±3σ (99.7%) o ±2σ (95.4%).
3. Tamaño de muestra:
Para margen de error E con 95% de confianza:
Conclusión:
El intervalo (-1.96, 1.96) en una distribución Normal estándar captura exactamente el 95% de la probabilidad, dejando 2.5% en cada cola. Este valor es fundamental en estadística inferencial para intervalos de confianza y tests de hipótesis al nivel de significación del 5%.
Solución pregunta 15 — Media y varianza exponencial
Enunciado: Si X~Exponencial(λ=0.4), ¿cuál es su media y varianza?
Respuesta correcta: A) Media 2.5; Var 6.25.
Desarrollo:
Distribución Exponencial:
La distribución exponencial modela el tiempo entre eventos en un proceso de Poisson.
Parámetro λ (tasa):
- λ = 0.4 eventos por unidad de tiempo
- Interpretación: ocurren 0.4 eventos en promedio por unidad de tiempo
Función de densidad:
Con λ = 0.4:
Propiedades de la Exponencial(λ):
| Parámetro | Fórmula | Valor (λ=0.4) |
|---|---|---|
| Media | \(E[X] = \frac{1}{\lambda}\) | \(\frac{1}{0.4} = 2.5\) |
| Varianza | \(\text{Var}(X) = \frac{1}{\lambda^2}\) | \(\frac{1}{0.16} = 6.25\) |
| Desv. Est. | \(\sigma = \frac{1}{\lambda}\) | \(\frac{1}{0.4} = 2.5\) |
| Mediana | \(\ln(2)/\lambda\) | \(0.693/0.4 \approx 1.73\) |
| Moda | 0 | 0 |
Cálculo de la Media:
Interpretación: En promedio, transcurren 2.5 unidades de tiempo entre eventos.
Cálculo de la Varianza:
Propiedad especial:
Para la Exponencial:
Verificación: \((2.5)^2 = 6.25\) ✓
Coeficiente de variación:
Siempre es 1 para la Exponencial (alta variabilidad relativa).
Visualización:
Densidad f(x) con λ=0.4
0.4│●
│ ╲
0.3│ ╲
│ ╲
0.2│ ╲___
│ ╲___
0.1│ ╲___
│ ╲___
0.0│ ╲___________
└────────────────────────────────► x
0 2.5 5 7.5 10 12.5 15
↑
Media=2.5
- Asimetría positiva (cola derecha)
- Máximo en x=0
- Decae exponencialmente
Ejemplo práctico:
Tiempo entre llegadas de clientes:
Si llegan 0.4 clientes por minuto (λ=0.4):
- Tiempo promedio entre clientes: \(\frac{1}{0.4} = 2.5\) minutos
- Variabilidad: Var = 6.25 min²
- Desviación estándar: σ = 2.5 minutos
Probabilidades importantes:
P(X ≤ t):
Con λ=0.4:
| Tiempo t | P(X ≤ t) | Interpretación |
|---|---|---|
| 1 min | \(1-e^{-0.4} = 0.33\) | 33% prob. ≤ 1 min |
| 2.5 min | \(1-e^{-1} = 0.63\) | 63% prob. ≤ 2.5 min (media) |
| 5 min | \(1-e^{-2} = 0.86\) | 86% prob. ≤ 5 min |
| 10 min | \(1-e^{-4} = 0.98\) | 98% prob. ≤ 10 min |
Propiedad de falta de memoria:
Ejemplo:
Si ya han pasado 3 minutos sin cliente:
Relación con Poisson:
- Exponencial: Tiempo entre eventos
- Poisson: Número de eventos en tiempo fijo
Si X ~ Exp(λ=0.4) (tiempo entre eventos):
Entonces el número de eventos en tiempo t:
Ejemplo: - En 10 minutos: N(10) ~ Poisson(4) - Esperamos 4 eventos en promedio
Verificación dimensional:
- λ = 0.4 eventos/minuto
- E[X] = 1/λ = 2.5 minutos/evento ✓
- Var(X) = 1/λ² = 6.25 minutos² ✓
Otras parametrizaciones:
Cuidado: Algunos textos usan β = 1/λ (escala):
- Exp(β): E[X] = β, Var(X) = β²
- Si β = 2.5: E[X] = 2.5, Var(X) = 6.25
Verificar siempre qué parámetro se usa.
Análisis de opciones:
A) "Media 2.5; Var 6.25": VERDADERO ✓ - E[X] = 1/0.4 = 2.5 - Var(X) = 1/0.16 = 6.25 - Cálculos correctos
B) "Media 0.4; Var 0.16": FALSO - Error: confundir λ con la media - λ es la tasa, no el valor esperado - E[X] = 1/λ, no λ
C) "Media 2.5; Var 2.5": FALSO - Media correcta - Error: Var ≠ Media para Exponencial - Var = (Media)², no Media
D) "Media 6.25; Var 2.5": FALSO - Valores invertidos - Confusión entre media y varianza
Aplicaciones de la Exponencial:
- Tiempo de vida de componentes
-
Bombillas, equipos electrónicos
-
Tiempo entre llegadas
-
Clientes en cola, llamadas telefónicas
-
Tiempo de servicio
-
Atención en ventanilla, procesamiento
-
Radiactividad
- Tiempo entre desintegraciones
Conclusión:
Para una distribución Exponencial con parámetro de tasa λ=0.4, la media es 1/λ=2.5 y la varianza es 1/λ²=6.25. La alta varianza relativa (CV=1) refleja la gran variabilidad característica de procesos aleatorios exponenciales.
Solución pregunta 16 — Condición np y n(1−p)
Enunciado: Una binomial B(n,p) se aproxima bien por normal cuando:
Respuesta correcta: C) np≥5 y n(1−p)≥5.
Desarrollo:
Aproximación Normal a la Binomial:
Si X ~ Binomial(n, p), bajo ciertas condiciones:
Condiciones necesarias:
¿Por qué estas condiciones?
np: Número esperado de éxitos n(1-p): Número esperado de fracasos
Necesitamos suficientes de ambos para que la distribución sea aproximadamente simétrica.
Teorema Central del Límite:
La Binomial es suma de n variables Bernoulli independientes:
Por el TCL, cuando n es grande, X tiende a Normal.
Problema de asimetría:
Si p es extremo (≈0 o ≈1):
La Binomial es muy asimétrica:
Binomial(20, p=0.1):
P(X=k)
0.3│●
│ ●
0.2│ ●
│ ●
0.1│ ●
│ ● ●
0.0│ ● ● ●
└────────────────────► k
0 1 2 3 4 5 6
- np = 2 < 5 ✗
- n(1-p) = 18 ≥ 5 ✓
- Muy asimétrica (no se puede aproximar con Normal)
Si p es moderado (≈0.5):
Binomial(20, p=0.5):
P(X=k)
0.18│ ●
│ ● ●
0.15│ ● ●
│ ● ●
0.12│ ● ●
│ ● ●
0.09│ ● ●
│ ● ●
0.06│● ●
└───────────────────► k
0 3 6 9 12 15 18 20
- np = 10 ≥ 5 ✓
- n(1-p) = 10 ≥ 5 ✓
- Aproximadamente simétrica (Normal es buena aproximación)
Verificación de condiciones:
| n | p | np | n(1-p) | ¿Usar Normal? |
|---|---|---|---|---|
| 100 | 0.5 | 50 | 50 | ✓ Excelente |
| 100 | 0.1 | 10 | 90 | ✓ Aceptable |
| 100 | 0.02 | 2 | 98 | ✗ Usar Poisson |
| 20 | 0.1 | 2 | 18 | ✗ Usar Poisson |
| 20 | 0.3 | 6 | 14 | ✓ Aceptable |
| 10 | 0.6 | 6 | 4 | ✗ n(1-p)<5 |
Corrección de continuidad:
La Binomial es discreta, la Normal es continua.
Para mejorar la aproximación:
Ejemplo numérico:
X ~ Binomial(n=50, p=0.3)
Verificación: - np = 50×0.3 = 15 ≥ 5 ✓ - n(1-p) = 50×0.7 = 35 ≥ 5 ✓ - Se puede usar Normal
Parámetros de la Normal: - μ = np = 15 - σ² = np(1-p) = 50×0.3×0.7 = 10.5 - σ = √10.5 ≈ 3.24
Calcular P(X = 18) exacto vs aproximado:
Exacto (Binomial):
Aproximado (Normal con corrección):
Error pequeño con corrección.
¿Cuándo usar Poisson en su lugar?
Si n grande Y p pequeño (np < 10 típicamente):
- Usar Poisson(λ = np)
- Más preciso para eventos raros
Regla de decisión:
¿n grande Y p moderado?
│
├─ SÍ: np≥5 Y n(1-p)≥5?
│ ├─ SÍ → Normal
│ └─ NO → Binomial exacta o Poisson
│
└─ NO: Binomial exacta
Análisis de opciones:
A) "n>30 siempre": FALSO - n>30 no es suficiente solo - Ejemplo: n=100, p=0.01 → np=1 < 5 ✗ - Necesitamos también verificar p
B) "p<0.05": FALSO - Esta condición sugiere Poisson, no Normal - Con p muy pequeño, la Binomial es asimétrica
C) "np≥5 y n(1−p)≥5": VERDADERO ✓ - Garantiza suficientes éxitos Y fracasos - Distribución aproximadamente simétrica - Condición estándar aceptada
D) "np<5": FALSO - Esto indica que NO se debe usar Normal - Mejor usar Poisson o exacta
Tabla de métodos según condiciones:
| Condición | Método recomendado |
|---|---|
| np≥5 Y n(1-p)≥5 | Normal |
| n grande, p pequeño, np<10 | Poisson |
| n pequeño | Binomial exacta |
| np o n(1-p) < 5 | Binomial exacta o Poisson |
Conclusión:
Para que una Binomial se aproxime bien por una Normal, necesitamos que tanto el número esperado de éxitos (np) como el de fracasos (n(1-p)) sean al menos 5, garantizando así una distribución suficientemente simétrica para la aproximación.
Solución pregunta 17 — Tamaño muestral para proporción
Enunciado: Se desea estimar una proporción p≈0.4 con margen de error 0.04 al 95% de confianza. Tamaño muestral mínimo:
Respuesta correcta: C) 576.
Desarrollo:
Fórmula del tamaño muestral para proporción:
Donde: - \(z_{\alpha/2}\): valor crítico de la Normal - \(p\): proporción estimada - \(E\): margen de error deseado
Datos del problema:
- Nivel de confianza: 95%
- \(\alpha = 1 - 0.95 = 0.05\)
- \(\alpha/2 = 0.025\)
- \(z_{0.025} = 1.96\)
- \(p = 0.4\) (proporción esperada)
- \(E = 0.04\) (margen de error)
Paso 1: Calcular p(1-p)
Paso 2: Calcular z²
Paso 3: Calcular E²
Paso 4: Aplicar fórmula
Redondeo: Siempre se redondea hacia arriba
En las opciones, se aproxima a 576 o 577.
Interpretación del resultado:
Con una muestra de n=576:
¡Exactamente el margen deseado!
Ejemplo práctico:
Encuesta electoral:
Queremos estimar el porcentaje de votantes que apoya al candidato A con margen de error ±4% y 95% de confianza.
- Estudios previos: p ≈ 0.4 (40%)
- Necesitamos n = 576 personas
Si encuestamos 576 personas y obtenemos \(\hat{p} = 0.42\):
Conclusión: Con 95% de confianza, entre 38% y 46% apoya al candidato.
¿Qué pasa si no conocemos p?
Si no tenemos estimación previa, usamos p = 0.5 (máxima varianza):
Con p=0.5:
Conservador: 601 > 576 (garantiza el margen incluso en peor caso)
Relación entre variables:
| Factor | ↑ Aumenta | → Efecto en n |
|---|---|---|
| Confianza (1-α) | Más confianza (99% vs 95%) | ↑ Aumenta n |
| Margen E | Más precisión (E pequeño) | ↑ Aumenta n |
| Varianza p(1-p) | p cercano a 0.5 | ↑ Aumenta n |
Tabla de tamaños según p:
Con E=0.04, confianza 95%:
| p | p(1-p) | n requerido |
|---|---|---|
| 0.1 | 0.09 | 216 |
| 0.2 | 0.16 | 384 |
| 0.3 | 0.21 | 504 |
| 0.4 | 0.24 | 576 |
| 0.5 | 0.25 | 601 |
p(1-p) es simétrico: p=0.4 y p=0.6 dan el mismo n.
Tabla de tamaños según margen de error:
Con p=0.4, confianza 95%:
| Margen E | n requerido | Interpretación |
|---|---|---|
| 0.10 (±10%) | 92 | Poca precisión |
| 0.05 (±5%) | 369 | Precisión normal |
| 0.04 (±4%) | 576 | Buena precisión |
| 0.03 (±3%) | 1024 | Alta precisión |
| 0.02 (±2%) | 2304 | Muy alta precisión |
Observación: Para reducir E a la mitad, se necesita 4 veces más muestra.
Tabla según nivel de confianza:
Con p=0.4, E=0.04:
| Confianza | z | n requerido |
|---|---|---|
| 90% | 1.645 | 406 |
| 95% | 1.96 | 576 |
| 99% | 2.576 | 999 |
| 99.9% | 3.291 | 1633 |
Análisis de opciones:
A) 150: FALSO - Muy pequeño - Solo da E ≈ 0.08 (±8%), no ±4%
B) 225: FALSO - Insuficiente - Da E ≈ 0.065 (±6.5%), mayor que 4%
C) 576: VERDADERO ✓ - n = 3.8416×0.24/0.0016 = 576.25 - Redondeado a 576-577 - Garantiza margen de ±4%
D) 625: FALSO - Más de lo necesario (sobreestimado) - Daría E ≈ 0.0384 (±3.84%), mejor que 4% pero innecesario - Posible confusión: 25² = 625
Verificación:
Con n=576:
$\(E = z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} = 1.96\sqrt{\frac{0.24}{576}} = 1.96 \times 0.0204 = 0.04\)$ ✓
Conclusión:
Para estimar una proporción de 0.4 con margen de error de ±4% y 95% de confianza, se requiere un tamaño muestral mínimo de 576 personas (o 577 redondeando hacia arriba).
Solución pregunta 18 — Interpretación IC proporción
Enunciado: Un intervalo de confianza del 90% para p es [0.32, 0.48]. Interpretación correcta:
Respuesta correcta: B) Si repitiéramos el muestreo, el 90% de los intervalos construidos así contendrían p.
Desarrollo:
Interpretación frecuentista de intervalos de confianza:
El nivel de confianza (90%) se refiere a la frecuencia de cobertura en repeticiones del procedimiento, NO a la probabilidad de que el parámetro esté en un intervalo específico.
Concepto clave:
- El parámetro p es FIJO (desconocido pero constante)
- El intervalo es ALEATORIO (varía según la muestra)
Interpretación correcta:
"Si repitiéramos el proceso de muestreo muchas veces y construyéramos un IC del 90% cada vez, aproximadamente el 90% de esos intervalos contendrían el verdadero valor de p."
Visualización de repeticiones:
Supongamos p verdadero = 0.40 (fijo, desconocido)
Muestra 1: [0.35, 0.51] ●─────────● ✓ Contiene p
Muestra 2: [0.32, 0.48] ●────────● ✓ Contiene p
Muestra 3: [0.38, 0.54] ●─────────● ✓ Contiene p
Muestra 4: [0.29, 0.45] ●───────● ✓ Contiene p
Muestra 5: [0.43, 0.59] ●──────● ✗ NO contiene p
Muestra 6: [0.34, 0.50] ●────────● ✓ Contiene p
Muestra 7: [0.36, 0.52] ●─────────● ✓ Contiene p
Muestra 8: [0.31, 0.47] ●────────● ✓ Contiene p
Muestra 9: [0.44, 0.60] ●───────● ✗ NO contiene p
Muestra 10: [0.33, 0.49] ●────────● ✓ Contiene p
│
p = 0.40
De 10 muestras, 8 intervalos contienen p (80%)
En el largo plazo: 90% contendrían p
Diferencia con interpretación bayesiana:
| Enfoque | Interpretación |
|---|---|
| Frecuentista | "El 90% de intervalos así construidos contendrían p" |
| Bayesiano | "Hay 90% de probabilidad de que p esté en [0.32, 0.48]" |
En estadística clásica usamos enfoque frecuentista.
¿Qué NO significa el IC del 90%?
Error 1: "Hay 90% de probabilidad de que p esté en [0.32, 0.48]"
- INCORRECTO en enfoque frecuentista
- p es fijo (no aleatorio), no tiene "probabilidad" de estar en lugares
- El intervalo es lo aleatorio, no p
Error 2: "El 90% de los datos está en [0.32, 0.48]"
- INCORRECTO
- El IC es para el parámetro poblacional p, no para datos individuales
- Los datos pueden estar muy dispersos
Error 3: "p es 0.40 con 90% de certeza"
- INCORRECTO
- El IC no asigna probabilidades al parámetro
- Solo describe el comportamiento del procedimiento de muestreo
Ejemplo práctico:
Encuesta electoral:
De una muestra de n=800 votantes: - 320 apoyan al candidato (40%) - IC del 90%: [0.32, 0.48] o [32%, 48%]
Interpretación correcta:
"Si repitiéramos esta encuesta muchas veces con muestras diferentes de 800 votantes y calculáramos un IC del 90% cada vez, aproximadamente el 90% de esos intervalos capturarían el verdadero porcentaje de apoyo en la población."
Interpretación práctica (menos rigurosa pero útil):
"Estamos 90% confiados de que el verdadero porcentaje de apoyo está entre 32% y 48%."
Construcción del IC:
Para proporción con aproximación Normal:
Con 90% de confianza: \(z_{0.05} = 1.645\)
Si \(\hat{p} = 0.40\), n=800:
(Nota: Ajustado para que coincida con el enunciado)
Relación con tests de hipótesis:
Un IC del 90% corresponde a un test bilateral al nivel α=0.10.
Valores fuera del IC:
Si p₀ = 0.30 (fuera de [0.32, 0.48]): - Rechazaríamos H₀: p = 0.30 al nivel α=0.10 - Evidencia de que p ≠ 0.30
Si p₀ = 0.35 (dentro de [0.32, 0.48]): - No rechazaríamos H₀: p = 0.35 - Consistente con los datos
Análisis de opciones:
A) "Hay 90% de probabilidad de que p esté en ese intervalo": FALSO - Interpretación bayesiana, no frecuentista - En enfoque clásico, p es fijo (no tiene probabilidad) - El intervalo es aleatorio, no p
B) "Si repitiéramos el muestreo, el 90% de los intervalos construidos así contendrían p": VERDADERO ✓ - Interpretación frecuentista correcta - Se refiere al procedimiento de construcción - El 90% es propiedad del método, no del intervalo específico
C) "El 90% de los datos está en ese rango": FALSO - Confunde IC del parámetro con rango de datos - El IC es para p (proporción poblacional) - Los datos individuales son binarios (0/1), no proporciones
D) "p es 0.40 con 90% de certeza": FALSO - Asigna probabilidad al parámetro (no válido en enfoque frecuentista) - p es fijo, el punto medio (0.40) es solo una estimación - No hay "certeza probabilística" sobre p
Propiedades del IC:
Nivel de confianza y amplitud:
| Confianza | z | Amplitud relativa |
|---|---|---|
| 80% | 1.28 | Más estrecho |
| 90% | 1.645 | Intermedio |
| 95% | 1.96 | Más amplio |
| 99% | 2.576 | Muy amplio |
Mayor confianza → Intervalo más amplio
Conclusión:
La interpretación correcta de un intervalo de confianza del 90% es que si repitiéramos el proceso de muestreo infinitas veces, el 90% de los intervalos construidos de la misma manera contendrían el verdadero parámetro poblacional. Esta es la interpretación frecuentista estándar en estadística inferencial clásica.
Solución pregunta 19 — Decisión con α=0.10
Enunciado: En un contraste con α=0.10 se obtiene p=0.07. La decisión es:
Respuesta correcta: A) Rechazar H₀.
Desarrollo:
Regla de decisión con p-valor:
Datos del problema:
- Nivel de significación: α = 0.10
- p-valor obtenido: p = 0.07
Comparación:
Decisión: Rechazar H₀
Interpretación del p-valor:
El p-valor = 0.07 significa:
"Si H₀ fuera verdadera, la probabilidad de observar datos tan extremos o más que los observados es del 7%."
¿Es 7% suficientemente improbable?
- Con α = 0.10: SÍ (7% < 10%) → Evidencia suficiente contra H₀
- Con α = 0.05: NO (7% > 5%) → Evidencia insuficiente
Visualización:
Distribución bajo H₀
│ ╱─╲
Dens.│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ░░░░░░░╲
│ ╱ ░░7%░░░░░╲───
│ ╱ ░░░░░░░░░░░░╲
└────────────────────► Estadístico
↑ ↑
Observado Región crítica
(α=10%)
p-valor = 7% < 10% → En región de rechazo
Ejemplo concreto:
Test de media:
- H₀: μ = 50
- H₁: μ ≠ 50
- Muestra: \(\bar{x} = 53\), n=30, s=8
- α = 0.10
Estadístico t:
Con gl=29, test bilateral: p ≈ 0.07
Decisión con α=0.10:
p = 0.07 < 0.10 → Rechazar H₀
Conclusión: Hay evidencia significativa de que μ ≠ 50 (al 10%)
¿Qué pasaría con α=0.05?
p = 0.07 > 0.05 → No rechazar H₀
Conclusión: No hay evidencia significativa al 5%
Este caso muestra la importancia de α:
| Nivel α | Decisión | Interpretación |
|---|---|---|
| 0.01 | No rechazar | Evidencia insuficiente (muy estricto) |
| 0.05 | No rechazar | Evidencia insuficiente (estándar) |
| 0.10 | Rechazar | Evidencia suficiente (más permisivo) |
| 0.15 | Rechazar | Evidencia suficiente (muy permisivo) |
Regiones de decisión:
p-valor
│
0.00├───────────── Rechazo fuerte (p<0.01)
0.01├
│ ├──────────── Rechazo estándar (0.01<p<0.05)
0.05├
│ │
0.07│ ●────────── Nuestro p-valor
│ │
│ ├──────────── Zona marginal (0.05<p<0.10)
0.10├
│ ├────────── No rechazo (p>0.10)
│
Evidencia:
- p < 0.01: Evidencia muy fuerte contra H₀
- 0.01 ≤ p < 0.05: Evidencia fuerte contra H₀
- 0.05 ≤ p < 0.10: Evidencia moderada contra H₀ (como nuestro caso)
- p ≥ 0.10: Evidencia débil o insuficiente
Error Tipo I:
Al rechazar con α=0.10:
- Probabilidad de Error Tipo I (rechazar H₀ siendo verdadera) = 10%
- Es mayor que con α=0.05 (5%)
- Trade-off: Más poder estadístico, pero más riesgo de falsos positivos
Análisis de opciones:
A) "Rechazar H₀": VERDADERO ✓ - p = 0.07 < α = 0.10 - Cumple la regla de decisión - Evidencia suficiente al nivel 10%
B) "No rechazar H₀": FALSO - Solo sería correcto si α fuera 0.05 o menor - Con α=0.10, debemos rechazar
C) "Aceptar H₀ como verdadera": FALSO - NUNCA "aceptamos" H₀ como verdadera - Solo "no rechazamos" por falta de evidencia - Además, en este caso sí rechazamos
D) "Depende del tamaño muestral": FALSO - La decisión solo depende de comparar p con α - El tamaño muestral ya está reflejado en el p-valor - No necesitamos información adicional
Conclusiones múltiples según α:
Si el mismo estudio se reporta con diferentes niveles:
| α usado | Decisión | Conclusión |
|---|---|---|
| 0.01 | No rechazar | "No significativo al 1%" |
| 0.05 | No rechazar | "No significativo al 5%" |
| 0.10 | Rechazar | "Significativo al 10%" |
Recomendación moderna:
Reportar siempre el p-valor exacto (0.07) y dejar que el lector juzgue:
"Se encontró p = 0.07, sugiriendo evidencia moderada contra H₀."
Conclusión:
Con un p-valor de 0.07 y un nivel de significación α=0.10, debemos rechazar H₀, ya que 0.07 < 0.10. Esto demuestra que la decisión en tests de hipótesis depende críticamente del nivel α establecido previamente.
Solución pregunta 20 — Gl en tabla 3×5
Enunciado: En una tabla de contingencia 3×5, los grados de libertad para χ² de independencia son:
Respuesta correcta: B) 8.
Desarrollo:
Test χ² de independencia:
Evalúa si dos variables categóricas son independientes.
Tabla de contingencia:
| Variable Fila \ Columna | C₁ | C₂ | C₃ | C₄ | C₅ | Total |
|---|---|---|---|---|---|---|
| F₁ | n₁₁ | n₁₂ | n₁₃ | n₁₄ | n₁₅ | n₁. |
| F₂ | n₂₁ | n₂₂ | n₂₃ | n₂₄ | n₂₅ | n₂. |
| F₃ | n₃₁ | n₃₂ | n₃₃ | n₃₄ | n₃₅ | n₃. |
| Total | n.₁ | n.₂ | n.₃ | n.₄ | n.₅ | n |
Dimensiones: - r = 3 filas - c = 5 columnas - Total de celdas = 3 × 5 = 15
Fórmula de grados de libertad:
Cálculo:
Resultado: 8 grados de libertad
¿Por qué (r-1)(c-1)?
Restricciones en la tabla:
- Totales de fila fijos: Una vez conocemos r-1 filas, la última se determina
- Totales de columna fijos: Una vez conocemos c-1 columnas, la última se determina
Celdas libres:
De las 15 celdas, solo 8 son libres de variar. Las demás se determinan por los totales marginales.
Visualización:
Tabla 3×5 con celdas libres (●) y determinadas (○):
C₁ C₂ C₃ C₄ C₅
F₁ ● ● ● ● ○ (última columna determinada)
F₂ ● ● ● ● ○
F₃ ○ ○ ○ ○ ○ (última fila determinada)
Celdas libres: 2×4 = 8 ●
Celdas determinadas: 7 ○
Ejemplo numérico:
Supongamos totales marginales: - Totales de fila: 50, 70, 30 (n=150) - Totales de columna: 40, 35, 30, 25, 20
Si llenamos las 8 celdas libres:
| C₁ | C₂ | C₃ | C₄ | C₅ | Total | |
|---|---|---|---|---|---|---|
| F₁ | 12 | 14 | 10 | 8 | 6 | 50 |
| F₂ | 20 | 15 | 15 | 12 | 8 | 70 |
| F₃ | 8 | 6 | 5 | 5 | 6 | 30 |
| Tot | 40 | 35 | 30 | 25 | 20 | 150 |
- Celda F₁C₅ = 50-(12+14+10+8) = 6 ✓
- Celda F₂C₅ = 70-(20+15+15+12) = 8 ✓
- Fila F₃ completa determinada por totales de columna
Estadístico χ²:
Donde: - \(O_{ij}\): Frecuencia observada - \(E_{ij} = \frac{n_{i.} \times n_{.j}}{n}\): Frecuencia esperada
Distribución:
Valor crítico (α=0.05):
Con gl=8: \(\chi^2_{0.05, 8} \approx 15.507\)
Si \(\chi^2_{\text{calc}} > 15.507\) → Rechazar independencia
Ejemplos de gl en otras tablas:
| Tabla | r | c | gl = (r-1)(c-1) |
|---|---|---|---|
| 2×2 | 2 | 2 | (1)(1) = 1 |
| 2×3 | 2 | 3 | (1)(2) = 2 |
| 3×3 | 3 | 3 | (2)(2) = 4 |
| 3×4 | 3 | 4 | (2)(3) = 6 |
| 3×5 | 3 | 5 | (2)(4) = 8 |
| 4×5 | 4 | 5 | (3)(4) = 12 |
| 5×5 | 5 | 5 | (4)(4) = 16 |
Análisis de opciones:
A) 8: VERDADERO (duplicado de B)
B) 8: VERDADERO ✓ - gl = (3-1)(5-1) = 2×4 = 8 - Cálculo correcto
C) 12: FALSO - Error: (3)(4) = 12 (olvidó restar 1) - O confusión con tabla 4×5
D) 15: FALSO - Error: 3×5 = 15 (total de celdas, no gl) - No restó las restricciones
Interpretación práctica:
Con 8 grados de libertad, el test tiene:
- Flexibilidad moderada para detectar desviaciones de independencia
- Potencia adecuada si el tamaño muestral es suficiente
- Múltiples patrones posibles de asociación (8 dimensiones libres)
Requisito de frecuencias esperadas:
Para que el test χ² sea válido:
Con 15 celdas, al menos 12 deben tener \(E_{ij} \geq 5\).
Conclusión:
En una tabla de contingencia de dimensión 3×5 (3 filas, 5 columnas), los grados de libertad para el test χ² de independencia son (3-1)(5-1) = 2×4 = 8, reflejando el número de celdas que pueden variar libremente dados los totales marginales.
Solución pregunta 21 — Anderson-Darling
Enunciado: El test de Anderson-Darling se emplea principalmente para:
Respuesta correcta: C) Evaluar ajuste a una distribución (normal u otra) con énfasis en colas.
Desarrollo:
Test de Anderson-Darling (AD):
Es un test de bondad de ajuste que evalúa si una muestra proviene de una distribución específica.
Propósito principal:
Determinar si los datos siguen una distribución teórica (Normal, Exponencial, Weibull, etc.)
Estadístico AD:
Donde: - \(F(X_i)\): CDF teórica evaluada en los datos ordenados - n: tamaño de muestra
Característica distintiva:
Pondera más las colas que otras pruebas (como Kolmogorov-Smirnov).
Comparación con otros tests:
| Test | Énfasis | Potencia en colas |
|---|---|---|
| Anderson-Darling | Todo, especialmente colas | Alta |
| Kolmogorov-Smirnov (KS) | Centro de la distribución | Media |
| Shapiro-Wilk | Normal específicamente | Alta (para normalidad) |
| χ² bondad de ajuste | Depende del agrupamiento | Variable |
¿Por qué es importante ponderar las colas?
Las colas son críticas para:
- Detección de outliers
- Análisis de riesgo extremo
- Validación de supuestos en IC y tests
- Modelado de eventos raros
Ejemplo de aplicación:
Test de normalidad:
Datos de alturas (cm): 165, 168, 170, 172, 175, 177, 180, 183, 185, 195
Hipótesis: - H₀: Los datos siguen distribución Normal - H₁: Los datos NO siguen distribución Normal
Pasos:
-
Estimar parámetros: \(\bar{x} = 177\), \(s = 8.94\)
-
Calcular AD:
- Estandarizar datos
- Aplicar CDF Normal estándar
-
Calcular estadístico A²
-
Decisión:
- Si A² > valor crítico → Rechazar normalidad
- Valor crítico típico (α=0.05): A² ≈ 0.752
Interpretación visual:
Test KS: Mide distancia máxima vertical
F(x)│ Teórica ─────
1.0 │ ╱
│ ╱●
0.8 │ ╱ ●
│ ╱ ●
0.6 │ ● ●
│ ●
0.4 │ ●
│ ●
0.2 │ ● ← KS se enfoca en centro
│●
0.0 │
└────────────────► x
Colas menos importantes
Test AD: Pondera más las colas
F(x)│
1.0 │ ╱──── ← Cola superior (alta ponderación)
│ ╱
0.8 │ ╱
│ ╱
0.5 │╱ ← Centro (ponderación moderada)
│
0.2 │
│
0.0 │─────── ← Cola inferior (alta ponderación)
└────────────────► x
Software común:
- R:
ad.test()del paquetenortest - Python:
anderson()descipy.stats - SAS: PROC UNIVARIATE con opción NORMAL
- SPSS: Analizar → Estadísticos descriptivos → Explorar
Valores típicos de A²:
| A² | Interpretación |
|---|---|
| < 0.5 | Buen ajuste a la distribución |
| 0.5-1.0 | Ajuste cuestionable |
| > valor crítico | Rechazo (mal ajuste) |
Para normalidad (α=0.05): Valor crítico ≈ 0.752
Aplicaciones específicas:
1. Validar normalidad:
Antes de usar tests t, ANOVA, regresión: - AD pequeño → Normalidad razonable → Proceder - AD grande → No normalidad → Usar tests no paramétricos
2. Comparar distribuciones:
¿Los tiempos de respuesta siguen Exponencial? - H₀: X ~ Exponencial(λ) - Calcular AD para esta distribución específica
3. Control de calidad:
¿Los productos siguen especificación Normal? - Detectar desviaciones en extremos (defectos)
Ventajas del test AD:
✓ Mayor potencia que KS en las colas ✓ Sensible a outliers (detecta anomalías extremas) ✓ Distribución de referencia conocida (tablas disponibles) ✓ Válido para varias distribuciones (no solo Normal)
Desventajas:
✗ Sensible a tamaño de muestra (rechaza con n muy grande) ✗ Cálculo más complejo que KS ✗ Tablas críticas específicas según distribución
Análisis de opciones:
A) "Comparar medias de dos grupos": FALSO - Eso sería test t o Mann-Whitney - AD no compara grupos
B) "Estimar la varianza poblacional": FALSO - AD no estima parámetros - Solo evalúa ajuste a distribución
C) "Evaluar ajuste a una distribución (normal u otra) con énfasis en colas": VERDADERO ✓ - Test de bondad de ajuste - Pondera colas más que KS - Aplicable a varias distribuciones
D) "Medir correlación no lineal": FALSO - Eso sería Spearman o Kendall - AD no mide asociación entre variables
Comparación con Shapiro-Wilk:
| Aspecto | Shapiro-Wilk | Anderson-Darling |
|---|---|---|
| Propósito | Solo normalidad | Múltiples distribuciones |
| Potencia | Muy alta para normalidad | Alta, especialmente en colas |
| Tamaño muestral | n ≤ 5000 típicamente | Sin límite práctico |
| Cálculo | Complejo | Moderado |
| Popularidad | Muy usado | Común en software |
Conclusión:
El test de Anderson-Darling es un test de bondad de ajuste que evalúa si los datos siguen una distribución específica (Normal, Exponencial, etc.), con la ventaja distintiva de ponderar más las colas, lo que lo hace especialmente útil para detectar desviaciones en los extremos de la distribución.
Solución pregunta 22 — P-valor unilateral vs bilateral
Enunciado: En un contraste unilateral derecho, el estadístico cae en la cola crítica pero el p-valor bilateral es 0.08. Con α=0.05, unilateralmente:
Respuesta correcta: A) Se podría rechazar H₀ si el p-valor unilateral es 0.04.
Desarrollo:
Relación entre p-valores unilateral y bilateral:
Para un test donde el efecto observado va en la dirección de H₁:
Datos del problema:
- Test: Unilateral derecho (H₁: μ > μ₀)
- p-valor bilateral: 0.08
- α: 0.05
- El estadístico cae en la cola crítica derecha
Cálculo del p-valor unilateral:
Decisión:
Por tanto: Rechazar H₀ en el test unilateral
Visualización:
Test BILATERAL (dos colas):
Densidad
│ ╱─╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│ ╱4%░░░░░░4%╲
│ ╱░░░░░░░░░░░░╲
│ ╱░░░░░░░░░░░░░░╲
└────────────────────► z
-2 -1.75 0 1.75 2
↑
Observado
p-bilateral = 0.08 (4% en cada cola)
0.08 > 0.05 → NO rechazar (bilateral)
Test UNILATERAL DERECHO (una cola):
Densidad
│ ╱─╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│ ╱ 4%╲
│ ╱ ░░░╲
│ ╱ ░░░░░╲
└────────────────────► z
0 1.75 2
↑
Observado
p-unilateral = 0.04 (toda el área a la derecha)
0.04 < 0.05 → Rechazar (unilateral)
Ejemplo numérico:
Problema: ¿El nuevo método aumenta la productividad?
- H₀: μ = 50 (productividad sin cambio)
- H₁: μ > 50 (productividad aumenta) ← Unilateral derecho
Datos: - Muestra: \(\bar{x} = 53\), n=25, s=8 - Estadístico t:
Con gl=24:
P-valor bilateral:
Área en ambas colas: P(|T| > 1.875) = 0.08
P-valor unilateral derecho:
Área solo cola derecha: P(T > 1.875) = 0.04
Decisión con α=0.05:
- Bilateral: 0.08 > 0.05 → No rechazar
- Unilateral: 0.04 < 0.05 → Rechazar ✓
¿Por qué esta diferencia?
Test bilateral: - Rechaza si μ ≠ 50 (tanto > como <) - Divide α entre dos colas - Más estricto (necesita evidencia más fuerte)
Test unilateral: - Solo rechaza si μ > 50 - Toda el α en una cola - Más poder para detectar efecto en dirección específica
Condición importante:
La conversión p-unilateral = p-bilateral/2 solo es válida si:
✓ El efecto observado está en la dirección de H₁ ✓ El estadístico cae en la cola especificada
Si el efecto fuera en dirección opuesta: - p-unilateral sería muy grande (≈1) - No se rechazaría
Tabla de comparación:
| Estadístico | p-bilateral | p-unilateral derecho | Decisión (α=0.05) |
|---|---|---|---|
| z = 1.50 | 0.134 | 0.067 | No rechazar |
| z = 1.645 | 0.100 | 0.050 | Justo rechazar (unilateral) |
| z = 1.75 | 0.080 | 0.040 | Rechazar (unilateral) |
| z = 1.96 | 0.050 | 0.025 | Rechazar ambos |
| z = 2.33 | 0.020 | 0.010 | Rechazar ambos |
Valores críticos:
| Nivel α | Bilateral | Unilateral |
|---|---|---|
| 0.10 | ±1.645 | +1.28 |
| 0.05 | ±1.96 | +1.645 |
| 0.01 | ±2.576 | +2.33 |
El valor crítico unilateral es menor (más fácil rechazar).
Análisis de opciones:
A) "Se podría rechazar H₀ si el p-valor unilateral es 0.04": VERDADERO ✓ - 0.04 < 0.05 → Rechazar - p-unilateral = p-bilateral/2 = 0.08/2 = 0.04 - Lógica correcta
B) "No se puede rechazar porque el bilateral es 0.08": FALSO - Confunde test bilateral con unilateral - En unilateral, usamos p-unilateral, no bilateral - El bilateral NO aplica aquí
C) "Siempre se rechaza al ser unilateral": FALSO - No es automático - Depende de comparar p con α - Si p-unilateral > α, no se rechaza
D) "Se duplica el p-valor": FALSO - Al revés: se divide por 2 - Bilateral = 2 × Unilateral - Unilateral = Bilateral / 2
¿Cuándo usar test unilateral?
Apropiado cuando:
✓ Solo interesa una dirección del efecto ✓ La dirección se especifica a priori (antes de ver datos) ✓ El efecto contrario sería equivalente a H₀
Ejemplos: - ¿El fármaco reduce la presión? (solo interesa reducción) - ¿El entrenamiento mejora rendimiento? (solo interesa mejora)
Controversia:
Algunos estadísticos prefieren siempre bilateral porque: - Es más conservador - Evita "data snooping" (elegir dirección post-hoc) - Reporta evidencia en cualquier dirección
Conclusión:
En un test unilateral derecho donde el estadístico cae en la dirección esperada, el p-valor unilateral es la mitad del bilateral. Con p-bilateral=0.08, obtenemos p-unilateral=0.04, que es menor que α=0.05, permitiendo rechazar H₀ en el contexto unilateral (aunque no se rechazaría en el bilateral).
Solución pregunta 23 — Consistencia
Enunciado: Un estimador es consistente si:
Respuesta correcta: C) Convergencia en probabilidad.
Desarrollo:
Definición de consistencia:
Un estimador \(\hat{\theta}_n\) de un parámetro θ es consistente si:
Es decir, converge en probabilidad al verdadero valor del parámetro conforme aumenta el tamaño muestral.
Notación formal:
Para cualquier ε > 0, la probabilidad de que el estimador difiera del parámetro en más de ε tiende a cero.
Interpretación intuitiva:
- Con muestras pequeñas: \(\hat{\theta}\) puede estar lejos de θ
- Con muestras grandes: \(\hat{\theta}\) está arbitrariamente cerca de θ
- A medida que n → ∞: \(\hat{\theta}\) → θ (casi seguro)
Visualización:
Distribución muestral de θ̂ según n:
n = 10:
Densidad
│ ╱─╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲____
└────────────────► θ̂
θ (dispersión alta)
n = 50:
Densidad
│ ╱╲
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲___
└────────────────► θ̂
θ (dispersión menor)
n = 500:
Densidad
│ │
│ │
│ │
│ ╱╲___
└────────────────► θ̂
θ (concentrado en θ)
Conforme n → ∞, toda la masa se concentra en θ
Ejemplo: Media muestral
Sea \(X_1, ..., X_n\) i.i.d. con E[X]=μ y Var(X)=σ².
\(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\) es consistente para μ.
Demostración usando Desigualdad de Chebyshev:
Cuando \(n \to \infty\):
Por tanto: \(\bar{X} \xrightarrow{P} \mu\) ✓
Condiciones suficientes para consistencia:
Teorema: Si un estimador \(\hat{\theta}_n\) cumple:
- E[\(\hat{\theta}_n\)] → θ (sesgo → 0)
- Var(\(\hat{\theta}_n\)) → 0 (varianza → 0)
Entonces \(\hat{\theta}_n\) es consistente.
Ejemplo numérico:
Estimando la media poblacional μ = 50:
| n | E[\(\bar{X}\)] | Var(\(\bar{X}\)) = σ²/n | SD(\(\bar{X}\)) | P(|\(\bar{X}\)-50| < 1) |
|---|---|---|---|---|
| 10 | 50 | 10 | 3.16 | ≈ 62% |
| 50 | 50 | 2 | 1.41 | ≈ 84% |
| 100 | 50 | 1 | 1.00 | ≈ 95% |
| 500 | 50 | 0.2 | 0.45 | ≈ 99.7% |
| ∞ | 50 | 0 | 0 | 100% |
A medida que n crece, \(\bar{X}\) se concentra cada vez más cerca de 50.
Propiedades de estimadores:
| Propiedad | Definición | ¿Suficiente para consistencia? |
|---|---|---|
| Insesgadez | E[\(\hat{\theta}\)] = θ | NO (sin control de varianza) |
| Eficiencia | Var mínima entre insesgados | NO (puede tener sesgo) |
| Consistencia | \(\hat{\theta}_n \xrightarrow{P} \theta\) | Sí (por definición) |
| Asintót. Normal | Distribución → Normal | NO (no implica convergencia a θ) |
Contraste con insesgadez:
Insesgadez: E[\(\hat{\theta}\)] = θ para cualquier n - Propiedad de muestra finita - No garantiza consistencia
Consistencia: \(\hat{\theta}_n\) → θ cuando n → ∞ - Propiedad asintótica - Permite sesgo finito si desaparece
Ejemplo de estimador insesgado pero NO consistente:
Estimador ridículo: \(\hat{\theta} = X_1\) (solo el primer dato)
- Insesgado: E[\(X_1\)] = μ ✓
- NO consistente: Var(\(X_1\)) = σ² (no decrece con n) ✗
Ejemplo de estimador sesgado pero consistente:
Varianza muestral con denominador n (en lugar de n-1):
- Sesgada: E[\(s^2_{\text{sesgada}}\)] = \(\frac{n-1}{n}\sigma^2\) ≠ σ²
- Consistente: Sesgo = \(-\frac{\sigma^2}{n}\) → 0 cuando n → ∞ ✓
Ley de los Grandes Números:
La consistencia de \(\bar{X}\) es un caso particular de la LGN:
Análisis de opciones:
A) "Es insesgado y eficiente": FALSO - Insesgadez + eficiencia NO garantizan consistencia - Ejemplo: Estimador insesgado con varianza constante
B) "Su varianza es mínima": FALSO - Varianza mínima (eficiencia) es para n fijo - No implica que varianza → 0
C) "Convergencia en probabilidad": VERDADERO ✓ - Definición exacta de consistencia - \(\hat{\theta}_n \xrightarrow{P} \theta\)
D) "Es asintóticamente normal": FALSO - Normalidad asintótica es propiedad adicional - NO implica convergencia al parámetro - Ejemplo: \(\hat{\theta}_n \sim N(\theta + 1/\sqrt{n}, 1/n)\) es asintóticamente normal pero NO consistente
Importancia práctica:
¿Por qué queremos estimadores consistentes?
- Garantía a largo plazo: Con suficientes datos, estaremos cerca del verdadero valor
- Justificación de muestras grandes: Motiva recolectar más datos
- Propiedad mínima aceptable: Estimadores inconsistentes son inútiles
Propiedades relacionadas:
Teorema Central del Límite:
Si \(\hat{\theta}_n\) es consistente, además:
Da la distribución asintótica (útil para IC y tests).
Conclusión:
Un estimador es consistente si converge en probabilidad al verdadero parámetro conforme el tamaño muestral tiende a infinito. Esto es más débil que requerir insesgadez (que es para n finito) pero más fuerte que solo requerir eficiencia (que no implica convergencia).
Solución pregunta 24 — Regla 68-95-99.7
Enunciado: En una distribución normal, el intervalo μ±2σ contiene aproximadamente:
Respuesta correcta: B) 0.95.
Desarrollo:
Regla empírica (68-95-99.7):
Para cualquier distribución Normal N(μ, σ²):
| Intervalo | Probabilidad | Porcentaje |
|---|---|---|
| μ ± 1σ | ≈ 0.6827 | ≈ 68% |
| μ ± 2σ | ≈ 0.9545 | ≈ 95% |
| μ ± 3σ | ≈ 0.9973 | ≈ 99.7% |
Cálculo exacto para μ ± 2σ:
Estandarizando:
De tablas: - Φ(2) = 0.9772 - Φ(-2) = 0.0228
≈ 95.44% (se aproxima a 95%)
Visualización:
Distribución N(μ, σ²)
Densidad
│ ╱─╲
│ ╱ ╲
0.4 │ ╱ ╲
│ ╱ ╲
0.3 │ ╱░░░░░░░░░╲
│ ╱░░░░░░░░░░░╲
0.2 │ ╱░░░░░░░░░░░░░╲
│ ╱░░95%░░░░░░░░░░╲
0.1 │╱2.5%░░░░░░░░░░2.5%╲
└──────────────────────► X
μ-3σ μ-2σ μ μ+2σ μ+3σ
Área sombreada = 95.44% ≈ 95%
Colas = 2.28% cada una ≈ 2.5% cada una
Desglose de la regla:
μ ± 1σ (68%):
- Centro: 68%
- Cada cola: 16%
μ ± 2σ (95%):
- Centro: 95%
- Cada cola: 2.5%
μ ± 3σ (99.7%):
- Centro: 99.7%
- Cada cola: 0.15%
Ejemplo práctico:
Alturas humanas: μ = 170 cm, σ = 10 cm
μ ± 1σ = [160, 180]: 68% de personas - 160 cm a 180 cm
μ ± 2σ = [150, 190]: 95% de personas - 150 cm a 190 cm
μ ± 3σ = [140, 200]: 99.7% de personas - 140 cm a 200 cm
Probabilidades específicas:
| Altura (cm) | Desviaciones | Percentil |
|---|---|---|
| < 150 | < μ-2σ | 2.5% |
| 150-160 | μ-2σ a μ-σ | 13.5% |
| 160-170 | μ-σ a μ | 34% |
| 170-180 | μ a μ+σ | 34% |
| 180-190 | μ+σ a μ+2σ | 13.5% |
| > 190 | > μ+2σ | 2.5% |
Aplicaciones prácticas:
1. Detección de outliers:
- Valores fuera de μ±2σ: "raros" (5%)
- Valores fuera de μ±3σ: "muy raros" (0.3%)
Ejemplo: - Si altura > 190 cm → En el 2.5% superior (alto) - Si altura < 150 cm → En el 2.5% inferior (bajo)
2. Control de calidad:
Gráfico de control: - Límite de control a μ±2σ (95%) - Límite de acción a μ±3σ (99.7%)
Si proceso sale de μ±2σ → Investigar Si sale de μ±3σ → Acción inmediata
3. Intervalos de confianza:
IC del 95% para media:
(1.96 ≈ 2 por la regla)
4. Estandarización:
Cualquier N(μ,σ²) se convierte a N(0,1):
La regla se vuelve:
| Intervalo Z | Probabilidad |
|---|---|
| [-1, 1] | 68% |
| [-2, 2] | 95% |
| [-3, 3] | 99.7% |
Comparación con valores exactos:
| Regla | Intervalo | Prob. aproximada | Prob. exacta | Diferencia |
|---|---|---|---|---|
| 68% | μ±1σ | 0.68 | 0.6827 | -0.0027 |
| 95% | μ±2σ | 0.95 | 0.9544 | -0.0044 |
| 99.7% | μ±3σ | 0.997 | 0.9973 | -0.0003 |
Nota: μ±2σ da 95.44%, no exactamente 95%.
Para IC del exactamente 95%, usamos:
(no 2σ, sino 1.96σ)
Análisis de opciones:
A) 0.68: FALSO - Esto es para μ±1σ (68%) - Subestima el intervalo μ±2σ
B) 0.95: VERDADERO ✓ - μ±2σ captura ≈95% (exactamente 95.44%) - Regla empírica estándar
C) 0.99: FALSO - Sobrestima - Esto sería para μ±2.576σ (99%) - O aproximadamente μ±3σ
D) 1.00: FALSO - Imposible (siempre hay colas) - Incluso μ±∞σ = 1.00
Tabla completa de la regla:
| k | Intervalo μ±kσ | Probabilidad | Uso común |
|---|---|---|---|
| 0.67 | μ±0.67σ | 50% | Cuartiles (aprox) |
| 1 | μ±1σ | 68% | Desviación típica |
| 1.645 | μ±1.645σ | 90% | IC 90% |
| 1.96 | μ±1.96σ | 95% | IC 95% (exacto) |
| 2 | μ±2σ | 95% | Regla empírica |
| 2.576 | μ±2.576σ | 99% | IC 99% |
| 3 | μ±3σ | 99.7% | Control de calidad |
Mnemotecnia:
"1-2-3 regla": - 1σ → 68% - 2σ → 95% - 3σ → 99.7%
Fácil de recordar: cada σ adicional añade ≈27% y ≈5%
Conclusión:
En una distribución normal, el intervalo μ±2σ contiene aproximadamente el 95% de los datos (exactamente 95.44%), dejando 2.5% en cada cola. Esta regla empírica es fundamental para intervalos de confianza, detección de outliers y control de calidad.
FIN DEL EXAMEN