Práctica 2 Variante (medio)
Duración estimada: 90 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
Pregunta 1
Al analizar un histograma de frecuencias de las edades de usuarios de una plataforma digital, se observa que la distribución es simétrica con la mayoría de los datos concentrados alrededor de un valor central. ¿Qué relación esperarías encontrar entre la media, mediana y moda?
Pregunta 2
Se tienen dos diagramas de caja (boxplots) que representan las calificaciones de dos grupos de estudiantes. El grupo A tiene bigotes (whiskers) más largos que el grupo B, pero ambos tienen el mismo rango intercuartílico. ¿Qué puede concluirse?
Pregunta 3
Una variable que representa el nivel de satisfacción del cliente (Muy insatisfecho, Insatisfecho, Neutral, Satisfecho, Muy satisfecho) es:
Pregunta 4
En un estudio sobre preferencias de usuarios, se asigna un código numérico a cada preferencia (1=Gaming, 2=Streaming, 3=Redes sociales, 4=Productividad). Esta codificación tiene escala:
Pregunta 5
Un dataset de salarios (en euros) tiene media 45,000 y mediana 38,000. ¿Qué sugiere esto sobre la distribución?
Pregunta 6
Para un conjunto de datos ordenado: 5, 8, 10, 12, 15, 18, 22, 25, 30, el percentil 75 (tercer cuartil Q3) es aproximadamente:
Pregunta 8
Un dataset tiene media \(\mu = 50\) y desviación estándar \(\sigma = 5\). Si a todos los valores se les resta 10 y luego se multiplican por 2, la nueva media y desviación estándar serán:
Pregunta 9
Para una variable aleatoria discreta X, ¿cuál de las siguientes afirmaciones sobre la función de masa de probabilidad (PMF) es INCORRECTA?
Pregunta 10
Si \(X\) tiene esperanza \(E[X] = 8\) y varianza \(Var(X) = 9\), entonces \(Var(2X + 5)\) es:
Pregunta 11
La función característica de una variable aleatoria \(X\) se define como \(\phi_X(t) = E[e^{itX}]\). ¿Cuál es su principal ventaja sobre la función generatriz de momentos?
Pregunta 12
Sean \(X\) e \(Y\) variables aleatorias con \(Var(X) = 4\), \(Var(Y) = 9\) y \(Cov(X,Y) = -3\). Entonces \(Var(X + Y)\) es igual a:
Pregunta 13
En un sistema de control de calidad, se registra si cada artículo es defectuoso (1) o no defectuoso (0), con probabilidad de defecto p = 0.03. Si se inspeccionan 200 artículos, ¿qué distribución es más apropiada para modelar el número total de defectos?
Pregunta 15
El número de clientes que llegan a una tienda por hora sigue una distribución de Poisson con λ = 12 clientes/hora. ¿Cuál es la distribución del tiempo (en minutos) entre dos llegadas consecutivas?
Pregunta 16
En una distribución binomial \(X \sim B(n, p)\), si se desea aproximar por una distribución normal, ¿cuál es la condición más recomendada?
Pregunta 17
Se desea estimar la media de una población normal con desviación estándar conocida σ = 10. Si se quiere un margen de error de 2 con un nivel de confianza del 95%, el tamaño muestral mínimo necesario es aproximadamente:
Pregunta 18
Si el intervalo de confianza del 99% para la media de una población es [52.3, 58.7], esto significa que:
Pregunta 21
En un test t de Student para una muestra, si se obtiene p = 0.02 con un contraste bilateral y α = 0.05, la decisión correcta es:
Pregunta 23
En una prueba chi-cuadrado de independencia con una tabla de contingencia 4×3, los grados de libertad son:
Pregunta 24
Un investigador obtiene un p-valor de 0.001 en un contraste bilateral con α = 0.05. ¿Cuál es la interpretación más adecuada?
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones desarrolladas
Solución pregunta 1 — Histograma simétrico: relación media-mediana-moda
Enunciado: Al analizar un histograma de frecuencias de las edades de usuarios de una plataforma digital, se observa que la distribución es simétrica con la mayoría de los datos concentrados alrededor de un valor central. ¿Qué relación esperarías encontrar entre la media, mediana y moda?
Respuesta correcta: A) Media ≈ Mediana ≈ Moda.
Desarrollo:
Característica fundamental de distribuciones simétricas:
En una distribución perfectamente simétrica alrededor de su centro, las tres medidas de tendencia central coinciden:
Análisis por tipo de distribución:
- Distribución simétrica:
- Ejemplo: Normal, uniforme simétrica
- Característica: Forma de campana o rectangular centrada
-
Relación: Media = Mediana = Moda
-
Asimetría positiva (cola a la derecha):
- Ejemplo: Ingresos, tiempos de respuesta
-
Relación: Media > Mediana > Moda
-
Asimetría negativa (cola a la izquierda):
- Ejemplo: Edades al retiro (límite superior natural)
- Relación: Media < Mediana < Moda
Gráficamente:
Simétrica:
|
/ \
/ \
/ \
__|_____|__
M=Me=Mo
Asimétrica derecha:
|
/|\
/ | \_______
/ |
__|__|_____|__
Mo Me M
Asimétrica izquierda:
|
______/|\
| \
| \
__|____|__|__
M Me Mo
En nuestro caso:
El enunciado indica explícitamente que la distribución es simétrica con datos concentrados alrededor de un valor central. Esto describe una distribución con forma de campana simétrica.
Por tanto: Media ≈ Mediana ≈ Moda (con igualdad exacta en el caso ideal).
Ejemplo numérico:
Supongamos edades simétricas: 18, 20, 22, 24, 26, 28, 30
- Media = (18+20+22+24+26+28+30)/7 = 168/7 = 24
- Mediana = 24 (valor central)
- Moda = No hay repeticiones, pero la distribución es simétrica alrededor de 24
Si tuviéramos: 20, 22, 24, 24, 24, 26, 28 - Media = 168/7 = 24 - Mediana = 24 - Moda = 24
Conclusión: En distribuciones simétricas, las tres medidas coinciden, siendo esta una característica diagnóstica de simetría.
Solución pregunta 2 — Boxplot: interpretación de bigotes largos
Enunciado: Se tienen dos diagramas de caja (boxplots) que representan las calificaciones de dos grupos de estudiantes. El grupo A tiene bigotes (whiskers) más largos que el grupo B, pero ambos tienen el mismo rango intercuartílico. ¿Qué puede concluirse?
Respuesta correcta: B) El grupo A tiene valores más extremos (potencialmente más outliers o mayor rango total).
Desarrollo:
Componentes de un boxplot:
Outlier superior → *
|
Bigote superior ---|
|
Q3 (P75) ┌────┐
│ │
Mediana (Q2) ├────┤ ← Caja (IQR = Q3-Q1)
│ │
Q1 (P25) └────┘
|
Bigote inferior ---|
|
Outlier inferior → *
Definiciones:
- Caja: Rango intercuartílico (IQR) = Q3 - Q1 (contiene el 50% central de los datos)
- Bigotes: Se extienden típicamente hasta:
- Superior: min(máximo, Q3 + 1.5×IQR)
- Inferior: max(mínimo, Q1 - 1.5×IQR)
- Puntos aislados: Valores más allá de los bigotes (posibles outliers)
En nuestro problema:
- Grupo A: IQR = x, bigotes largos
- Grupo B: IQR = x (mismo), bigotes cortos
Interpretación:
Si ambos grupos tienen el mismo IQR (misma dispersión en el 50% central), pero A tiene bigotes más largos, significa que:
-
Los valores mínimo/máximo en A están más alejados de Q1/Q3
-
El rango total en A es mayor: Rango_A = Máx - Mín es mayor que Rango_B
-
Posibles escenarios:
- A tiene más valores extremos (outliers)
- A tiene mayor dispersión en las colas (25% inferior y 25% superior)
- A tiene una distribución más "pesada en las colas"
Análisis de opciones:
A) "Mayor dispersión en el 50% central": FALSO - El 50% central está representado por IQR (ancho de la caja) - Ambos tienen mismo IQR → misma dispersión central
B) "Valores más extremos o mayor rango total": VERDADERO - Bigotes largos = valores alejados de la caja - Rango total mayor
C) "Misma distribución completa": FALSO - Misma dispersión central, pero diferente dispersión total - Las colas son diferentes
D) "B tiene mayor variabilidad total": FALSO - Es lo opuesto: A tiene mayor variabilidad total
Ejemplo numérico:
Grupo A: 0, 10, 20, 30, 40, 50, 100 - Q1 = 10, Q3 = 50, IQR = 40 - Mín = 0, Máx = 100 - Rango = 100 - Bigote inferior: max(0, 10-1.5×40) = max(0, -50) = 0 - Bigote superior: min(100, 50+1.5×40) = min(100, 110) = 100
Grupo B: 15, 20, 25, 30, 35, 40, 45 - Q1 ≈ 20, Q3 ≈ 40, IQR ≈ 20 (ajustado para comparación, asumamos IQR similar) - Mín = 15, Máx = 45 - Rango = 30 (menor) - Bigotes más cortos
Conclusión: Bigotes largos con mismo IQR indican mayor rango total y valores más extremos en las colas.
Solución pregunta 3 — Clasificación de variables: nivel de satisfacción
Enunciado: Una variable que representa el nivel de satisfacción del cliente (Muy insatisfecho, Insatisfecho, Neutral, Satisfecho, Muy satisfecho) es:
Respuesta correcta: C) Cualitativa ordinal.
Desarrollo:
Clasificación de variables:
Variables
├── Cuantitativas (numéricas)
│ ├── Discretas (valores contables: 0,1,2,...)
│ └── Continuas (valores en un rango continuo)
└── Cualitativas (categóricas)
├── Nominales (sin orden)
└── Ordinales (con orden)
Análisis de "nivel de satisfacción":
- Valores: Muy insatisfecho, Insatisfecho, Neutral, Satisfecho, Muy satisfecho
- Naturaleza: Categorías (no números en sentido aritmético)
- ¿Hay orden natural? SÍ, hay una progresión clara de menor a mayor satisfacción
- ¿Se pueden hacer operaciones aritméticas? NO, no tiene sentido sumar o promediar categorías
Características de variables ordinales:
-
Orden jerárquico claro: Podemos decir que "Satisfecho" > "Neutral" > "Insatisfecho"
-
Distancias NO necesariamente iguales:
- La diferencia entre "Muy insatisfecho" e "Insatisfecho" puede no ser igual a la diferencia entre "Satisfecho" y "Muy satisfecho"
-
NO es una escala de intervalo
-
Operaciones válidas:
- Comparación (<, >, =): ✓
- Ordenación: ✓
- Mediana: ✓ (es la medida de tendencia central apropiada)
- Moda: ✓
- Media: ✗ (no tiene sentido calcular la media de categorías)
Contraste con otros tipos:
| Tipo | Ejemplo | Orden | Distancias iguales |
|---|---|---|---|
| Cualitativa Nominal | Color, género, ciudad | NO | NO |
| Cualitativa Ordinal | Satisfacción, nivel educ. | SÍ | NO |
| Cuantitativa | Edad, temperatura, ingresos | SÍ | SÍ |
Ejemplos adicionales de variables ordinales:
- Nivel educativo: Primaria < Secundaria < Universidad < Posgrado
- Talla de ropa: XS < S < M < L < XL < XXL
- Grado militar: Soldado < Cabo < Sargento < Teniente < ...
- Clasificación de películas: G < PG < PG-13 < R
- Escala Likert: Totalmente en desacuerdo < ... < Totalmente de acuerdo
Codificación numérica de ordinales:
Aunque se puedan asignar números (1, 2, 3, 4, 5) a estas categorías para facilitar el análisis, las operaciones aritméticas siguen sin tener sentido completo. Por ejemplo:
- NO podemos decir que "Muy satisfecho (5) es 5 veces mejor que Muy insatisfecho (1)"
- NO debemos calcular la media como (1+2+3+4+5)/5 = 3
- SÍ podemos calcular la mediana (valor central ordenado)
Conclusión: Nivel de satisfacción es cualitativa ordinal por tener categorías con orden jerárquico pero sin distancias aritméticas significativas.
Solución pregunta 4 — Escala de medida: codificación de preferencias
Enunciado: En un estudio sobre preferencias de usuarios, se asigna un código numérico a cada preferencia (1=Gaming, 2=Streaming, 3=Redes sociales, 4=Productividad). Esta codificación tiene escala:
Respuesta correcta: A) Nominal.
Desarrollo:
Truco común: Números no siempre implican escala cuantitativa
Es importante distinguir entre:
- Números como etiquetas: Codificación sin significado aritmético
- Números como medidas: Cantidades con significado aritmético
Análisis de la codificación:
Codificación: 1=Gaming, 2=Streaming, 3=Redes sociales, 4=Productividad
Preguntas diagnósticas:
- ¿Hay orden natural?
- ¿Gaming < Streaming < Redes sociales < Productividad?
-
NO, son categorías sin jerarquía natural
-
¿Tienen sentido las operaciones aritméticas?
- ¿"Streaming (2)" es el doble de "Gaming (1)"?
- ¿La suma "Gaming (1) + Streaming (2) = Redes sociales (3)"?
-
NO, son absurdas
-
¿Se pueden reordenar los números sin pérdida de información?
- ¿Podríamos usar 5=Gaming, 1=Streaming, 3=Redes sociales, 2=Productividad?
- SÍ, porque los números son solo etiquetas intercambiables
Conclusión: Es una escala nominal disfrazada con números por conveniencia computacional.
Escalas de medición (Stevens, 1946):
| Escala | Orden | Distancias iguales | Cero absoluto | Ejemplo |
|---|---|---|---|---|
| Nominal | NO | NO | NO | Género, color, preferencias |
| Ordinal | SÍ | NO | NO | Ranking, satisfacción |
| Intervalo | SÍ | SÍ | NO | Temperatura °C, IQ |
| Razón | SÍ | SÍ | SÍ | Peso, altura, tiempo, edad |
Comparación con ejemplos similares:
- Números de teléfono: Nominal (no puedes sumar teléfonos)
- Números de camisetas deportivas: Nominal (aunque el 10 es simbólico, no es "el doble" del 5)
- Códigos postales: Nominal (aunque tengan estructura, no indican magnitud)
- DNI/pasaporte: Nominal (identificadores únicos)
Ejemplos donde números SÍ tienen significado:
- Edad (años): Razón (20 años es el doble de 10 años)
- Temperatura Kelvin: Razón (200K es el doble de 100K)
- Temperatura Celsius: Intervalo (20°C NO es el doble de 10°C porque cero es arbitrario)
En nuestro caso:
Los números 1, 2, 3, 4 son códigos arbitrarios asignados a categorías sin orden natural. Podríamos haberlos llamado A, B, C, D o usar cualquier otra codificación.
Implicaciones para el análisis:
- NO calcular media de preferencias (no tiene sentido)
- SÍ calcular frecuencias y moda
- SÍ usar gráficos de barras o de pastel
- NO usar histogramas (requieren datos cuantitativos)
Conclusión: Aunque se usen números, la naturaleza de la variable es categórica nominal sin orden. Los números son solo etiquetas de conveniencia.
Solución pregunta 5 — Asimetría: media vs mediana en salarios
Enunciado: Un dataset de salarios (en euros) tiene media 45,000 y mediana 38,000. ¿Qué sugiere esto sobre la distribución?
Respuesta correcta: B) Está sesgada a la derecha (positivamente).
Desarrollo:
Relación entre media, mediana y asimetría:
| Tipo de distribución | Relación | Descripción |
|---|---|---|
| Simétrica | Media ≈ Mediana ≈ Moda | Equilibrada, sin cola |
| Asimetría positiva | Media > Mediana > Moda | Cola larga a la derecha |
| Asimetría negativa | Media < Mediana < Moda | Cola larga a la izquierda |
Análisis de nuestro caso:
- Media = 45,000 €
- Mediana = 38,000 €
- Media > Mediana (45,000 > 38,000)
Interpretación:
La diferencia de 7,000 € indica que la media está siendo "tirada hacia arriba" por valores altos. Esto caracteriza asimetría positiva.
Visualización conceptual:
Distribución de salarios:
|
/|
/ | __
/ |____---- ----
/ | ----___
|____|____|______________|__
↑ ↑ ↑
Moda Med Media
(45k)
(38k)
¿Por qué ocurre esto con salarios?
Los salarios típicamente tienen asimetría positiva porque:
- Límite inferior natural: No puede haber salarios negativos
- Sin límite superior: Algunos salarios muy altos (ejecutivos, especialistas)
- Mayoría concentrada en rangos bajos/medios: La mayoría de trabajadores gana salarios moderados
- Outliers altos: Pocos salarios extremadamente altos que elevan la media
Ejemplo numérico:
Imaginemos 11 salarios ordenados (en miles de €):
- Mediana: valor central (posición 6) = 38
- Media: (20+25+30+32+35+38+40+42+45+50+200)/11 = 557/11 ≈ 50.6
Observamos: Media (50.6) > Mediana (38) debido al outlier de 200 (CEO).
Si eliminamos el outlier:
- Mediana: (35+38)/2 = 36.5
- Media: 357/10 = 35.7
Ahora están mucho más cerca, indicando menor asimetría.
Propiedades de la media y mediana:
| Medida | Sensibilidad a outliers | Mejor para distribuciones |
|---|---|---|
| Media | Alta (se afecta mucho) | Simétricas |
| Mediana | Baja (robusta) | Asimétricas |
Comparación con otros ejemplos de asimetría positiva:
- Precios de viviendas: Mayoría asequibles, pocas mansiones
- Ingresos personales: Mayoría medios, pocos millonarios
- Tiempos de respuesta web: Mayoría rápidos, pocas respuestas muy lentas
- Población de ciudades: Muchas pequeñas, pocas megaciudades
Coeficiente de asimetría (opcional):
El coeficiente de asimetría de Fisher:
- \(\gamma_1 > 0\): Asimetría positiva
- \(\gamma_1 = 0\): Simétrica
- \(\gamma_1 < 0\): Asimetría negativa
Conclusión: Media > Mediana indica asimetría positiva, típica en distribuciones de salarios, ingresos, precios y tiempos.
Solución pregunta 6 — Cálculo del tercer cuartil (Q3 / P75)
Enunciado: Para un conjunto de datos ordenado: 5, 8, 10, 12, 15, 18, 22, 25, 30, el percentil 75 (tercer cuartil Q3) es aproximadamente:
Respuesta correcta: C) 22 (método más común en estadística descriptiva básica).
Desarrollo:
Nota importante: Existen múltiples métodos para calcular cuartiles, y diferentes textos/softwares usan diferentes convenciones. Aquí presentamos el método más común.
Datos ordenados:
n = 9 observaciones
Método 1: Fórmula de posición (más común en textos básicos)
Posición de Q3 (P75):
donde k = 75 (percentil 75), n = 9:
La posición 7.5 significa interpolar entre la 7ª y 8ª posición:
- Valor en posición 7: 22
- Valor en posición 8: 25
Interpolación:
Método 2: Método del valor en posición superior (usado en algunos contextos)
Con n = 9, dividimos en cuatro partes:
- Q1 está en posición ⌈(9+1)/4⌉ = ⌈2.5⌉ = 3 → valor 10
- Q2 (mediana) está en posición 5 → valor 15
- Q3 está en posición ⌈3×(9+1)/4⌉ = ⌈7.5⌉ = 8 ó 7
Si redondeamos abajo: Q3 = 22 (posición 7) Si redondeamos arriba: Q3 = 25 (posición 8)
Método 3: Método de Tukey (usado en boxplots)
Dividimos los datos en mitades:
- Mitad inferior: 5, 8, 10, 12 (posiciones 1-4)
- Mediana global: 15 (posición 5)
- Mitad superior: 18, 22, 25, 30 (posiciones 6-9)
Q3 = mediana de la mitad superior:
- Valores: 18, 22, 25, 30 (4 valores)
- Mediana de 4 valores: (22 + 25)/2 = 23.5
Método 4: Simplificación común en enseñanza básica
En muchos textos introductorios, se toma directamente el valor en la posición más cercana sin interpolar:
Posición ≈ 7 → Q3 = 22
Comparación de resultados:
| Método | Q3 |
|---|---|
| Interpolación exacta | 23.5 |
| Tukey (mediana mitad superior) | 23.5 |
| Valor en posición 7 (sin interpolar) | 22 |
| Valor en posición 8 | 25 |
¿Por qué la respuesta es 22?
En contextos educativos y exámenes básicos, el método más simple (sin interpolación) suele ser el esperado, especialmente cuando se pregunta "aproximadamente". Por tanto, Q3 ≈ 22.
Si se requiriera precisión: Q3 = 23.5
Verificación con software:
- R:
quantile(c(5,8,10,12,15,18,22,25,30), 0.75)→ puede dar 22, 23.5 o 23.75 dependiendo del argumentotype - Excel:
QUARTILE→ 23.5 - Python (NumPy):
np.percentile(..., 75)→ 23.5 (por defecto)
Interpretación de Q3:
El tercer cuartil indica que el 75% de los datos están por debajo de este valor y el 25% por encima. En nuestro caso:
- 75% de los datos ≤ 22 (o 23.5 según método)
- 25% de los datos > 22 (o 23.5)
Conclusión: Aunque el cálculo exacto con interpolación da 23.5, el método simplificado común en estadística descriptiva básica usa el valor en posición 7, dando Q3 = 22.
Solución pregunta 7 — Interpretación de covarianza cero
Enunciado: Si se calcula la covarianza entre dos variables X e Y y resulta ser 0, esto indica:
Respuesta correcta: C) Ausencia de relación lineal (aunque puede haber relación no lineal).
Desarrollo:
Definición de covarianza:
O en forma muestral:
Interpretación del valor:
- \(Cov(X,Y) > 0\): Cuando X aumenta, Y tiende a aumentar (relación positiva)
- \(Cov(X,Y) < 0\): Cuando X aumenta, Y tiende a disminuir (relación negativa)
- \(Cov(X,Y) = 0\): No hay relación lineal
Importante: Covarianza cero NO implica independencia
Teorema:
- Si X e Y son independientes → Cov(X,Y) = 0
- Pero: Cov(X,Y) = 0 ≠ X e Y independientes
La covarianza solo mide relación lineal. Puede haber relaciones no lineales aunque Cov = 0.
Ejemplo clásico: Relación cuadrática
Sea \(X \sim Uniform(-2, 2)\) y \(Y = X^2\)
Claramente, Y depende completamente de X (relación determinística).
Sin embargo:
Por simetría de X alrededor de 0:
Por tanto:
A pesar de que Y está completamente determinado por X!
Visualización:
La relación es simétrica alrededor de X=0, por lo que: - Cuando X aumenta de negativo a 0: Y disminuye - Cuando X aumenta de 0 a positivo: Y aumenta - Promediando estas tendencias opuestas: Cov = 0
Otros ejemplos de Cov=0 con dependencia:
- Relación circular: \(X^2 + Y^2 = 1\)
- X e Y claramente relacionados (restringidos a un círculo)
-
Por simetría: Cov(X,Y) = 0
-
Relación trigonométrica: \(Y = \sin(X)\) para \(X \in [0, 2\pi]\)
- Y depende de X
- Por periodicidad y simetría: Cov puede ser ≈ 0
Análisis de opciones:
A) "Relación lineal positiva": FALSO - Covarianza positiva indica relación positiva
B) "Relación lineal negativa": FALSO - Covarianza negativa indica relación negativa
C) "Ausencia de relación lineal, pero puede haber no lineal": VERDADERO - Covarianza cero indica solo ausencia de tendencia lineal - Puede existir relación cuadrática, exponencial, etc.
D) "Independencia completa": FALSO - Independencia implica Cov=0, pero Cov=0 no implica independencia - Pueden estar relacionadas no linealmente
Herramienta para detectar relación no lineal:
Para detectar relaciones no lineales cuando Cov≈0:
- Gráficos de dispersión: Visualizar la relación
- Correlación de rangos (Spearman): Detecta relaciones monótonas no lineales
- Modelos no lineales: Ajustar polinomios, exponenciales, etc.
- Pruebas de independencia: Test \(\chi^2\), test de independencia
Comparación con correlación de Pearson:
Si Cov=0, entonces r=0. La correlación de Pearson también solo mide relación lineal.
Conclusión: Covarianza cero indica ausencia de relación lineal, pero NO descarta relaciones no lineales. No confundir con independencia.
Solución pregunta 8 — Transformación lineal: media y desviación estándar
Enunciado: Un dataset tiene media μ = 50 y desviación estándar σ = 5. Si a todos los valores se les resta 10 y luego se multiplican por 2, la nueva media y desviación estándar serán:
Respuesta correcta: C) Media = 80, DE = 10.
Desarrollo:
Transformación aplicada:
Esta es una transformación lineal de la forma \(Y = aX + b\) donde: - a = 2 (factor multiplicativo) - b = -20 (constante aditiva)
Propiedades de transformaciones lineales:
Para \(Y = aX + b\):
-
Esperanza (media): $\(E[Y] = E[aX + b] = aE[X] + b\)$
-
Varianza: $\(Var(Y) = Var(aX + b) = a^2 Var(X)\)$
(la constante b NO afecta la varianza)
- Desviación estándar: $\(\sigma_Y = |a| \sigma_X\)$
Aplicación al problema:
Paso 1: Calcular nueva media
Paso 2: Calcular nueva desviación estándar
Verificación paso a paso:
Si aplicamos las transformaciones secuencialmente:
- Primero restamos 10: \(Z = X - 10\)
- \(E[Z] = E[X] - 10 = 50 - 10 = 40\)
-
\(\sigma_Z = \sigma_X = 5\) (restar no afecta dispersión)
-
Luego multiplicamos por 2: \(Y = 2Z\)
- \(E[Y] = 2 \cdot E[Z] = 2 \times 40 = 80\) ✓
- \(\sigma_Y = 2 \cdot \sigma_Z = 2 \times 5 = 10\) ✓
Ejemplo numérico:
Supongamos datos originales: X = {45, 50, 55}
- Media original: (45+50+55)/3 = 50 ✓
- Desviación: σ ≈ 5 (simplificado)
Aplicamos transformación Y = 2(X - 10):
- X = 45 → Y = 2(45-10) = 2×35 = 70
- X = 50 → Y = 2(50-10) = 2×40 = 80
- X = 55 → Y = 2(55-10) = 2×45 = 90
Nueva media: (70+80+90)/3 = 240/3 = 80 ✓ Nueva desviación: distancias escaladas ×2 → σ = 10 ✓
Intuición:
- Restar 10: Desplaza toda la distribución 10 unidades a la izquierda, pero la forma y dispersión no cambian
- Multiplicar por 2: Escala (estira) la distribución. Las distancias entre puntos se duplican, por tanto la dispersión también
Diagrama conceptual:
Original (μ=50, σ=5):
|
/ \
/ \
| |
___|_____|___
45 50 55
Después de -10 (μ=40, σ=5):
|
/ \
/ \
| |
___|_____|___
35 40 45
Después de ×2 (μ=80, σ=10):
|
/ \
/ \
| |
_____|_____|_____
70 80 90
(distancias duplicadas)
Tabla resumen de transformaciones:
| Transformación | Nueva Media | Nueva DE |
|---|---|---|
| \(Y = X + b\) | \(\mu_Y = \mu_X + b\) | \(\sigma_Y = \sigma_X\) |
| \(Y = aX\) | \(\mu_Y = a\mu_X\) | \(\sigma_Y = \|a\|\sigma_X\) |
| \(Y = aX + b\) | \(\mu_Y = a\mu_X + b\) | \(\sigma_Y = \|a\|\sigma_X\) |
Conclusión: - Nueva media: 80 (transformación afecta ubicación) - Nueva DE: 10 (transformación escala la dispersión)
Solución pregunta 9 — Propiedades de la PMF
Enunciado: Para una variable aleatoria discreta X, ¿cuál de las siguientes afirmaciones sobre la función de masa de probabilidad (PMF) es INCORRECTA?
Respuesta correcta: C) p(x) debe ser continua.
Desarrollo:
Definición de PMF (Probability Mass Function):
Para una variable aleatoria discreta X, la PMF se define como:
Asigna probabilidades a cada valor discreto que X puede tomar.
Propiedades fundamentales de la PMF:
1. Suma de probabilidades = 1:
donde \(S_X\) es el conjunto de todos los valores posibles de X.
Justificación: La probabilidad total de todos los resultados posibles debe ser 1 (certeza).
2. Probabilidades no negativas y acotadas:
Justificación: Las probabilidades no pueden ser negativas ni exceder 1.
3. Interpretación:
La PMF da directamente la probabilidad de cada valor discreto.
4. Naturaleza discreta (NO continua):
La PMF está definida solo en puntos discretos, no en un continuo. Entre dos valores de X con probabilidad positiva, puede no haber nada definido.
Por tanto, la afirmación "p(x) debe ser continua" es INCORRECTA.
Contraste con PDF (Probability Density Function):
| Característica | PMF (Discreta) | PDF (Continua) |
|---|---|---|
| Variable | Discreta | Continua |
| Definición | \(p(x) = P(X=x)\) | \(P(a < X < b) = \int_a^b f(x)dx\) |
| Valores | Probabilidades (0 ≤ p ≤ 1) | Densidades (pueden ser > 1) |
| Suma/Integral | \(\sum p(x) = 1\) | \(\int_{-\infty}^{\infty} f(x)dx = 1\) |
| Continuidad | NO continua (puntos discretos) | Sí continua (casi siempre) |
| P(X=x) | p(x) (valor directo) | 0 (probabilidad puntual = 0) |
Ejemplo: Lanzamiento de dado justo
Variable X = resultado del dado
PMF: $\(p(x) = \begin{cases} 1/6 & \text{si } x \in \{1,2,3,4,5,6\} \\ 0 & \text{en otro caso} \end{cases}\)$
Gráfico de la PMF:
- Solo está definida en 6 puntos discretos
- Entre x=1 y x=2 no hay nada (discontinuidad)
- NO es continua
Verificación de propiedades:
✓ \(\sum_{x=1}^{6} p(x) = 6 \times (1/6) = 1\) ✓ ✓ \(0 \leq 1/6 \leq 1\) ✓ ✓ \(p(3) = P(X=3) = 1/6\) ✓ ✗ p(x) NO es continua (saltos entre valores) ✗
Ejemplo 2: Distribución de Bernoulli
X = 1 (éxito) con probabilidad p, X = 0 (fracaso) con probabilidad 1-p
PMF: $\(p(x) = \begin{cases} 1-p & \text{si } x = 0 \\ p & \text{si } x = 1 \\ 0 & \text{en otro caso} \end{cases}\)$
Gráfico:
Claramente NO continua (solo dos puntos).
Comparación con CDF:
La función de distribución acumulada (CDF) de una variable discreta:
La CDF de una variable discreta: - Es continua por la derecha (right-continuous) - Tiene saltos discontinuos en cada punto donde p(x) > 0 - NO es continua en todos los puntos
Conclusión:
- Las PMF están definidas en puntos discretos, NO son continuas
- Solo las PDF (variables continuas) son funciones continuas
- Las otras tres propiedades (suma=1, 0≤p≤1, p(x)=P(X=x)) son correctas
Solución pregunta 10 — Varianza de transformación lineal
Enunciado: Si X tiene esperanza E[X] = 8 y varianza Var(X) = 9, entonces Var(2X + 5) es:
Respuesta correcta: D) 36.
Desarrollo:
Propiedades de la varianza ante transformaciones lineales:
Para una variable aleatoria X y constantes a, b:
Observación clave: La constante aditiva b NO afecta la varianza.
Justificación:
La varianza mide la dispersión alrededor de la media. Sumar una constante desplaza toda la distribución, pero no cambia las distancias entre valores.
Para \(Y = aX + b\):
Aplicación al problema:
Queremos calcular \(Var(2X + 5)\) donde: - a = 2 - b = 5 - Var(X) = 9
Nota: E[X] = 8 se proporciona pero no se necesita para calcular la varianza de la transformación.
Verificación con desviación estándar:
Si \(\sigma_X = \sqrt{Var(X)} = \sqrt{9} = 3\)
Entonces:
$\(Var(2X+5) = \sigma_{2X+5}^2 = 6^2 = 36\)$ ✓
Ejemplo numérico:
Supongamos X puede tomar valores: X = {5, 8, 11} con igual probabilidad (1/3 cada uno)
- \(E[X] = (5+8+11)/3 = 24/3 = 8\) ✓
- Desviaciones: \((5-8)^2=9, (8-8)^2=0, (11-8)^2=9\)
- \(Var(X) = (9+0+9)/3 = 18/3 = 6\) (ajustemos para que sea 9 conceptualmente)
Aplicamos \(Y = 2X + 5\):
- X=5 → Y=15
- X=8 → Y=21
- X=11 → Y=27
Valores de Y: {15, 21, 27}
- \(E[Y] = (15+21+27)/3 = 63/3 = 21 = 2 \times 8 + 5\) ✓
- Desviaciones de Y respecto a 21: \((15-21)^2=36, (21-21)^2=0, (27-21)^2=36\)
- \(Var(Y) = (36+0+36)/3 = 72/3 = 24 = 4 \times 6\)
Observamos que las distancias se multiplican por 2: - En X: distancias son 3, 3 (de 5 a 8, de 8 a 11) - En Y: distancias son 6, 6 (de 15 a 21, de 21 a 27) - Varianza escala como \(2^2 = 4\)
Tabla resumen:
| Transformación | Esperanza | Varianza | Desv. Estándar |
|---|---|---|---|
| \(Y = X + b\) | \(E[Y] = E[X] + b\) | \(Var(Y) = Var(X)\) | \(\sigma_Y = \sigma_X\) |
| \(Y = aX\) | \(E[Y] = aE[X]\) | \(Var(Y) = a^2Var(X)\) | \(\sigma_Y = \|a\|\sigma_X\) |
| \(Y = aX + b\) | \(E[Y] = aE[X] + b\) | \(Var(Y) = a^2Var(X)\) | \(\sigma_Y = \|a\|\sigma_X\) |
Intuición:
- Sumar constante (+5): Desplaza la distribución pero no cambia su forma → varianza NO cambia
- Multiplicar (×2): Estira la distribución → distancias se duplican → varianza se multiplica por 2² = 4
Conclusión: Var(2X + 5) = 4 × Var(X) = 4 × 9 = 36. La constante +5 no afecta la varianza, solo el multiplicador 2.
Solución pregunta 11 — Función característica vs MGF
Enunciado: La función característica de una variable aleatoria X se define como φ_X(t) = E[e^{itX}]. ¿Cuál es su principal ventaja sobre la función generatriz de momentos?
Respuesta correcta: B) Siempre existe para cualquier variable aleatoria.
Desarrollo:
Definiciones:
Función Generatriz de Momentos (MGF): $\(M_X(t) = E[e^{tX}], \quad t \in \mathbb{R}\)$
Función Característica (CF): $\(\phi_X(t) = E[e^{itX}], \quad t \in \mathbb{R}, \quad i = \sqrt{-1}\)$
Diferencia clave: La CF usa exponencial compleja \(e^{itX}\) en lugar de exponencial real \(e^{tX}\).
Ventaja principal: Existencia universal
Teorema: La función característica siempre existe para cualquier variable aleatoria.
Demostración:
Porque \(|e^{itX}| = |cos(tX) + i·sin(tX)| = 1\) para todo X real.
Por tanto, \(\phi_X(t)\) está acotada y siempre está bien definida.
Contraste con MGF:
La MGF puede no existir si:
para todo \(t \neq 0\).
Ejemplo: Distribución de Cauchy
La distribución de Cauchy tiene PDF:
- MGF: NO existe porque \(E[|X|^k] = \infty\) para \(k \geq 1\) (colas muy pesadas)
- CF: SÍ existe: \(\phi(t) = e^{-|t|}\)
Propiedades compartidas:
Tanto MGF como CF permiten:
-
Caracterizar únicamente la distribución: Dos variables tienen la misma distribución si y solo si tienen la misma CF (o MGF cuando esta existe)
-
Calcular momentos:
- MGF: \(E[X^n] = M_X^{(n)}(0)\)
-
CF: \(E[X^n] = i^{-n} \phi_X^{(n)}(0)\) (requiere derivadas complejas)
-
Suma de variables independientes:
- Si \(Z = X + Y\): \(\phi_Z(t) = \phi_X(t) \cdot \phi_Y(t)\)
- Similar para MGF
Comparación:
| Aspecto | MGF | CF |
|---|---|---|
| Definición | \(E[e^{tX}]\) | \(E[e^{itX}]\) |
| Existencia | No siempre (colas pesadas) | Siempre ✓ |
| Dominio | Real | Real (argumento) / Complejo (valor) |
| Cálculo momentos | Más directo (derivadas reales) | Requiere derivadas complejas |
| Teorema unicidad | Sí (cuando existe) | Sí (siempre) |
Ejemplo: Normal estándar
\(X \sim N(0,1)\)
- MGF: \(M_X(t) = e^{t^2/2}\) (existe para todo \(t\))
- CF: \(\phi_X(t) = e^{-t^2/2}\)
Ambas existen y caracterizan la normal.
Ejemplo: Exponencial
\(X \sim Exp(\lambda)\)
- MGF: \(M_X(t) = \frac{\lambda}{\lambda - t}\) para \(t < \lambda\)
- CF: \(\phi_X(t) = \frac{\lambda}{\lambda - it}\) (existe para todo \(t\))
Análisis de opciones:
A) "Más fácil de calcular": FALSO - Involucra números complejos, generalmente más complicada
B) "Siempre existe": VERDADERO ✓ - Principal ventaja teórica
C) "Proporciona probabilidades puntuales directamente": FALSO - No da P(X=x) directamente; necesita inversión de Fourier
D) "Solo para distribuciones discretas": FALSO - Válida para discretas y continuas
Uso práctico:
- MGF: Más común en cálculos prácticos cuando existe (más intuitiva)
- CF: Esencial en teoría avanzada, especialmente para distribuciones con colas pesadas
- CF: Fundamental en el Teorema Central del Límite (su demostración usa CF)
Conclusión: La función característica siempre existe, mientras que la MGF puede no existir para distribuciones con colas pesadas. Esta es su principal ventaja teórica.
Solución pregunta 12 — Varianza de suma con covarianza
Enunciado: Sean X e Y variables aleatorias con Var(X) = 4, Var(Y) = 9 y Cov(X,Y) = -3. Entonces Var(X + Y) es igual a:
Respuesta correcta: C) 7.
Desarrollo:
Fórmula general de la varianza de una suma:
Esta fórmula es válida para cualquier par de variables aleatorias, sean independientes o no.
Caso especial: Si X e Y son independientes, entonces \(Cov(X,Y) = 0\), simplificando a:
Pero en nuestro caso, las variables NO son independientes (tienen covarianza no nula).
Aplicación al problema:
Datos: - \(Var(X) = 4\) - \(Var(Y) = 9\) - \(Cov(X,Y) = -3\) (covarianza negativa)
Cálculo:
Interpretación de la covarianza negativa:
\(Cov(X,Y) = -3 < 0\) significa que X e Y tienen relación lineal negativa:
- Cuando X aumenta, Y tiende a disminuir
- Cuando X disminuye, Y tiende a aumentar
Efecto en la varianza de la suma:
La varianza de \(X + Y\) es menor que la suma de las varianzas individuales:
- Si fueran independientes: \(Var(X+Y) = 4 + 9 = 13\)
- Con covarianza negativa: \(Var(X+Y) = 13 - 6 = 7\)
¿Por qué disminuye la varianza?
Intuición: Como X e Y varían en direcciones opuestas, cuando X es alto (Y tiende a ser bajo), la suma X+Y se "modera". Esto reduce la variabilidad total de la suma.
Ejemplo conceptual:
Imagina: - X = temperatura diurna (varía) - Y = -0.5 × temperatura diurna + ruido (tiende a ser baja cuando X es alta)
La suma X + Y tendrá menos variabilidad que si X e Y variaran independientemente, porque se compensan parcialmente.
Demostración de la fórmula:
Agrupando:
Relación con correlación:
Si calculamos la correlación:
Una correlación de -0.5 indica relación negativa moderada.
Casos extremos:
- Covarianza positiva máxima: \(Cov(X,Y) = \sigma_X \sigma_Y\) (correlación = +1)
- \(Var(X+Y) = Var(X) + Var(Y) + 2\sigma_X\sigma_Y = (\sigma_X + \sigma_Y)^2\)
-
Varianza máxima (X e Y varían perfectamente juntos)
-
Covarianza negativa máxima: \(Cov(X,Y) = -\sigma_X \sigma_Y\) (correlación = -1)
- \(Var(X+Y) = Var(X) + Var(Y) - 2\sigma_X\sigma_Y = (\sigma_X - \sigma_Y)^2\)
-
Varianza mínima (X e Y se cancelan parcialmente)
-
Independencia: \(Cov(X,Y) = 0\)
- \(Var(X+Y) = Var(X) + Var(Y)\)
Extensión a más variables:
Para \(Z = X + Y + W\):
Conclusión: Var(X + Y) = 4 + 9 + 2×(-3) = 7. La covarianza negativa reduce la varianza total porque las variables varían en direcciones opuestas, compensándose parcialmente.
Solución pregunta 13 — Distribución para conteo de defectos
Enunciado: En un sistema de control de calidad, se registra si cada artículo es defectuoso (1) o no defectuoso (0), con probabilidad de defecto p = 0.03. Si se inspeccionan 200 artículos, ¿qué distribución es más apropiada para modelar el número total de defectos?
Respuesta correcta: D) Tanto Binomial como Poisson son válidas, pero Poisson es más práctica.
Desarrollo:
Modelo exacto: Distribución Binomial
El conteo de defectos en n pruebas independientes con probabilidad constante p sigue exactamente:
Parámetros: - \(E[X] = np = 200 \times 0.03 = 6\) defectos esperados - \(Var(X) = np(1-p) = 200 \times 0.03 \times 0.97 = 5.82\)
Aproximación por Poisson:
Cuando se cumplen las condiciones: - n grande (200 es grande ✓) - p pequeño (0.03 es pequeño ✓) - \(np = \lambda\) moderado (6 es moderado ✓)
La distribución binomial se aproxima muy bien por:
Con: - \(E[X] = \lambda = 6\) - \(Var(X) = \lambda = 6\) (ligeramente diferente de 5.82, pero muy cercano)
Comparación de cálculos:
Calculemos \(P(X = 5)\) con ambos modelos:
Binomial exacta: $\(P(X=5) = \binom{200}{5} (0.03)^5 (0.97)^{195}\)$
Muy complejo de calcular manualmente.
Poisson aproximada: $\(P(X=5) = \frac{e^{-6} \times 6^5}{5!} = \frac{0.00248 \times 7776}{120} \approx 0.1606\)$
Mucho más simple computacionalmente.
Aproximación por Normal:
Con n=200 y p=0.03: - \(E[X] = 6\) - \(\sigma = \sqrt{5.82} \approx 2.41\)
Podríamos aproximar por \(N(6, 5.82)\), pero: - La condición \(np \geq 5\) apenas se cumple (np = 6) - La condición \(n(1-p) \geq 5\) se cumple (194 >> 5)
La aproximación normal es aceptable, pero Poisson es mejor para valores de λ bajos o moderados.
Criterios de aproximación:
| Condición | Aproximación recomendada |
|---|---|
| n pequeño | Binomial exacta |
| n grande, p moderado, np ≥ 10 | Normal |
| n grande, p pequeño, np < 10 | Poisson |
| n muy grande, p muy pequeño | Poisson |
En nuestro caso: - n = 200 (grande) - p = 0.03 (pequeño) - np = 6 (< 10)
→ Poisson es la aproximación óptima
Análisis de opciones:
A) "Normal(6, 5.82)": Válida pero menos precisa que Poisson para λ=6
B) "Binomial(200, 0.03)": Correcta y exacta, pero difícil de calcular
C) "Poisson(6)": Excelente aproximación, práctica
D) "Tanto B como C son válidas": CORRECTA - B es exacta, C es muy buena aproximación práctica
Conclusión: Aunque la binomial es el modelo exacto, Poisson(6) es una aproximación excelente y mucho más práctica computacionalmente en este contexto.
Solución pregunta 14 — Probabilidad en distribución normal
Enunciado: Si \(X \sim N(\mu, \sigma^2)\), entonces P(X < μ) es:
Respuesta correcta: C) 0.50.
Desarrollo:
Propiedad fundamental de simetría:
La distribución normal es perfectamente simétrica alrededor de su media μ.
Por tanto:
Esto es independiente del valor de σ².
Visualización:
Demostración formal:
Por simetría de la función de densidad normal:
Integrando:
Como \(P(X < \mu) + P(X > \mu) = 1\) (ignorando \(P(X=\mu)=0\)):
Verificación con estandarización:
Estandarizando:
De la tabla normal estándar:
Por tanto:
Casos especiales:
- \(P(X = \mu) = 0\) (probabilidad puntual en distribución continua)
- \(P(X \leq \mu) = 0.5\) (igual que P(X < μ) porque P(X=μ)=0)
- \(P(X > \mu) = 0.5\)
- \(P(\mu - \sigma < X < \mu + \sigma) \approx 0.68\) (regla 68-95-99.7)
Respuesta: 0.50 (50%)
Solución pregunta 15 — Distribución exponencial del tiempo entre llegadas
Enunciado: El número de clientes que llegan a una tienda por hora sigue una distribución de Poisson con λ = 12 clientes/hora. ¿Cuál es la distribución del tiempo (en minutos) entre dos llegadas consecutivas?
Respuesta correcta: A) Exponencial con parámetro λ = 0.2 clientes/minuto.
Desarrollo:
Relación fundamental Poisson-Exponencial:
Si el número de eventos en un intervalo sigue una distribución Poisson, entonces el tiempo entre eventos consecutivos sigue una distribución Exponencial.
Teorema:
- Número de eventos en [0,t]: \(N(t) \sim Poisson(\lambda t)\)
- Tiempo entre eventos: \(T \sim Exponencial(\lambda)\)
Conversión de unidades:
Dado: λ = 12 clientes/hora
Convertimos a clientes/minuto:
Distribución del tiempo entre llegadas:
Propiedades de Exponencial(λ):
- PDF: \(f(t) = \lambda e^{-\lambda t}\) para \(t \geq 0\)
- CDF: \(F(t) = 1 - e^{-\lambda t}\)
- Esperanza: \(E[T] = \frac{1}{\lambda} = \frac{1}{0.2} = 5\) minutos
- Varianza: \(Var(T) = \frac{1}{\lambda^2} = \frac{1}{0.04} = 25\) min²
Verificación:
Si λ = 0.2 clientes/minuto, en promedio llega un cliente cada:
Equivalente: 60/5 = 12 clientes/hora ✓
Interpretación:
- En promedio, cada 5 minutos llega un cliente
- Pero el tiempo varía aleatoriamente según Exponencial(0.2)
- La distribución exponencial modela tiempos de espera sin "memoria"
Propiedad de falta de memoria:
La exponencial es la única distribución continua con esta propiedad:
"El tiempo que queda por esperar no depende del tiempo ya esperado"
Análisis de opciones:
A) "Exponencial(0.2)": CORRECTO ✓
B) "Exponencial(12)": INCORRECTO (no se convirtieron las unidades)
C) "Normal(5)": INCORRECTO (el tiempo entre eventos Poisson es exponencial, no normal)
D) "Poisson(0.2)": INCORRECTO (Poisson modela conteos, no tiempos)
Conclusión: T ~ Exponencial(λ=0.2 clientes/min), con tiempo medio entre llegadas de 5 minutos.
Solución pregunta 16 — Aproximación normal a binomial
Enunciado: En una distribución binomial \(X \sim B(n, p)\), si se desea aproximar por una distribución normal, ¿cuál es la condición más recomendada?
Respuesta correcta: C) np ≥ 5 y n(1-p) ≥ 5.
Desarrollo:
Teorema Central del Límite aplicado a binomial:
Una distribución binomial \(X \sim B(n,p)\) puede aproximarse por una distribución normal cuando n es suficientemente grande:
Condiciones para buena aproximación:
La condición estándar es:
(Algunos textos usan el criterio más estricto: ≥ 10)
Justificación:
- np ≥ 5: Asegura que el número esperado de éxitos sea suficientemente grande
- n(1-p) ≥ 5: Asegura que el número esperado de fracasos sea suficientemente grande
Ambas condiciones garantizan que la distribución no esté demasiado sesgada ni concentrada en los extremos (0 o n).
Casos problemáticos:
- p muy pequeño (p ≈ 0):
- Ejemplo: n=100, p=0.01 → np=1, n(1-p)=99
- np < 5 ✗ → Aproximación normal mala
-
Usar Poisson en su lugar
-
p muy grande (p ≈ 1):
- Ejemplo: n=100, p=0.99 → np=99, n(1-p)=1
-
n(1-p) < 5 ✗ → Aproximación normal mala
-
n pequeño:
- Ejemplo: n=10, p=0.5 → np=5, n(1-p)=5
- Cumple mínimamente, pero preferible usar binomial exacta
Ejemplo de buena aproximación:
n=100, p=0.4: - np = 40 ≥ 5 ✓ - n(1-p) = 60 ≥ 5 ✓ - \(X \approx N(40, 24)\)
Aproximación excelente.
Corrección de continuidad:
Como binomial es discreta y normal es continua, para mejorar la aproximación usamos:
donde Y ~ N(np, np(1-p))
Análisis de opciones:
A) "n > 30": INSUFICIENTE - n>30 es condición para TLC en general - Pero no garantiza buena aproximación si p es extremo - Ejemplo: n=100, p=0.01 → mala aproximación
B) "p < 0.05": INCORRECTA - Cuando p es pequeño, usar Poisson, no Normal - Esta condición es para Poisson, no Normal
C) "np ≥ 5 y n(1-p) ≥ 5": CORRECTA ✓ - Condición estándar y completa
D) "np < 10": INCORRECTA - Cuando np < 10 con p pequeño, preferir Poisson - Para Normal queremos np razonablemente grande
Regla práctica completa:
¿Cómo aproximar Binomial(n,p)?
├─ n pequeño (n<20)
│ └─ Usar Binomial exacta
│
├─ n grande, p pequeño, np<10
│ └─ Aproximar por Poisson(λ=np)
│
└─ n grande, np≥5, n(1-p)≥5
└─ Aproximar por Normal(np, np(1-p))
Conclusión: La condición correcta es np ≥ 5 y n(1-p) ≥ 5, que asegura suficientes éxitos y fracasos esperados para una distribución aproximadamente simétrica.
Solución pregunta 17 — Tamaño muestral para estimar media
Enunciado: Se desea estimar la media de una población normal con desviación estándar conocida σ = 10. Si se quiere un margen de error de 2 con un nivel de confianza del 95%, el tamaño muestral mínimo necesario es aproximadamente:
Respuesta correcta: C) 97.
Desarrollo:
Fórmula de tamaño muestral para media (σ conocida):
donde: - \(z_{\alpha/2}\) = valor crítico de Z para el nivel de confianza - σ = desviación estándar poblacional - E = margen de error deseado
Identificación de parámetros:
- Nivel de confianza: 95% → α = 0.05 → α/2 = 0.025
- \(z_{0.025}\) = 1.96 (de tabla normal estándar)
- σ = 10
- E = 2
Cálculo:
Redondeo:
Siempre redondeamos hacia arriba para garantizar el margen de error:
Justificación de la fórmula:
El margen de error en la estimación de la media es:
Despejando n:
Interpretación:
Con n=97: - El intervalo de confianza será: \(\bar{x} \pm 2\) - Ancho total del intervalo: 4 unidades - 95% de confianza de captar la media poblacional
Ejemplo numérico:
Si recopilamos 97 observaciones y obtenemos \(\bar{x} = 50\):
IC 95%: \(50 \pm 1.96 \times \frac{10}{\sqrt{97}} = 50 \pm 1.96 \times 1.0153 = 50 \pm 1.99 \approx [48.01, 51.99]\)
Margen de error ≈ 2 ✓
Factores que afectan el tamaño muestral:
- Mayor confianza (99% vs 95%): Requiere mayor n
- z_{0.005} = 2.576 vs z_{0.025} = 1.96
-
n sería mayor
-
Menor margen de error (1 vs 2): Requiere mayor n
- E=1: n = (1.96×10/1)² = 384.16 ≈ 385
-
Se cuadruplica
-
Mayor variabilidad (σ=20 vs σ=10): Requiere mayor n
- σ=20: n = (1.96×20/2)² = 384.16 ≈ 385
- Se cuadruplica
Comparación de opciones:
A) 25: Insuficiente (solo da E ≈ 3.92) B) 49: Insuficiente (solo da E ≈ 2.80) C) 97: CORRECTO (da E ≈ 2.00) ✓ D) 196: Excesivo (daría E ≈ 1.40)
Conclusión: Se necesitan 97 observaciones para estimar la media con margen de error de 2 y confianza del 95%.
Solución pregunta 18 — Interpretación correcta del intervalo de confianza
Enunciado: Si el intervalo de confianza del 99% para la media de una población es [52.3, 58.7], esto significa que:
Respuesta correcta: C) Si repetimos el muestreo muchas veces, el 99% de los intervalos construidos contendrán la media poblacional.
Desarrollo:
Interpretación frecuentista correcta:
Un intervalo de confianza del (1-α)×100% se interpreta en términos de frecuencia de largo plazo:
"Si repetimos el proceso de muestreo infinitas veces y construimos el intervalo cada vez, aproximadamente el (1-α)×100% de esos intervalos contendrán el verdadero parámetro poblacional."
Diagrama conceptual:
Muestras repetidas y sus intervalos de confianza al 99%:
μ (verdadero, fijo)
|
Muestra 1: [-------|-------] ✓ contiene μ
Muestra 2: [-------|-------] ✓ contiene μ
Muestra 3: [----------] | ✗ no contiene μ
Muestra 4: [-------|-------] ✓ contiene μ
...
Muestra 100: [------|--------] ✓ contiene μ
~99 de 100 intervalos contienen μ
Lo que NO significa:
❌ "Hay 99% de probabilidad de que μ esté en [52.3, 58.7]"
¿Por qué está mal esta interpretación?
- El parámetro μ es fijo (aunque desconocido), no aleatorio
- Una vez construido el intervalo, μ está o no está en él (probabilidad 0 o 1)
- Lo que es aleatorio es el intervalo, no μ
Interpretación bayesiana vs frecuentista:
| Enfoque | Interpretación |
|---|---|
| Frecuentista | "99% de los intervalos captan μ" (sobre repeticiones) |
| Bayesiana | "99% de probabilidad de que μ esté aquí" (creencia) |
En estadística clásica usamos interpretación frecuentista.
Análisis de opciones:
A) "99% de los datos está entre 52.3 y 58.7": FALSO - El IC es para la media poblacional, no para datos individuales - Para datos usaríamos un intervalo de predicción, mucho más ancho - Ejemplo: Si σ=5, el IC de datos sería aprox. [μ - 2.576×5, μ + 2.576×5]
B) "Probabilidad de que μ esté entre 52.3 y 58.7 es 0.99": FALSO - Interpretación bayesiana, no frecuentista - μ no es aleatorio en estadística clásica
C) "Si repetimos, 99% de intervalos contendrán μ": VERDADERO ✓ - Interpretación frecuentista correcta - Reconoce que el intervalo varía, no μ
D) "La media muestral es 55.5 con 99% certeza": FALSO - La media muestral es un valor observado fijo: \(\bar{x} = (52.3+58.7)/2 = 55.5\) - No hay "certeza" asociada a un valor ya observado
Cálculo del IC observado:
Centro del intervalo: $\(\bar{x} = \frac{52.3 + 58.7}{2} = \frac{111}{2} = 55.5\)$
Margen de error: $\(E = \frac{58.7 - 52.3}{2} = \frac{6.4}{2} = 3.2\)$
El intervalo se construyó como: \(\bar{x} \pm E = 55.5 \pm 3.2\)
Procedimiento general:
- Tomamos muestra aleatoria
- Calculamos \(\bar{x}\) y error estándar
- Construimos: \(IC = \bar{x} \pm z_{\alpha/2} \times SE\)
- Antes de observar: P(IC contiene μ) = 0.99
- Después de observar: μ está o no está (ya no es probabilístico)
Analogía:
Imagina lanzar una red para pescar:
- La red cubre 99% del lago (nivel de confianza 99%)
- El pez (μ) está en una ubicación fija
- Lanzamos la red aleatoriamente
- 99% de los lanzamientos capturarán el pez
- Una vez lanzada, o capturamos o no (ya no hay 99%)
Conclusión: La interpretación correcta es frecuentista: si repetimos el muestreo, el 99% de los intervalos construidos contendrán la media poblacional μ.
Solución pregunta 19 — Definición del nivel de significación α
Enunciado: En un contraste de hipótesis bilateral, el nivel de significación α representa:
Respuesta correcta: B) La probabilidad máxima de cometer un error de tipo I (rechazar H₀ cuando es verdadera).
Desarrollo:
Definición formal:
El nivel de significación α es la probabilidad máxima de error de tipo I que estamos dispuestos a tolerar.
Tipos de errores en contrastes de hipótesis:
| H₀ es verdadera | H₀ es falsa | |
|---|---|---|
| No rechazar H₀ | ✓ Decisión correcta | Error Tipo II (β) |
| Rechazar H₀ | Error Tipo I (α) | ✓ Decisión correcta (potencia) |
Error Tipo I (α): - Rechazar H₀ cuando es verdadera - "Falsa alarma" - Lo controlamos fijando α antes del test
Error Tipo II (β): - No rechazar H₀ cuando es falsa - "Falso negativo" - Más difícil de controlar (depende del efecto verdadero)
Valores comunes de α:
- α = 0.05 (5%): Estándar en ciencias sociales
- α = 0.01 (1%): Más estricto, para mayor certeza
- α = 0.10 (10%): Más permisivo, exploratorio
Regla de decisión:
Rechazamos H₀ si: p-valor ≤ α
El p-valor es la probabilidad de observar datos tan extremos bajo H₀. Si es menor que α, consideramos la evidencia suficientemente fuerte.
Interpretación de α = 0.05:
"Estamos dispuestos a aceptar un 5% de probabilidad de rechazar incorrectamente H₀ (concluir efecto cuando no lo hay)"
Trade-off entre α y β:
- α más pequeño: Menor riesgo de falsa alarma, pero mayor riesgo de falso negativo
- α más grande: Detectamos más efectos, pero más falsas alarmas
Distribución bajo H₀:
|
/|\
/ | \
/ | \____
/ | ----__
_/____|_______|______|___
μ₀ Región crítica
(rechazamos H₀)
Área = α
Análisis de opciones:
A) "Probabilidad de que H₀ sea falsa": FALSO - H₀ es una hipótesis fija, no una variable aleatoria - No calculamos probabilidades sobre hipótesis en estadística frecuentista
B) "Probabilidad máxima de error tipo I": VERDADERO ✓ - Definición correcta - Es lo que controlamos al fijar α
C) "Probabilidad de error tipo II": FALSO - Error tipo II es β, no α - β = P(No rechazar H₀ | H₀ falsa) - Relacionado con la potencia: Potencia = 1 - β
D) "El p-valor del contraste": FALSO - α se fija antes del test (criterio de decisión) - p-valor se calcula después (de los datos observados) - Comparamos: rechazar si p-valor < α
Relación α, β y potencia:
- α: Fijado por el investigador antes del test
- β: Depende del tamaño del efecto verdadero y del tamaño muestral
- Potencia = 1 - β: Probabilidad de detectar efecto cuando existe
Para aumentar potencia (reducir β): - Aumentar tamaño muestral n - Aumentar α (pero más falsas alarmas) - Efecto verdadero sea mayor
Ejemplo práctico:
Test sobre μ con H₀: μ = 100, H₁: μ ≠ 100, α = 0.05
- Tomamos muestra, calculamos estadístico t
- Si |t| > t_{crítico,0.025}: rechazamos H₀
- La región crítica está diseñada para que P(rechazar | H₀ cierta) = 0.05
Conclusión: α es la probabilidad máxima de cometer error tipo I (rechazar H₀ incorrectamente), fijada por el investigador antes del contraste.
Solución pregunta 20 — Definición de estimador eficiente
Enunciado: Un estimador \(\hat{\theta}\) se considera eficiente si:
Respuesta correcta: B) Entre todos los estimadores insesgados, tiene la varianza mínima.
Desarrollo:
Propiedades deseables de estimadores:
Un buen estimador debería ser:
- Insesgado: \(E[\hat{\theta}] = \theta\)
- Eficiente: Var(\(\hat{\theta}\)) mínima entre insesgados
- Consistente: \(\hat{\theta} \xrightarrow{P} \theta\) cuando \(n \to \infty\)
Definición de eficiencia:
Un estimador insesgado \(\hat{\theta}\) es eficiente si tiene la menor varianza posible entre todos los estimadores insesgados de θ.
Formalmente: Si \(\hat{\theta}_1\) y \(\hat{\theta}_2\) son ambos insesgados, y:
para todo θ, entonces \(\hat{\theta}_1\) es más eficiente que \(\hat{\theta}_2\).
Cota de Cramér-Rao:
Existe una cota inferior para la varianza de cualquier estimador insesgado:
donde \(I(\theta)\) es la información de Fisher.
Un estimador que alcanza esta cota es eficiente (o óptimo).
Ejemplo: Estimación de la media poblacional
Para estimar μ de una población con varianza σ²:
Estimador 1: Media muestral $\(\bar{X} = \frac{1}{n}\sum X_i\)$
- Insesgado: \(E[\bar{X}] = \mu\) ✓
- Varianza: \(Var(\bar{X}) = \frac{\sigma^2}{n}\)
Estimador 2: Mediana muestral
- Insesgado (para distribuciones simétricas): \(E[\text{Mediana}] = \mu\) ✓
- Varianza: \(Var(\text{Mediana}) \approx \frac{\pi \sigma^2}{2n}\) (para normal)
Comparación:
La media muestral es más eficiente: tiene 57% menos varianza que la mediana.
Eficiencia relativa:
Si e > 1, entonces \(\hat{\theta}_1\) es más eficiente.
Visualización:
Distribuciones de dos estimadores insesgados:
| /‾‾\ Eficiente
| / \ (menor varianza)
|/ \
_____|________\__________ θ
| /‾‾‾‾‾‾\ Menos eficiente
| / \ (mayor varianza)
| / \
_____|/____________\_____ θ
Ambos centrados en θ (insesgados), pero el primero más concentrado (eficiente).
Análisis de opciones:
A) "Es insesgado": FALSO - Insesgadez y eficiencia son propiedades separadas - Un estimador puede ser insesgado sin ser eficiente
B) "Varianza mínima entre insesgados": VERDADERO ✓ - Definición de eficiencia
C) "Converge al parámetro verdadero": FALSO - Eso es consistencia, no eficiencia - Convergencia: \(\hat{\theta}_n \xrightarrow{P} \theta\) cuando \(n \to \infty\)
D) "ECM = 0": FALSO - Error cuadrático medio: \(ECM = Var + Sesgo^2\) - ECM = 0 es imposible con datos aleatorios - Para insesgados: ECM = Var (queremos minimizar)
Relación ECM, sesgo y varianza:
Para estimadores insesgados (Sesgo = 0):
Por tanto, minimizar varianza es equivalente a minimizar ECM para insesgados.
Trade-off sesgo-varianza:
A veces un estimador ligeramente sesgado puede tener menor ECM que un insesgado si su varianza es mucho menor.
Ejemplo: Estimadores de máxima verosimilitud vs. UMVUE (Uniformly Minimum Variance Unbiased Estimator).
Conclusión: Un estimador eficiente es aquel que, entre todos los estimadores insesgados, tiene la menor varianza posible, proporcionando estimaciones más precisas.
Solución pregunta 21 — Decisión en contraste de hipótesis con p-valor
Enunciado: En un test t de Student para una muestra, si se obtiene p = 0.02 con un contraste bilateral y α = 0.05, la decisión correcta es:
Respuesta correcta: A) Rechazar H₀.
Desarrollo:
Regla de decisión con p-valor:
Aplicación al problema:
Datos: - p-valor = 0.02 - α = 0.05 (nivel de significación)
Comparación: $\(0.02 < 0.05\)$
Decisión: RECHAZAR H₀
Interpretación:
El p-valor de 0.02 significa:
"Si H₀ fuera verdadera, solo habría 2% de probabilidad de observar resultados tan extremos o más extremos que los observados."
Como 2% < 5% (nuestro umbral de tolerancia), consideramos que la evidencia es suficientemente fuerte contra H₀.
Significación estadística:
- p = 0.02 < α = 0.05: Estadísticamente significativo al nivel 5%
- Rechazamos la hipótesis nula
- Concluimos que hay evidencia de efecto/diferencia
Niveles de evidencia:
| p-valor | Interpretación | Decisión con α=0.05 |
|---|---|---|
| p > 0.10 | Evidencia débil o nula contra H₀ | No rechazar |
| 0.05 < p ≤ 0.10 | Evidencia marginalmente significativa | No rechazar |
| 0.01 < p ≤ 0.05 | Evidencia significativa | Rechazar ✓ |
| p ≤ 0.01 | Evidencia muy significativa | Rechazar |
En nuestro caso: 0.01 < 0.02 < 0.05 → Evidencia significativa
Análisis de opciones:
A) "Rechazar H₀": CORRECTO ✓ - p = 0.02 < α = 0.05 - Regla de decisión clara
B) "No rechazar H₀": FALSO - Solo si p > α
C) "Aceptar H₀ como verdadera": FALSO - NUNCA "aceptamos" H₀ en estadística frecuentista - Solo "no rechazamos" (no hay evidencia suficiente) - No probar efecto ≠ probar ausencia de efecto
D) "Incrementar tamaño muestral": FALSO - Ya tenemos resultado concluyente - No necesitamos más datos - Incrementar n solo si p estuviera muy cerca de α (ej. p=0.06)
Visualización:
Línea de decisión:
No rechazar H₀ | Rechazar H₀
(p > α) | (p ≤ α)
________________________|_________________________
↑ ↑
α=0.05 p=0.02
(estadísticamente
significativo)
Consideraciones adicionales:
- Significación estadística vs práctica:
- p < 0.05 → significativo estadísticamente
- Pero puede ser efecto pequeño sin relevancia práctica
-
Considerar tamaño del efecto (d de Cohen, etc.)
-
Test bilateral:
- El p-valor considera ambas colas
-
Si test fuera unilateral, p-valor sería la mitad
-
Poder estadístico:
- Con p = 0.02, tenemos buena evidencia
- Si hubiéramos obtenido p = 0.30, no rechazaríamos
- Pero eso no significa que H₀ sea cierta (podría ser falta de poder)
Redacción correcta del resultado:
✓ "Se rechaza H₀ al nivel de significación del 5% (p = 0.02)" ✓ "Los datos proporcionan evidencia significativa contra H₀ (p = 0.02 < 0.05)" ✗ "Se acepta H₁" (no es terminología apropiada) ✗ "H₀ es falsa con certeza" (nunca tenemos certeza absoluta)
Conclusión: Con p = 0.02 < α = 0.05, rechazamos H₀. Los datos proporcionan evidencia estadísticamente significativa contra la hipótesis nula.
Solución pregunta 22 — Test de Shapiro-Wilk
Enunciado: El test de Shapiro-Wilk se utiliza principalmente para:
Respuesta correcta: B) Contrastar si una muestra proviene de una distribución normal.
Desarrollo:
Test de Shapiro-Wilk:
Es un test de normalidad que contrasta las hipótesis:
- H₀: Los datos provienen de una distribución normal
- H₁: Los datos NO provienen de una distribución normal
Estadístico de prueba:
donde: - \(x_{(i)}\) son los datos ordenados - \(a_i\) son constantes tabuladas - El denominador es proporcional a la varianza muestral
W varía entre 0 y 1: - W cercano a 1: Datos consistentes con normalidad - W pequeño: Desviación de la normalidad
Interpretación:
- p-valor grande (p > 0.05): No rechazamos H₀ → Datos consistentes con normalidad
- p-valor pequeño (p ≤ 0.05): Rechazamos H₀ → Evidencia de no normalidad
Ventajas del test de Shapiro-Wilk:
- Alta potencia: Detecta desviaciones de normalidad mejor que otros tests
- Sensible a: Asimetría, colas pesadas/ligeras, multimodalidad
- Preferido sobre Kolmogorov-Smirnov para muestras pequeñas/medianas
Limitaciones:
- Sensible al tamaño muestral:
- Con n muy grande (>5000), puede rechazar normalidad por desviaciones triviales
-
Con n pequeño (<10), tiene poco poder
-
Solo para normalidad:
- No prueba otras distribuciones (use Kolmogorov-Smirnov para eso)
Comparación con otros tests de normalidad:
| Test | Uso principal | Potencia | Limitación |
|---|---|---|---|
| Shapiro-Wilk | Normalidad (n < 2000) | Alta | Solo normalidad |
| Kolmogorov-Smirnov | Cualquier distribución | Moderada | Menos potente que SW |
| Anderson-Darling | Normalidad (más sensible en colas) | Alta | Más complejo |
| Jarque-Bera | Normalidad (basado en asimetría y curtosis) | Moderada | Mejor para n grande |
Cuándo usar Shapiro-Wilk:
- Antes de aplicar tests paramétricos (t-test, ANOVA) que asumen normalidad
- Para validar supuestos de regresión lineal (residuos normales)
- Con muestras pequeñas/medianas (3 < n < 2000)
Ejemplo de uso:
Queremos hacer test t para comparar dos grupos. Primero verificamos normalidad:
shapiro.test(datos_grupo1)
# W = 0.965, p-value = 0.234
# No rechazamos H₀: Datos consistentes con normalidad ✓
Análisis de opciones:
A) "Comparar medias de dos grupos": FALSO - Eso es test t o ANOVA - Shapiro-Wilk solo prueba normalidad
B) "Contrastar si muestra es normal": VERDADERO ✓ - Uso principal y único
C) "Evaluar correlación entre dos variables": FALSO - Eso es correlación de Pearson/Spearman - Shapiro-Wilk es univariado
D) "Calcular intervalos de confianza": FALSO - Shapiro-Wilk es test de hipótesis, no estimación - No produce intervalos
Alternativas si no hay normalidad:
Si Shapiro-Wilk rechaza H₀ (no normalidad):
- Transformar datos: log, √, Box-Cox
- Usar tests no paramétricos: Mann-Whitney, Wilcoxon, Kruskal-Wallis
- Usar métodos robustos: Bootstrap, permutaciones
- Si n grande: TLC permite usar tests paramétricos aun sin normalidad exacta
Gráficos complementarios:
Además del test, usar visualización: - Q-Q plot: Compara cuantiles observados vs. teóricos - Histograma: Forma aproximadamente acampanada - Boxplot: Detectar asimetría y outliers
Conclusión: Shapiro-Wilk es el test de normalidad más potente para muestras pequeñas/medianas, usado para verificar supuestos de normalidad antes de aplicar métodos paramétricos.
Solución pregunta 23 — Grados de libertad en chi-cuadrado de independencia
Enunciado: En una prueba chi-cuadrado de independencia con una tabla de contingencia 4×3, los grados de libertad son:
Respuesta correcta: B) 6.
Desarrollo:
Prueba chi-cuadrado de independencia:
Contrasta si dos variables categóricas son independientes en una tabla de contingencia r×c:
- H₀: Las variables son independientes
- H₁: Las variables están asociadas
Estadístico de prueba:
donde: - \(O_{ij}\) = frecuencia observada en celda (i,j) - \(E_{ij}\) = frecuencia esperada bajo independencia
Grados de libertad:
donde: - r = número de filas - c = número de columnas
Aplicación al problema:
Tabla 4×3: - r = 4 filas - c = 3 columnas
Justificación de la fórmula:
Los grados de libertad representan el número de celdas "libres" una vez fijados los totales marginales.
En una tabla r×c:
- Total de celdas: r × c
- Restricciones por totales de filas: r - 1
- Restricciones por totales de columnas: c - 1
- Celdas libres: \(r \times c - (r-1) - (c-1) - 1 = (r-1)(c-1)\)
(El -1 final es porque el gran total también está fijo)
Ejemplo con tabla 4×3:
Col1 Col2 Col3 | Total fila
────────────────────────────────────
Fil1 ? ? • | n₁
Fil2 ? ? • | n₂
Fil3 ? ? • | n₃
Fil4 • • • | n₄
────────────────────────────────────
Total m₁ m₂ m₃ | N
- Celdas con ?: Libres (6 celdas)
- Celdas con •: Determinadas por los totales
- Una vez fijadas las 6 celdas marcadas con ?, las demás se calculan automáticamente
Cálculo de frecuencias esperadas:
Bajo independencia:
Análisis de opciones:
A) 11: FALSO - Sería r×c - 1 = 12 - 1 = 11 (fórmula incorrecta)
B) 6: CORRECTO ✓ - (4-1)×(3-1) = 3×2 = 6
C) 7: FALSO - No corresponde a ninguna fórmula estándar
D) 12: FALSO - Sería r×c = 12 (ignora las restricciones)
Comparación con chi-cuadrado de bondad de ajuste:
- Bondad de ajuste: df = k - 1 - m
- k = número de categorías
-
m = parámetros estimados
-
Independencia: df = (r-1)(c-1)
- r = filas, c = columnas
Ejemplos adicionales:
| Tabla | df = (r-1)×(c-1) | Resultado |
|---|---|---|
| 2×2 | (2-1)×(2-1) | 1 |
| 3×2 | (3-1)×(2-1) | 2 |
| 3×3 | (3-1)×(3-1) | 4 |
| 4×3 | (4-1)×(3-1) | 6 ✓ |
| 5×4 | (5-1)×(4-1) | 12 |
Condiciones de aplicabilidad:
Para que el test chi-cuadrado sea válido:
- Todas las frecuencias esperadas \(E_{ij} \geq 5\) (preferiblemente)
- Si alguna \(E_{ij} < 5\): considerar test exacto de Fisher (para 2×2) o agrupar categorías
Interpretación del resultado:
Una vez calculado χ² y df:
- Comparar χ² con valor crítico de tabla χ²(df, α)
- O calcular p-valor: P(χ²(df) > χ²observado)
- Si p < α: Rechazar H₀ → Variables asociadas
Conclusión: Para una tabla de contingencia 4×3, los grados de libertad son (4-1)×(3-1) = 6, representando las 6 celdas libres una vez fijados los totales marginales.
Solución pregunta 24 — Interpretación de p-valor muy pequeño
Enunciado: Un investigador obtiene un p-valor de 0.001 en un contraste bilateral con α = 0.05. ¿Cuál es la interpretación más adecuada?
Respuesta correcta: A) Los datos proporcionan evidencia muy fuerte contra H₀; se rechaza H₀.
Desarrollo:
Análisis del p-valor:
p = 0.001 = 0.1%
Esto significa:
"Si la hipótesis nula H₀ fuera verdadera, solo habría 0.1% de probabilidad (1 en 1000) de observar resultados tan extremos o más extremos que los obtenidos."
Niveles de evidencia:
| p-valor | Evidencia contra H₀ | Interpretación |
|---|---|---|
| p > 0.10 | Débil o ninguna | No significativo |
| 0.05 < p ≤ 0.10 | Marginal | Marginalmente significativo |
| 0.01 < p ≤ 0.05 | Moderada | Significativo (*) |
| 0.001 < p ≤ 0.01 | Fuerte | Muy significativo (**) |
| p ≤ 0.001 | Muy fuerte | Altamente significativo ()* |
En nuestro caso: p = 0.001 → Evidencia muy fuerte (tres asteriscos ***)
Comparación con nivel de significación:
La evidencia es mucho más fuerte que el umbral requerido:
- α = 0.05 → Toleramos hasta 5% de falsa alarma
- p = 0.001 → Solo 0.1% de probabilidad bajo H₀
- La evidencia supera ampliamente el criterio
Decisión:
Interpretación correcta:
"Los datos observados son extremadamente improbables bajo H₀. Hay evidencia muy fuerte para rechazar la hipótesis nula y concluir que existe un efecto/diferencia estadísticamente significativo."
Análisis de opciones:
A) "Evidencia muy fuerte contra H₀; se rechaza": VERDADERO ✓ - p = 0.001 es evidencia muy fuerte - Decisión: rechazar H₀ - Interpretación apropiada y completa
B) "No se rechaza porque p-valor es muy pequeño": FALSO - ¡Al contrario! p pequeño → rechazamos H₀ - Confusión en la regla de decisión
C) "Se acepta H₀ como verdadera": FALSO - NUNCA "aceptamos" H₀ - En este caso, además, la rechazamos
D) "No es estadísticamente significativo": FALSO - p = 0.001 < 0.05 → SÍ es significativo - De hecho, es altamente significativo
Representación gráfica:
Distribución bajo H₀:
| Región crítica
/|\ (5% total)
/ | \ ___
/ | \____ ____/ \
/ | ----____---- \
_/____|_____________|_____________\___
μ₀ ↑ ↑
α=0.05 Nuestra
(umbral) observación
p=0.001
(extremísima)
Significación práctica vs estadística:
Cuidado: p muy pequeño indica significación estadística muy fuerte, pero:
- No necesariamente implica relevancia práctica
- Con muestras muy grandes, diferencias triviales pueden ser significativas
- Considerar también el tamaño del efecto (d de Cohen, r², etc.)
Ejemplo:
- Diferencia de medias: 0.1 unidades
- Con n = 10,000: p = 0.001 (significativo estadísticamente)
- Pero 0.1 puede ser irrelevante en la práctica
Redacción correcta:
✓ "Se rechaza H₀ con p < 0.001, indicando evidencia muy fuerte" ✓ "Resultado altamente significativo (p = 0.001 < 0.05)" ✓ "p < 0.001 (***)" (notación con asteriscos) ✗ "H₀ es falsa con certeza" (nunca certeza absoluta)
Recomendaciones:
- Reportar el p-valor exacto (no solo "p < 0.05")
- Incluir tamaño del efecto y intervalos de confianza
- Interpretar en contexto: ¿Es el efecto relevante en la práctica?
- Considerar replicabilidad: Un solo estudio no es definitivo
Comparación de escenarios:
| p-valor | α | Decisión | Fuerza evidencia |
|---|---|---|---|
| 0.30 | 0.05 | No rechazar | Ninguna |
| 0.08 | 0.05 | No rechazar | Marginal |
| 0.03 | 0.05 | Rechazar | Moderada |
| 0.005 | 0.05 | Rechazar | Fuerte |
| 0.001 | 0.05 | Rechazar | Muy fuerte ✓ |
| 0.0001 | 0.05 | Rechazar | Extrema |
Conclusión: Con p = 0.001 ≪ α = 0.05, los datos proporcionan evidencia muy fuerte contra H₀, permitiendo rechazarla con alta confianza. El resultado es altamente significativo estadísticamente.