Duración estimada: 120-130 minutos.
Instrucciones
- Responde marcando la opción correcta (a, b, c, d). Puede haber más de una respuesta correcta: marca todas las que correspondan.
- En las preguntas de cálculo se pide elegir la(s) opción(es) correcta(s); debajo de cada pregunta se incluye la solución desarrollada para estudiar.
PARTE A: PREGUNTAS TEÓRICAS
Pregunta 1
Pregunta 1
En un estudio sobre el efecto de la experiencia laboral en el salario mensual, ¿cuál de las siguientes es la variable independiente?
Pregunta 2
Pregunta 2
¿Cuál es la diferencia principal entre una distribución discreta y una distribución continua?
Pregunta 3
Pregunta 3
¿Qué sucede con la forma de una distribución normal si aumentas la desviación típica σ manteniendo la media constante?
Pregunta 4
Pregunta 4
En un contraste de hipótesis bilateral con α = 0.05, ¿cómo se distribuye el nivel de significación en las colas?
Pregunta 7
Pregunta 7
¿Cuál de las siguientes afirmaciones sobre el coeficiente de determinación R² es correcta?
Pregunta 8
Pregunta 8
¿Bajo qué circunstancia es apropiado usar un gráfico de barras en lugar de un histograma?
Pregunta 9
Pregunta 9
En una distribución binomial Binomial(n, p), ¿qué sucede con la varianza cuando p se acerca a 0.5?
Pregunta 10
Pregunta 10
¿Cuál es la principal limitación de usar la regresión lineal simple para hacer predicciones?
Pregunta 11
Pregunta 11
Un intervalo de confianza al 90% para una media es [45, 55]. ¿Cuál de las siguientes interpretaciones es correcta?
Pregunta 12
Pregunta 12
¿Cuál es la relación entre el tamaño muestral n y el error estándar de la media?
Pregunta 13
Pregunta 13
En una prueba t de Student para una media con muestra pequeña (n < 30) y σ desconocida, ¿qué supuesto es CRÍTICO para que el procedimiento sea válido?
PARTE B: PROBLEMAS DE CÁLCULO
Pregunta 14
Pregunta 14
Se ha recogido información sobre el tiempo (en minutos) que tardan 200 empleados en completar una tarea rutinaria, agrupados como se muestra. ¿Cuál es la media del tiempo?
| Intervalo | [10, 15) | [15, 20) | [20, 25) | [25, 30) | [30, 35) | [35, 40) |
|---|---|---|---|---|---|---|
| Frecuencia | 15 | 35 | 65 | 50 | 25 | 10 |
Pregunta 15
Pregunta 15
Con los mismos datos de tiempos de la pregunta anterior, ¿cuál es la mediana (en minutos)?
Pregunta 16
Pregunta 16
Con los mismos datos agrupados de tiempos, ¿cuál es aproximadamente la varianza (en minutos²)?
Pregunta 17
Pregunta 17
El peso de los sacos de cemento sigue una distribución normal con media μ = 50 kg y desviación típica σ = 2 kg. ¿Cuál es la probabilidad de que un saco pese más de 53 kg?
Pregunta 18
Pregunta 18
Con la misma distribución normal de pesos (μ = 50, σ = 2), ¿cuál es la probabilidad de que pese entre 48 y 52 kg?
Pregunta 19
Pregunta 19
Una empresa envía 100 transmisiones, cada una con probabilidad p = 0.05 de fallar. Si X es el número de fallos, ¿cuál es el número esperado de fallos E[X]?
Pregunta 20
Pregunta 20
Una agencia inmobiliaria registra precio (k€) vs. tamaño (m²) de 8 pisos: (60, 120), (75, 150), (80, 160), (90, 190), (100, 210), (110, 240), (120, 270), (130, 310). ¿Cuál es aproximadamente el coeficiente de correlación r de Pearson?
Pregunta 21
Pregunta 21
¿Qué operador se usa principalmente para asignar valores a variables en R?
Pregunta 22
Pregunta 22
Si ejecutas notas <- c(8, 6, 9, 7, 10) seguido de mean(notas), ¿qué resultado obtienes?
Pregunta 23
Pregunta 23
En R, ¿qué función proporciona un resumen estadístico completo (mínimo, cuartiles, media, máximo)?
Los resultados del cuestionario se guardan en el almacenamiento local de tu navegador y persistirán entre sesiones.
Progreso del cuestionario
0 / 0 preguntas respondidas (0%)
0 correctas
Soluciones desarrolladas
Solución pregunta 1 — Variable Independiente en Regresión
Concepto clave: En un análisis de regresión, la variable independiente (o explicativa) es aquella que se usa para explicar o predecir otra variable.
Análisis:
- Experiencia laboral → Influye sobre el salario (variable independiente) ✓
- Salario mensual → Es lo que queremos explicar (variable dependiente)
- Edad y nivel educativo → Podrían ser covariables, pero el problema pregunta sobre la relación principal
Respuesta: Años de experiencia laboral
Solución pregunta 2 — Diferencia entre Distribuciones Discreta y Continua
Distribución Discreta:
- Toma valores aislados y contables
- Ejemplo: Número de clientes (0, 1, 2, 3, ...)
- Función de probabilidad: P(X = k)
Distribución Continua:
- Toma cualquier valor dentro de un rango
- Ejemplo: Altura (170.5, 170.543, 170.5432, ...)
- Función de densidad: f(x), P(a < X < b)
Respuesta: La distribución discreta toma valores contables, la continua toma cualquier valor en un intervalo
Solución pregunta 3 — Efecto de σ en Distribución Normal
Fórmula: X ~ N(μ, σ²)
Interpretación de σ:
- σ pequeña → Datos concentrados alrededor de μ → Campana estrecha
- σ grande → Datos dispersos → Campana ancha
Visualización:
Respuesta: La campana se vuelve más ancha (más dispersa)
Solución pregunta 4 — Distribución de α en Contraste Bilateral
Contraste bilateral: H₁: μ ≠ μ₀
Distribución:
- Total α = 0.05
- Se divide en dos colas simétricamente
- Cada cola: α/2 = 0.025
Regla de decisión:
- Rechazar H₀ si t < -t₀.₀₂₅ o t > t₀.₀₂₅
Respuesta: 0.025 en la cola derecha, 0.025 en la cola izquierda
Solución pregunta 5 — Parámetro vs Estadístico
Parámetro: Característica de la POBLACIÓN
- Notación: μ (media), σ (desviación típica), ρ (correlación)
- Es fijo pero desconocido
- Se estima con muestras
Estadístico: Característica de la MUESTRA
- Notación: x̄ (media muestral), s (desviación muestral), r (correlación muestral)
- Varía según la muestra
- Se usa para estimar parámetros
Ejemplo: La altura media POBLACIONAL es μ (parámetro). La altura media de 100 estudiantes es x̄ (estadístico).
Respuesta: Un parámetro describe la población, un estadístico describe la muestra
Solución pregunta 6 — Ordenada en Regresión ŷ = β₀ + β₁x
Componentes:
- β₀ = Ordenada en el origen (intercept)
- β₁ = Pendiente (slope)
Interpretación de β₀:
Es el valor predicho cuando x = 0.
Ejemplo: Si ŷ = 10 + 2x:
- Cuando x = 0: ŷ = 10 (ordenada)
- Cuando x = 5: ŷ = 20 (predicción)
Respuesta: El valor predicho de y cuando x = 0 (ordenada en el origen)
Solución pregunta 7 — Coeficiente de Determinación R²
Definición: $\(R^2 = \frac{\text{Varianza explicada por modelo}}{\text{Varianza total}}\)$
Propiedades:
- Rango: 0 ≤ R² ≤ 1
- Interpretación: Porcentaje de variabilidad explicada
- R² = 0.75 → 75% explicado, 25% por otros factores
Ejemplos:
- R² = 0.95 → Excelente ajuste
- R² = 0.50 → Ajuste moderado
- R² = 0.10 → Ajuste muy pobre
Respuesta: R² representa la proporción de varianza explicada (0 ≤ R² ≤ 1)
Solución pregunta 8 — Gráfico de Barras vs Histograma
Histograma:
- Para datos CONTINUOS agrupados en intervalos
- Barras adyacentes sin espacios
- Ejemplo: Distribución de alturas en intervalos [160-170), [170-180), etc.
Gráfico de Barras:
- Para datos CATEGÓRICOS o DISCRETOS
- Barras separadas
- Ejemplo: Preferencia por marca (A, B, C), género (H, M, NB)
Respuesta: Cuando los datos son categóricos (nominales u ordinales)
Solución pregunta 9 — Varianza en Binomial(n, p)
Fórmula: $\(\text{Var}(X) = n \cdot p \cdot (1-p)\)$
Análisis como función de p: $\(\text{Var}(X) = np(1-p)\)$
Esta es una función cuadrática: f(p) = p(1-p) - En p = 0: f(0) = 0 - En p = 0.5: f(0.5) = 0.25 (máximo) - En p = 1: f(1) = 0
Interpretación: Máxima variabilidad cuando p = 0.5 (máxima incertidumbre).
Respuesta: La varianza aumenta (es máxima cuando p = 0.5)
Solución pregunta 10 — Limitación de Regresión Lineal
Problema de extrapolación:
Dentro del rango observado [a, b]:
- La recta se ajusta bien a los datos
- Las predicciones son confiables
Fuera del rango [a, b] (extrapolación):
- La recta continúa indefinidamente
- Pueden violarse restricciones naturales (ej. predicción negativa para precios)
- El patrón real puede no ser lineal
Ejemplo:
- Datos de altura vs. edad: 5-20 años
- Predicción para 100 años → absurda
Respuesta: Las predicciones fuera del rango observado pueden ser no realistas
Solución pregunta 11 — Interpretación Frecuentista de IC
Interpretación CORRECTA (frecuentist):
"Si repetiéramos el muestreo 100 veces, ~90 intervalos contendrían la media poblacional."
Interpretación INCORRECTA (bayesiana): "Hay 90% de probabilidad de que la media esté en [45, 55]"
- Incorrecta: El parámetro es fijo, no variable aleatoria
- Es el intervalo el que varía, no la media
Visualización:
Muestra 1: [45, 55] contiene μ ✓
Muestra 2: [44, 54] contiene μ ✓
...
Muestra 10: [46, 56] NO contiene μ ✗
(Aproximadamente 9 de 10 contienen μ)
Respuesta: Si repitiéramos muestreo, ~90% de intervalos contendrían μ
Solución pregunta 12 — Relación n y Error Estándar
Fórmula: $\(SE = \frac{\sigma}{\sqrt{n}}\)$
Ejemplo numérico:
- Si σ = 10 y n = 100: SE = 10/10 = 1
- Si σ = 10 y n = 400: SE = 10/20 = 0.5 (reducción)
- Si σ = 10 y n = 900: SE = 10/30 ≈ 0.33 (más reducción)
Regla: Para reducir a la mitad el error, necesitas 4 veces más observaciones (n × 4).
Interpretación: Muestras grandes → estimaciones precisas.
Respuesta: El error estándar disminuye (proporcional a 1/√n)
Solución pregunta 13 — Supuesto Crítico en Prueba t
Prueba t de Student: Diseñada para muestras pequeñas (n < 30) con σ desconocida
Supuestos principales:
- CRÍTICO: Normalidad aproximada → Los datos deben provenir ~N
- Independencia de observaciones
- σ desconocida (pero estimada con s)
Robustez:
- La prueba t es robusta a desviaciones moderadas de normalidad
- Con muestras más grandes, es más tolerante
- Muy sensible a valores atípicos extremos
Respuesta: Los datos deben provenir aproximadamente de una distribución normal
Solución pregunta 14 — Media de Datos Agrupados
Datos:
| Intervalo | [10, 15) | [15, 20) | [20, 25) | [25, 30) | [30, 35) | [35, 40) |
|---|---|---|---|---|---|---|
| Frecuencia | 15 | 35 | 65 | 50 | 25 | 10 |
Tabla auxiliar (usando puntos medios):
| Intervalo | \(x_i\) | \(f_i\) | \(f_i \cdot x_i\) |
|---|---|---|---|
| [10, 15) | 12.5 | 15 | 187.5 |
| [15, 20) | 17.5 | 35 | 612.5 |
| [20, 25) | 22.5 | 65 | 1,462.5 |
| [25, 30) | 27.5 | 50 | 1,375.0 |
| [30, 35) | 32.5 | 25 | 812.5 |
| [35, 40) | 37.5 | 10 | 375.0 |
| Total | 200 | 4,825.0 |
Cálculo:
Respuesta: 24.125 minutos
Solución pregunta 15 — Mediana de Datos Agrupados
Posición: N/2 = 200/2 = 100
Localización: La frecuencia acumulada:
- Hasta [15, 20): 15 + 35 = 50 (insuficiente)
- Hasta [20, 25): 50 + 65 = 115 (contiene posición 100) ✓
Clase mediana: [20, 25)
Fórmula de interpolación:
Donde: - L = 20 (límite inferior) - N/2 = 100 - F_a = 50 (frecuencia acumulada anterior) - f_m = 65 (frecuencia de la clase) - h = 5 (amplitud)
Cálculo:
Respuesta: 23.85 minutos
Solución pregunta 16 — Varianza de Datos Agrupados
Fórmula: $\(\sigma^2 = \frac{\sum f_i x_i^2}{N} - \bar{x}^2\)$
Tabla auxiliar (extensión anterior):
| Intervalo | xi | fi | xi² | fi·xi² |
|---|---|---|---|---|
| [10, 15) | 12.5 | 15 | 156.25 | 2,343.75 |
| [15, 20) | 17.5 | 35 | 306.25 | 10,718.75 |
| [20, 25) | 22.5 | 65 | 506.25 | 32,906.25 |
| [25, 30) | 27.5 | 50 | 756.25 | 37,812.50 |
| [30, 35) | 32.5 | 25 | 1,056.25 | 26,406.25 |
| [35, 40) | 37.5 | 10 | 1,406.25 | 14,062.50 |
| Total | 200 | 124,250.0 |
Cálculo:
Desviación típica: \(\sigma = \sqrt{39.234} \approx 6.26\) minutos
Respuesta: 39.234 minutos²
Solución pregunta 17 — Probabilidad P(X > 53) en Normal
Distribución: X ~ N(μ=50, σ=2)
Estandarización:
Cálculo de probabilidad:
Tabla de normal estándar: Φ(1.5) ≈ 0.9332
Resultado:
Respuesta: 0.0668
Solución pregunta 18 — Probabilidad P(48 < X < 52) en Normal
Distribución: X ~ N(μ=50, σ=2)
Estandarización de límites:
Cálculo:
Uso de simetría:
Tabla: Φ(1) ≈ 0.8413
Resultado:
Interpretación: Esta es la regla empírica: ~68% de datos dentro de ±σ.
Respuesta: 0.6826
Solución pregunta 19 — Esperanza de Binomial(100, 0.05)
Parámetros: n = 100 transmisiones, p = 0.05 (probabilidad de fallo)
Variable: X = Número de fallos
Distribución: X ~ Binomial(n=100, p=0.05)
Esperanza de Binomial:
Varianza (información extra):
Interpretación: En promedio, esperamos 5 fallos de cada 100 transmisiones.
Respuesta: 5
Solución pregunta 20 — Correlación de Pearson en Regresión Inmuebles
Datos (8 pisos):
| x (m²) | 60 | 75 | 80 | 90 | 100 | 110 | 120 | 130 | | y (k€) | 120 | 150 | 160 | 190 | 210 | 240 | 270 | 310 |
Sumas necesarias: - Σx = 765 - Σy = 1,650 - Σxy = 168,450 - Σx² = 77,125 - Σy² = 369,300 - n = 8
Fórmula de Pearson:
Numerador:
Denominador (x):
Denominador (y):
Producto:
Raíz:
Resultado:
Interpretación: Correlación positiva muy fuerte (cercana a 1). El modelo lineal explica casi toda la variación.
Respuesta: 0.9942
Solución pregunta 21 — Operador de Asignación en R
Operadores en R:
Asignación estándar: <-
Alternativa: =
¿Por qué <- es preferido?
- Convención histórica: Es el estándar en R desde sus orígenes
- Claridad: Indica dirección (← recibe el valor)
- Distinción: Separa asignación de argumentos en funciones
Ejemplo de diferencia:
# Con <- (claro)
media <- mean(x = c(1, 2, 3)) # x es argumento
# Con = (puede confundir)
media = mean(x = c(1, 2, 3)) # ¿asignación o argumento?
Operadores NO válidos para asignación:
| Operador | Uso real | Ejemplo |
|---|---|---|
== |
Comparación | x == 5 (¿x es igual a 5?) |
:= |
No existe en R base | - |
-> |
Asignación derecha | 5 -> x (poco usado) |
Atajo de teclado en RStudio:
Alt + -(Windows/Linux)Option + -(Mac)- Genera automáticamente
<-
Ejemplo completo:
# Asignación de diferentes tipos
edad <- 25 # Número
nombre <- "María" # Cadena
aprobado <- TRUE # Lógico
notas <- c(7, 8, 9) # Vector
datos <- data.frame(x = 1:3) # Data frame
Respuesta: <- (aunque = también funciona)
Solución pregunta 22 — Cálculo de Media con mean()
Datos:
Paso 1: Sumar todos los valores
Paso 2: Contar elementos
Paso 3: Calcular media
Código en R:
# Crear vector
notas <- c(8, 6, 9, 7, 10)
# Calcular media
mean(notas)
# [1] 8
# Verificación manual
sum(notas) / length(notas)
# [1] 8
Otras funciones estadísticas útiles:
# Medidas de tendencia central
median(notas) # [1] 8 (mediana)
# Medidas de dispersión
sd(notas) # [1] 1.581139 (desviación típica)
var(notas) # [1] 2.5 (varianza)
# Valores extremos
min(notas) # [1] 6
max(notas) # [1] 10
range(notas) # [1] 6 10
# Resumen completo
summary(notas)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 6.0 7.0 8.0 8.0 9.0 10.0
Respuesta: 8
Solución pregunta 23 — Función summary() en R
Función: summary()
Propósito: Proporcionar resumen estadístico de 6 números
Salida típica:
Resultado:
Interpretación de cada valor:
| Estadístico | Fórmula | Valor | Significado |
|---|---|---|---|
| Min. | mínimo | 2 | Valor más pequeño |
| 1st Qu. | Q₁ (percentil 25) | 5.5 | 25% datos ≤ 5.5 |
| Median | Q₂ (percentil 50) | 8 | Valor central |
| Mean | \(\bar{x}\) | 7.9 | Promedio aritmético |
| 3rd Qu. | Q₃ (percentil 75) | 9.25 | 75% datos ≤ 9.25 |
| Max. | máximo | 15 | Valor más grande |
Uso con data frames:
# Crear data frame
estudiantes <- data.frame(
edad = c(20, 21, 19, 22, 20),
nota = c(8, 7, 9, 6, 8)
)
# Summary de todo el data frame
summary(estudiantes)
Resultado:
edad nota
Min. :19.0 Min. :6.00
1st Qu.:20.0 1st Qu.:7.00
Median :20.0 Median :8.00
Mean :20.4 Mean :7.60
3rd Qu.:21.0 3rd Qu.:8.00
Max. :22.0 Max. :9.00
Ventajas de summary(): - ✓ Rápida visión general - ✓ Detecta valores atípicos (min/max muy alejados) - ✓ Evalúa simetría (media ≈ mediana → simétrica) - ✓ Funciona con múltiples columnas
Comparación con otras funciones:
| Función | Devuelve |
|---|---|
mean() |
Solo la media |
sd() |
Solo desviación típica |
summary() |
6 estadísticos |
str() |
Estructura del objeto |
Respuesta: summary()