Skip to content

Temario


Introducción

💡 Entender qué es la estadística, su rama descriptiva e inferencial, y cómo se organiza el temario del curso.

Resumen rápido (Términos y métodos)

Termino/Metodo Formula Descripcion corta Ejemplo
Media (aritmética) \(\displaystyle\mu=\frac{1}{n}\sum_{i=1}^n x_i\) Valor medio de un conjunto de datos Media de las notas de una clase
Mediana \(\substack{\text{valor central} \\ \text{del conjunto ordenado}}\) Valor que separa la mitad superior e inferior Mediana de salarios en una muestra
Varianza \(\sigma^2\) / \(s^2\) \(\displaystyle\sigma^2=\frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2\) Medida de dispersión cuadrática Varianza de tiempos de respuesta
Desviación típica (\(\sigma\) / \(s\)) \(\displaystyle\sigma=\sqrt{\sigma^2}\) Raíz cuadrada de la varianza Desviación típica de calificaciones
Probabilidad (evento A) \(\displaystyle P(A)=\frac{\text{casos favorables}}{\text{casos totales}}\) Probabilidad de que ocurra A Prob. de sacar cara al lanzar una moneda
Distribución binomial \(\displaystyle P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}\) Modela éxitos en \(n\) ensayos independientes # de éxitos en \(n\) lanzamientos
Distribución normal \(\displaystyle f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) Distribución continua simétrica Alturas humanas aproximadas
Estimación puntual \(\displaystyle\hat{\theta}\) (estimador puntual) Valor único como estimación de un parámetro Media muestral como estimador de \(\mu\)
Intervalo de confianza (aprox.) \(\displaystyle \hat{\theta}\pm z\cdot \mathrm{se}(\hat{\theta})\) Rango plausible para el parámetro IC 95% para la media
Prueba de hipótesis (t) \(\displaystyle t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}\) Estadístico para comparar media vs \(H_0\) Test \(t\) para una muestra
Regresión lineal simple \(\displaystyle y=\beta_0+\beta_1 x+\varepsilon\) Modela relación lineal entre \(x\) e \(y\) Ajuste de notas vs horas de estudio
Observación / Registro (UD1) N/A Una fila o instancia individual del conjunto de datos. Una persona, o la fila (Ana, 19, 8)
Variable / Atributo (UD1) N/A Una columna o característica del conjunto de datos. Edad, Color de ojos, Nota final
Dataset (UD1) \(X\in\mathbb{R}^{n\times p}\) Tabla de datos con \(n\) observaciones y \(p\) variables Tabla con 3 estudiantes y 3 variables
Dato Cualitativo (UD1) N/A Describe cualidades; no operaciones aritméticas directas. Color de ojos (azul, marrón)
Dato Cuantitativo (UD1) N/A Valores numéricos donde sumar/restar tiene sentido. Altura, Peso
Escala Nominal (UD1) N/A Categorías sin orden inherente. Género (masculino/femenino/otro)
Escala Ordinal (UD1) N/A Categorías con orden, sin distancia definida. Satisfacción 1–5
Escala de Intervalo (UD1) N/A Diferencias significativas, sin cero absoluto. Temperatura ºC
Escala de Razón (Ratio) (UD1) N/A Posee cero absoluto; permiten proporciones. Peso, Distancia
Media Aritmética (\(\bar{x}\)) \(\displaystyle\bar{x}=\frac{1}{N}\sum_{i=1}^N x_i\) Valor promedio de los datos. {2,4,7,9} -> \(\bar{x}=5.5\)
Mediana (\(\mathrm{Me}\)) N/A Valor central de datos ordenados. {2,4,7,9} -> \(\mathrm{Me}=5.5\)
Moda (UD1) N/A Valor que aparece con mayor frecuencia. Útil para datos nominales
Varianza (\(s^2\) o \(\sigma^2\)) \(\displaystyle\sigma^2=\frac{1}{N}\sum (x_i-\bar{x})^2\) Medida de dispersión respecto a la media. {2,4,7,9} -> \(\sigma^2=7.25\)
Desviación Típica (\(s\) o \(\sigma\)) \(\displaystyle\sigma=\sqrt{\sigma^2}\) Raíz cuadrada de la varianza. {2,4,7,9} -> \(\sigma\approx2.6926\)
Coeficiente de Variación (\(g\)) (UD1) \(\displaystyle g=\frac{s}{\bar{x}}\times100\%\) Dispersión relativa (desviación típica / media). Comparar datasets con medias distintas
Exploración de Datos (EDA) (UD1) N/A Visualización y búsqueda de patrones. Histogramas, boxplots, scatter plots
Limpieza de Datos (UD1) N/A Manejo de faltantes, duplicados, inconsistencias. Imputar con media/mediana
Muestra Representativa (UD1) N/A Muestra que refleja la población objetivo. Evitar sesgo de muestreo
Media Geométrica (\(G\)) (UD1) \(\displaystyle G=\sqrt[N]{\prod_{i=1}^N x_i}\) Promedio útil para tasas/ratios. Crecimientos porcentuales
Media Armónica (\(H\)) (UD1) \(\displaystyle H=\frac{N}{\sum_{i=1}^N (1/x_i)}\) Promedio para velocidades/ratios. Velocidades medias
Covarianza (\(S_{xy}\)) (UD2) \(\displaystyle S_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y})\) Medida de variación conjunta entre X e Y. \(S_{xy}>0\) indica relación directa
Coeficiente de Correlación de Pearson (\(r\)) \(\displaystyle r=\frac{S_{xy}}{S_x S_y}\) Medida estandarizada de la relación lineal. \(r\in[-1,1]\); correlación no implica causalidad
Regresión Lineal Simple \(\displaystyle\hat{y}=\alpha+\beta x\) Modelo lineal para predecir Y desde X. Ej.: \(\hat{y}=43.580+2.265x\)
Método de Mínimos Cuadrados (UD2) N/A Minimiza la suma de errores al cuadrado. Usado para estimar \(\alpha,\beta\)
Pendiente (\(\beta\) o \(b\)) (UD2) \(\displaystyle b=\frac{S_{xy}}{S_x^2}\) Cambio esperado en Y por unidad de X. \(b=2.265\) por hora extra de estudio
Ordenada en el Origen (\(\alpha\) o \(a\)) (UD2) N/A Valor predicho de Y cuando X=0. \(a=43.580\) (ejemplo)
Coeficiente de Determinación (\(R^2\)) (UD2) \(\displaystyle R^2=r^2\) Proporción de varianza explicada por el modelo. \(R^2=0.9239\)
Supuestos del Modelo Lineal (UD2) N/A Linealidad, independencia, homocedasticidad. Verificación con análisis de residuos
Espacio Muestral (\(\Omega\)) (UD3) N/A Conjunto de todos los resultados posibles. Dado: \(\{1,2,3,4,5,6\}\)
Probabilidad (\(P(A)\)) (UD3) \(\displaystyle P(A)\) (N/A si no se formula) Medida del grado de incertidumbre. \(P(\text{Lluvia})=0.7\)
Variable Aleatoria (\(X\)) (UD3) N/A Asigna un valor numérico a cada resultado. Spam: \(X=1\), no spam: \(X=0\)
V.A. Discreta (UD3) N/A Variable que toma valores contables/finito. Número de imágenes clasificadas bien
V.A. Continua (UD3) N/A Variable que puede tomar cualquier valor real. Valor de activación de una neurona
Función de Distribución (CDF, \(F_X(x)\)) (UD3) \(\displaystyle F_X(x)=P(X\le x)\) Probabilidad acumulada de que \(X\le x\). \(F_X(5)=0.8\)
Función de Masa de Probabilidad (PMF, \(p_X(x)\)) (UD3) N/A Para V.A. discreta: \(P(X=x)\). Dado justo: \(p_X(1)=1/6\)
Función de Densidad (PDF, \(f_X(x)\)) (UD3) N/A Para V.A. continua: densidad de probabilidad. Área bajo la curva = 1
Esperanza Matemática (\(E[X]\)) (UD3) \(\displaystyle E[X]\) (discreta/continua según caso) Valor promedio en muchas repeticiones. Dado justo: \(E[X]=3.5\)
Varianza (\(\mathrm{Var}(X)\)) (UD3) \(\displaystyle \mathrm{Var}(X)=E[X^2]-(E[X])^2\) Medida de dispersión de la V.A. Dado: \(\mathrm{Var}(X)\approx2.92\)
Desviación Típica (\(\sigma_X\)) (UD3) \(\displaystyle \sigma_X=\sqrt{\mathrm{Var}(X)}\) Raíz cuadrada de la varianza. Dado: \(\sigma_X=\sqrt{2.92}\)
Hipótesis Nula (\(H_0\)) (UD6) N/A Afirmación inicial que asumimos cierta (no hay efecto). \(H_0: \mu = 0.85\)
Hipótesis Alternativa (\(H_1\)) (UD6) N/A Lo que queremos demostrar (hay efecto). \(H_1: \mu \ne 0.85\)
Error Tipo I (α) (UD6) \(\displaystyle \alpha = P(\text{Rechazar } H_0 \mid H_0 \text{ cierta})\) Falso positivo: rechazar \(H_0\) siendo cierta. Típico: α = 0.05 (5%)
Error Tipo II (β) (UD6) \(\displaystyle \beta = P(\text{No rechazar } H_0 \mid H_0 \text{ falsa})\) Falso negativo: no detectar un efecto real. Típico: β = 0.20 (20%)
Potencia del Contraste (UD6) \(\displaystyle \text{Potencia} = 1 - \beta\) Probabilidad de detectar un efecto cuando existe. Potencia = 0.80 es buena
Nivel de Significación (α) (UD6) N/A Máxima probabilidad de Error Tipo I tolerada. Típico: α = 0.05 o 0.01
P-valor (UD6) \(\displaystyle p = P(\text{datos tan extremos} \mid H_0)\) Probabilidad de observar datos así si \(H_0\) es cierta. p < 0.05 → rechazar \(H_0\)
Estadístico Z (UD6) \(\displaystyle Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\) Test para media cuando σ es conocida. Distribución N(0,1)
Estadístico t de Student (UD6) \(\displaystyle t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}\) Test para media cuando σ es desconocida. Distribución t con n-1 g.l.
Estadístico F (UD6) \(\displaystyle F = \frac{s_1^2}{s_2^2}\) Test para comparar dos varianzas. Distribución F con (n₁-1, n₂-1) g.l.
Estadístico χ² (UD6) \(\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}\) Test para una varianza. Distribución χ² con n-1 g.l.
Variable (R) (UD7) variable <- valor Contenedor para almacenar datos en R. edad <- 25
Vector (R) (UD7) c(x1, x2, ...) Colección de datos del mismo tipo en R. notas <- c(8.5, 7.2, 9.1)
Data Frame (R) (UD7) data.frame(col1, col2, ...) Tabla con filas y columnas (heterogénea). Tabla de estudiantes y notas
Media en R (UD7) mean(x) Función para calcular la media. mean(c(1,2,3)) → 2
Desv. Estándar en R (UD7) sd(x) Función para calcular la desviación estándar. sd(notas) → 0.84
Varianza en R (UD7) var(x) Función para calcular la varianza. var(notas) → 0.71
Summary en R (UD7) summary(x) Resumen estadístico completo. summary(datos) → mín, Q1, mediana, media...