Temario

Introducción

Entender qué es la estadística, su rama descriptiva e inferencial, y cómo se organiza el temario del curso.

Resumen rápido (Términos y métodos)

Termino/Metodo	Formula	Descripcion corta	Ejemplo
Media (aritmética)	\(\displaystyle\mu=\frac{1}{n}\sum_{i=1}^n x_i\)	Valor medio de un conjunto de datos	Media de las notas de una clase
Mediana	\(\substack{\text{valor central} \\ \text{del conjunto ordenado}}\)	Valor que separa la mitad superior e inferior	Mediana de salarios en una muestra
Varianza \(\sigma^2\) / \(s^2\)	\(\displaystyle\sigma^2=\frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2\)	Medida de dispersión cuadrática	Varianza de tiempos de respuesta
Desviación típica (\(\sigma\) / \(s\))	\(\displaystyle\sigma=\sqrt{\sigma^2}\)	Raíz cuadrada de la varianza	Desviación típica de calificaciones
Probabilidad (evento A)	\(\displaystyle P(A)=\frac{\text{casos favorables}}{\text{casos totales}}\)	Probabilidad de que ocurra A	Prob. de sacar cara al lanzar una moneda
Distribución binomial	\(\displaystyle P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}\)	Modela éxitos en \(n\) ensayos independientes	# de éxitos en \(n\) lanzamientos
Distribución normal	\(\displaystyle f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)	Distribución continua simétrica	Alturas humanas aproximadas
Estimación puntual	\(\displaystyle\hat{\theta}\) (estimador puntual)	Valor único como estimación de un parámetro	Media muestral como estimador de \(\mu\)
Intervalo de confianza (aprox.)	\(\displaystyle \hat{\theta}\pm z\cdot \mathrm{se}(\hat{\theta})\)	Rango plausible para el parámetro	IC 95% para la media
Prueba de hipótesis (t)	\(\displaystyle t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}\)	Estadístico para comparar media vs \(H_0\)	Test \(t\) para una muestra
Regresión lineal simple	\(\displaystyle y=\beta_0+\beta_1 x+\varepsilon\)	Modela relación lineal entre \(x\) e \(y\)	Ajuste de notas vs horas de estudio
Observación / Registro (UD1)	N/A	Una fila o instancia individual del conjunto de datos.	Una persona, o la fila (Ana, 19, 8)
Variable / Atributo (UD1)	N/A	Una columna o característica del conjunto de datos.	Edad, Color de ojos, Nota final
Dataset (UD1)	\(X\in\mathbb{R}^{n\times p}\)	Tabla de datos con \(n\) observaciones y \(p\) variables	Tabla con 3 estudiantes y 3 variables
Dato Cualitativo (UD1)	N/A	Describe cualidades; no operaciones aritméticas directas.	Color de ojos (azul, marrón)
Dato Cuantitativo (UD1)	N/A	Valores numéricos donde sumar/restar tiene sentido.	Altura, Peso
Escala Nominal (UD1)	N/A	Categorías sin orden inherente.	Género (masculino/femenino/otro)
Escala Ordinal (UD1)	N/A	Categorías con orden, sin distancia definida.	Satisfacción 1–5
Escala de Intervalo (UD1)	N/A	Diferencias significativas, sin cero absoluto.	Temperatura ºC
Escala de Razón (Ratio) (UD1)	N/A	Posee cero absoluto; permiten proporciones.	Peso, Distancia
Media Aritmética (\(\bar{x}\))	\(\displaystyle\bar{x}=\frac{1}{N}\sum_{i=1}^N x_i\)	Valor promedio de los datos.	{2,4,7,9} -> \(\bar{x}=5.5\)
Mediana (\(\mathrm{Me}\))	N/A	Valor central de datos ordenados.	{2,4,7,9} -> \(\mathrm{Me}=5.5\)
Moda (UD1)	N/A	Valor que aparece con mayor frecuencia.	Útil para datos nominales
Varianza (\(s^2\) o \(\sigma^2\))	\(\displaystyle\sigma^2=\frac{1}{N}\sum (x_i-\bar{x})^2\)	Medida de dispersión respecto a la media.	{2,4,7,9} -> \(\sigma^2=7.25\)
Desviación Típica (\(s\) o \(\sigma\))	\(\displaystyle\sigma=\sqrt{\sigma^2}\)	Raíz cuadrada de la varianza.	{2,4,7,9} -> \(\sigma\approx2.6926\)
Coeficiente de Variación (\(g\)) (UD1)	\(\displaystyle g=\frac{s}{\bar{x}}\times100\%\)	Dispersión relativa (desviación típica / media).	Comparar datasets con medias distintas
Exploración de Datos (EDA) (UD1)	N/A	Visualización y búsqueda de patrones.	Histogramas, boxplots, scatter plots
Limpieza de Datos (UD1)	N/A	Manejo de faltantes, duplicados, inconsistencias.	Imputar con media/mediana
Muestra Representativa (UD1)	N/A	Muestra que refleja la población objetivo.	Evitar sesgo de muestreo
Media Geométrica (\(G\)) (UD1)	\(\displaystyle G=\sqrt[N]{\prod_{i=1}^N x_i}\)	Promedio útil para tasas/ratios.	Crecimientos porcentuales
Media Armónica (\(H\)) (UD1)	\(\displaystyle H=\frac{N}{\sum_{i=1}^N (1/x_i)}\)	Promedio para velocidades/ratios.	Velocidades medias
Covarianza (\(S_{xy}\)) (UD2)	\(\displaystyle S_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y})\)	Medida de variación conjunta entre X e Y.	\(S_{xy}>0\) indica relación directa
Coeficiente de Correlación de Pearson (\(r\))	\(\displaystyle r=\frac{S_{xy}}{S_x S_y}\)	Medida estandarizada de la relación lineal.	\(r\in[-1,1]\); correlación no implica causalidad
Regresión Lineal Simple	\(\displaystyle\hat{y}=\alpha+\beta x\)	Modelo lineal para predecir Y desde X.	Ej.: \(\hat{y}=43.580+2.265x\)
Método de Mínimos Cuadrados (UD2)	N/A	Minimiza la suma de errores al cuadrado.	Usado para estimar \(\alpha,\beta\)
Pendiente (\(\beta\) o \(b\)) (UD2)	\(\displaystyle b=\frac{S_{xy}}{S_x^2}\)	Cambio esperado en Y por unidad de X.	\(b=2.265\) por hora extra de estudio
Ordenada en el Origen (\(\alpha\) o \(a\)) (UD2)	N/A	Valor predicho de Y cuando X=0.	\(a=43.580\) (ejemplo)
Coeficiente de Determinación (\(R^2\)) (UD2)	\(\displaystyle R^2=r^2\)	Proporción de varianza explicada por el modelo.	\(R^2=0.9239\)
Supuestos del Modelo Lineal (UD2)	N/A	Linealidad, independencia, homocedasticidad.	Verificación con análisis de residuos
Espacio Muestral (\(\Omega\)) (UD3)	N/A	Conjunto de todos los resultados posibles.	Dado: \(\{1,2,3,4,5,6\}\)
Probabilidad (\(P(A)\)) (UD3)	\(\displaystyle P(A)\) (N/A si no se formula)	Medida del grado de incertidumbre.	\(P(\text{Lluvia})=0.7\)
Variable Aleatoria (\(X\)) (UD3)	N/A	Asigna un valor numérico a cada resultado.	Spam: \(X=1\), no spam: \(X=0\)
V.A. Discreta (UD3)	N/A	Variable que toma valores contables/finito.	Número de imágenes clasificadas bien
V.A. Continua (UD3)	N/A	Variable que puede tomar cualquier valor real.	Valor de activación de una neurona
Función de Distribución (CDF, \(F_X(x)\)) (UD3)	\(\displaystyle F_X(x)=P(X\le x)\)	Probabilidad acumulada de que \(X\le x\).	\(F_X(5)=0.8\)
Función de Masa de Probabilidad (PMF, \(p_X(x)\)) (UD3)	N/A	Para V.A. discreta: \(P(X=x)\).	Dado justo: \(p_X(1)=1/6\)
Función de Densidad (PDF, \(f_X(x)\)) (UD3)	N/A	Para V.A. continua: densidad de probabilidad.	Área bajo la curva = 1
Esperanza Matemática (\(E[X]\)) (UD3)	\(\displaystyle E[X]\) (discreta/continua según caso)	Valor promedio en muchas repeticiones.	Dado justo: \(E[X]=3.5\)
Varianza (\(\mathrm{Var}(X)\)) (UD3)	\(\displaystyle \mathrm{Var}(X)=E[X^2]-(E[X])^2\)	Medida de dispersión de la V.A.	Dado: \(\mathrm{Var}(X)\approx2.92\)
Desviación Típica (\(\sigma_X\)) (UD3)	\(\displaystyle \sigma_X=\sqrt{\mathrm{Var}(X)}\)	Raíz cuadrada de la varianza.	Dado: \(\sigma_X=\sqrt{2.92}\)
Hipótesis Nula (\(H_0\)) (UD6)	N/A	Afirmación inicial que asumimos cierta (no hay efecto).	\(H_0: \mu = 0.85\)
Hipótesis Alternativa (\(H_1\)) (UD6)	N/A	Lo que queremos demostrar (hay efecto).	\(H_1: \mu \ne 0.85\)
Error Tipo I (α) (UD6)	\(\displaystyle \alpha = P(\text{Rechazar } H_0 \mid H_0 \text{ cierta})\)	Falso positivo: rechazar \(H_0\) siendo cierta.	Típico: α = 0.05 (5%)
Error Tipo II (β) (UD6)	\(\displaystyle \beta = P(\text{No rechazar } H_0 \mid H_0 \text{ falsa})\)	Falso negativo: no detectar un efecto real.	Típico: β = 0.20 (20%)
Potencia del Contraste (UD6)	\(\displaystyle \text{Potencia} = 1 - \beta\)	Probabilidad de detectar un efecto cuando existe.	Potencia = 0.80 es buena
Nivel de Significación (α) (UD6)	N/A	Máxima probabilidad de Error Tipo I tolerada.	Típico: α = 0.05 o 0.01
P-valor (UD6)	\(\displaystyle p = P(\text{datos tan extremos} \mid H_0)\)	Probabilidad de observar datos así si \(H_0\) es cierta.	p < 0.05 → rechazar \(H_0\)
Estadístico Z (UD6)	\(\displaystyle Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\)	Test para media cuando σ es conocida.	Distribución N(0,1)
Estadístico t de Student (UD6)	\(\displaystyle t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}\)	Test para media cuando σ es desconocida.	Distribución t con n-1 g.l.
Estadístico F (UD6)	\(\displaystyle F = \frac{s_1^2}{s_2^2}\)	Test para comparar dos varianzas.	Distribución F con (n₁-1, n₂-1) g.l.
Estadístico χ² (UD6)	\(\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}\)	Test para una varianza.	Distribución χ² con n-1 g.l.
Variable (R) (UD7)	`variable <- valor`	Contenedor para almacenar datos en R.	`edad <- 25`
Vector (R) (UD7)	`c(x1, x2, ...)`	Colección de datos del mismo tipo en R.	`notas <- c(8.5, 7.2, 9.1)`
Data Frame (R) (UD7)	`data.frame(col1, col2, ...)`	Tabla con filas y columnas (heterogénea).	Tabla de estudiantes y notas
Media en R (UD7)	`mean(x)`	Función para calcular la media.	`mean(c(1,2,3))` → 2
Desv. Estándar en R (UD7)	`sd(x)`	Función para calcular la desviación estándar.	`sd(notas)` → 0.84
Varianza en R (UD7)	`var(x)`	Función para calcular la varianza.	`var(notas)` → 0.71
Summary en R (UD7)	`summary(x)`	Resumen estadístico completo.	`summary(datos)` → mín, Q1, mediana, media...