Temario
Introducción
Entender qué es la estadística, su rama descriptiva e inferencial, y cómo se organiza el temario del curso.
Resumen rápido (Términos y métodos)
| Termino/Metodo | Formula | Descripcion corta | Ejemplo |
|---|---|---|---|
| Media (aritmética) | \(\displaystyle\mu=\frac{1}{n}\sum_{i=1}^n x_i\) | Valor medio de un conjunto de datos | Media de las notas de una clase |
| Mediana | \(\substack{\text{valor central} \\ \text{del conjunto ordenado}}\) | Valor que separa la mitad superior e inferior | Mediana de salarios en una muestra |
| Varianza \(\sigma^2\) / \(s^2\) | \(\displaystyle\sigma^2=\frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2\) | Medida de dispersión cuadrática | Varianza de tiempos de respuesta |
| Desviación típica (\(\sigma\) / \(s\)) | \(\displaystyle\sigma=\sqrt{\sigma^2}\) | Raíz cuadrada de la varianza | Desviación típica de calificaciones |
| Probabilidad (evento A) | \(\displaystyle P(A)=\frac{\text{casos favorables}}{\text{casos totales}}\) | Probabilidad de que ocurra A | Prob. de sacar cara al lanzar una moneda |
| Distribución binomial | \(\displaystyle P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}\) | Modela éxitos en \(n\) ensayos independientes | # de éxitos en \(n\) lanzamientos |
| Distribución normal | \(\displaystyle f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) | Distribución continua simétrica | Alturas humanas aproximadas |
| Estimación puntual | \(\displaystyle\hat{\theta}\) (estimador puntual) | Valor único como estimación de un parámetro | Media muestral como estimador de \(\mu\) |
| Intervalo de confianza (aprox.) | \(\displaystyle \hat{\theta}\pm z\cdot \mathrm{se}(\hat{\theta})\) | Rango plausible para el parámetro | IC 95% para la media |
| Prueba de hipótesis (t) | \(\displaystyle t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}\) | Estadístico para comparar media vs \(H_0\) | Test \(t\) para una muestra |
| Regresión lineal simple | \(\displaystyle y=\beta_0+\beta_1 x+\varepsilon\) | Modela relación lineal entre \(x\) e \(y\) | Ajuste de notas vs horas de estudio |
| Observación / Registro (UD1) | N/A | Una fila o instancia individual del conjunto de datos. | Una persona, o la fila (Ana, 19, 8) |
| Variable / Atributo (UD1) | N/A | Una columna o característica del conjunto de datos. | Edad, Color de ojos, Nota final |
| Dataset (UD1) | \(X\in\mathbb{R}^{n\times p}\) | Tabla de datos con \(n\) observaciones y \(p\) variables | Tabla con 3 estudiantes y 3 variables |
| Dato Cualitativo (UD1) | N/A | Describe cualidades; no operaciones aritméticas directas. | Color de ojos (azul, marrón) |
| Dato Cuantitativo (UD1) | N/A | Valores numéricos donde sumar/restar tiene sentido. | Altura, Peso |
| Escala Nominal (UD1) | N/A | Categorías sin orden inherente. | Género (masculino/femenino/otro) |
| Escala Ordinal (UD1) | N/A | Categorías con orden, sin distancia definida. | Satisfacción 1–5 |
| Escala de Intervalo (UD1) | N/A | Diferencias significativas, sin cero absoluto. | Temperatura ºC |
| Escala de Razón (Ratio) (UD1) | N/A | Posee cero absoluto; permiten proporciones. | Peso, Distancia |
| Media Aritmética (\(\bar{x}\)) | \(\displaystyle\bar{x}=\frac{1}{N}\sum_{i=1}^N x_i\) | Valor promedio de los datos. | {2,4,7,9} -> \(\bar{x}=5.5\) |
| Mediana (\(\mathrm{Me}\)) | N/A | Valor central de datos ordenados. | {2,4,7,9} -> \(\mathrm{Me}=5.5\) |
| Moda (UD1) | N/A | Valor que aparece con mayor frecuencia. | Útil para datos nominales |
| Varianza (\(s^2\) o \(\sigma^2\)) | \(\displaystyle\sigma^2=\frac{1}{N}\sum (x_i-\bar{x})^2\) | Medida de dispersión respecto a la media. | {2,4,7,9} -> \(\sigma^2=7.25\) |
| Desviación Típica (\(s\) o \(\sigma\)) | \(\displaystyle\sigma=\sqrt{\sigma^2}\) | Raíz cuadrada de la varianza. | {2,4,7,9} -> \(\sigma\approx2.6926\) |
| Coeficiente de Variación (\(g\)) (UD1) | \(\displaystyle g=\frac{s}{\bar{x}}\times100\%\) | Dispersión relativa (desviación típica / media). | Comparar datasets con medias distintas |
| Exploración de Datos (EDA) (UD1) | N/A | Visualización y búsqueda de patrones. | Histogramas, boxplots, scatter plots |
| Limpieza de Datos (UD1) | N/A | Manejo de faltantes, duplicados, inconsistencias. | Imputar con media/mediana |
| Muestra Representativa (UD1) | N/A | Muestra que refleja la población objetivo. | Evitar sesgo de muestreo |
| Media Geométrica (\(G\)) (UD1) | \(\displaystyle G=\sqrt[N]{\prod_{i=1}^N x_i}\) | Promedio útil para tasas/ratios. | Crecimientos porcentuales |
| Media Armónica (\(H\)) (UD1) | \(\displaystyle H=\frac{N}{\sum_{i=1}^N (1/x_i)}\) | Promedio para velocidades/ratios. | Velocidades medias |
| Covarianza (\(S_{xy}\)) (UD2) | \(\displaystyle S_{xy}=\frac{1}{n-1}\sum (x_i-\bar{x})(y_i-\bar{y})\) | Medida de variación conjunta entre X e Y. | \(S_{xy}>0\) indica relación directa |
| Coeficiente de Correlación de Pearson (\(r\)) | \(\displaystyle r=\frac{S_{xy}}{S_x S_y}\) | Medida estandarizada de la relación lineal. | \(r\in[-1,1]\); correlación no implica causalidad |
| Regresión Lineal Simple | \(\displaystyle\hat{y}=\alpha+\beta x\) | Modelo lineal para predecir Y desde X. | Ej.: \(\hat{y}=43.580+2.265x\) |
| Método de Mínimos Cuadrados (UD2) | N/A | Minimiza la suma de errores al cuadrado. | Usado para estimar \(\alpha,\beta\) |
| Pendiente (\(\beta\) o \(b\)) (UD2) | \(\displaystyle b=\frac{S_{xy}}{S_x^2}\) | Cambio esperado en Y por unidad de X. | \(b=2.265\) por hora extra de estudio |
| Ordenada en el Origen (\(\alpha\) o \(a\)) (UD2) | N/A | Valor predicho de Y cuando X=0. | \(a=43.580\) (ejemplo) |
| Coeficiente de Determinación (\(R^2\)) (UD2) | \(\displaystyle R^2=r^2\) | Proporción de varianza explicada por el modelo. | \(R^2=0.9239\) |
| Supuestos del Modelo Lineal (UD2) | N/A | Linealidad, independencia, homocedasticidad. | Verificación con análisis de residuos |
| Espacio Muestral (\(\Omega\)) (UD3) | N/A | Conjunto de todos los resultados posibles. | Dado: \(\{1,2,3,4,5,6\}\) |
| Probabilidad (\(P(A)\)) (UD3) | \(\displaystyle P(A)\) (N/A si no se formula) | Medida del grado de incertidumbre. | \(P(\text{Lluvia})=0.7\) |
| Variable Aleatoria (\(X\)) (UD3) | N/A | Asigna un valor numérico a cada resultado. | Spam: \(X=1\), no spam: \(X=0\) |
| V.A. Discreta (UD3) | N/A | Variable que toma valores contables/finito. | Número de imágenes clasificadas bien |
| V.A. Continua (UD3) | N/A | Variable que puede tomar cualquier valor real. | Valor de activación de una neurona |
| Función de Distribución (CDF, \(F_X(x)\)) (UD3) | \(\displaystyle F_X(x)=P(X\le x)\) | Probabilidad acumulada de que \(X\le x\). | \(F_X(5)=0.8\) |
| Función de Masa de Probabilidad (PMF, \(p_X(x)\)) (UD3) | N/A | Para V.A. discreta: \(P(X=x)\). | Dado justo: \(p_X(1)=1/6\) |
| Función de Densidad (PDF, \(f_X(x)\)) (UD3) | N/A | Para V.A. continua: densidad de probabilidad. | Área bajo la curva = 1 |
| Esperanza Matemática (\(E[X]\)) (UD3) | \(\displaystyle E[X]\) (discreta/continua según caso) | Valor promedio en muchas repeticiones. | Dado justo: \(E[X]=3.5\) |
| Varianza (\(\mathrm{Var}(X)\)) (UD3) | \(\displaystyle \mathrm{Var}(X)=E[X^2]-(E[X])^2\) | Medida de dispersión de la V.A. | Dado: \(\mathrm{Var}(X)\approx2.92\) |
| Desviación Típica (\(\sigma_X\)) (UD3) | \(\displaystyle \sigma_X=\sqrt{\mathrm{Var}(X)}\) | Raíz cuadrada de la varianza. | Dado: \(\sigma_X=\sqrt{2.92}\) |
| Hipótesis Nula (\(H_0\)) (UD6) | N/A | Afirmación inicial que asumimos cierta (no hay efecto). | \(H_0: \mu = 0.85\) |
| Hipótesis Alternativa (\(H_1\)) (UD6) | N/A | Lo que queremos demostrar (hay efecto). | \(H_1: \mu \ne 0.85\) |
| Error Tipo I (α) (UD6) | \(\displaystyle \alpha = P(\text{Rechazar } H_0 \mid H_0 \text{ cierta})\) | Falso positivo: rechazar \(H_0\) siendo cierta. | Típico: α = 0.05 (5%) |
| Error Tipo II (β) (UD6) | \(\displaystyle \beta = P(\text{No rechazar } H_0 \mid H_0 \text{ falsa})\) | Falso negativo: no detectar un efecto real. | Típico: β = 0.20 (20%) |
| Potencia del Contraste (UD6) | \(\displaystyle \text{Potencia} = 1 - \beta\) | Probabilidad de detectar un efecto cuando existe. | Potencia = 0.80 es buena |
| Nivel de Significación (α) (UD6) | N/A | Máxima probabilidad de Error Tipo I tolerada. | Típico: α = 0.05 o 0.01 |
| P-valor (UD6) | \(\displaystyle p = P(\text{datos tan extremos} \mid H_0)\) | Probabilidad de observar datos así si \(H_0\) es cierta. | p < 0.05 → rechazar \(H_0\) |
| Estadístico Z (UD6) | \(\displaystyle Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\) | Test para media cuando σ es conocida. | Distribución N(0,1) |
| Estadístico t de Student (UD6) | \(\displaystyle t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}\) | Test para media cuando σ es desconocida. | Distribución t con n-1 g.l. |
| Estadístico F (UD6) | \(\displaystyle F = \frac{s_1^2}{s_2^2}\) | Test para comparar dos varianzas. | Distribución F con (n₁-1, n₂-1) g.l. |
| Estadístico χ² (UD6) | \(\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma_0^2}\) | Test para una varianza. | Distribución χ² con n-1 g.l. |
| Variable (R) (UD7) | variable <- valor |
Contenedor para almacenar datos en R. | edad <- 25 |
| Vector (R) (UD7) | c(x1, x2, ...) |
Colección de datos del mismo tipo en R. | notas <- c(8.5, 7.2, 9.1) |
| Data Frame (R) (UD7) | data.frame(col1, col2, ...) |
Tabla con filas y columnas (heterogénea). | Tabla de estudiantes y notas |
| Media en R (UD7) | mean(x) |
Función para calcular la media. | mean(c(1,2,3)) → 2 |
| Desv. Estándar en R (UD7) | sd(x) |
Función para calcular la desviación estándar. | sd(notas) → 0.84 |
| Varianza en R (UD7) | var(x) |
Función para calcular la varianza. | var(notas) → 0.71 |
| Summary en R (UD7) | summary(x) |
Resumen estadístico completo. | summary(datos) → mín, Q1, mediana, media... |