Skip to content

🎲 Fundamentos de la Probabilidad

¿Qué es la Probabilidad?

La probabilidad es una medida cuantitativa del grado de incertidumbre sobre la ocurrencia de un evento o suceso. Proporciona un lenguaje riguroso para describir la aleatoriedad que permea sistemas reales, desde clasificadores en IA hasta fenómenos naturales.

Definición Formal

Para un suceso \(A\) dentro de un espacio muestral \(\Omega\):

\[P(A) \in [0, 1]\]

Donde:

  • \(P(A) = 0\) significa que \(A\) es imposible
  • \(P(A) = 1\) significa que \(A\) es seguro
  • \(0 < P(A) < 1\) significa que \(A\) es aleatorio

📐 Axiomas de Kolmogórov

La probabilidad se fundamenta en tres axiomas que garantizan consistencia matemática:

Axioma 1: No Negatividad

\[P(A) \geq 0 \text{ para todo suceso } A\]

La probabilidad nunca es negativa. Esto tiene sentido intuitivo: no podemos tener menos que cero chances de que algo ocurra.

Axioma 2: Certeza Total

\[P(\Omega) = 1\]

El espacio muestral \(\Omega\) (todos los resultados posibles) tiene probabilidad total. Si lanzamos un dado, siempre caerá en alguno de los 6 valores.

Axioma 3: Aditividad

Para sucesos disjuntos (mutuamente excluyentes) \(A_1, A_2, A_3, \ldots\):

\[P(A_1 \cup A_2 \cup A_3 \cup \ldots) = P(A_1) + P(A_2) + P(A_3) + \ldots\]

Si los eventos no pueden ocurrir simultáneamente, sus probabilidades se suman.


📊 Espacio Muestral y Sucesos

Espacio Muestral (\(\Omega\))

El conjunto de todos los resultados posibles de un experimento aleatorio.

Ejemplos:

  • Lanzar una moneda: \(\Omega = \{\text{Cara}, \text{Cruz}\}\)
  • Lanzar un dado: \(\Omega = \{1, 2, 3, 4, 5, 6\}\)
  • Tiempo de respuesta de un servidor: \(\Omega = [0, \infty)\) (continuo)
  • Clasificación de imagen (gato/perro/pájaro): \(\Omega = \{\text{Gato}, \text{Perro}, \text{Pájaro}\}\)

Suceso (\(A\))

Un subconjunto del espacio muestral. Representa un resultado o grupo de resultados de interés.

Ejemplos:

  • Obtener un número par al lanzar un dado: \(A = \{2, 4, 6\}\)
  • Que un clasificador cometa un error: \(A = \{\text{Predicción} \neq \text{Etiqueta}\}\)

Sucesos Especiales

Tipo Notación Significado Ejemplo
Suceso seguro \(\Omega\) Ocurre siempre \(P(\Omega) = 1\)
Suceso imposible \(\emptyset\) Nunca ocurre \(P(\emptyset) = 0\)
Suceso contrario \(\overline{A}\) o \(A^c\) Lo opuesto a \(A\) Si \(A\) = par, entonces \(\overline{A}\) = impar
Sucesos disjuntos \(A \cap B = \emptyset\) No pueden ocurrir juntos Cara Y cruz (moneda)

🧠 Dos Interpretaciones de la Probabilidad

1️⃣ Interpretación Frecuentista

"La probabilidad es la frecuencia relativa a largo plazo"

Si repetimos un experimento un número infinito de veces:

\[P(A) = \lim_{n \to \infty} \frac{\text{Número de veces que ocurre } A}{n}\]

Características:

  • Basada en datos observados
  • Requiere repetición del experimento
  • Objetiva (depende solo del sistema)

Ejemplo práctico: Si lanzamos una moneda 10,000 veces y obtenemos 5,023 caras: $\(P(\text{Cara}) \approx \frac{5,023}{10,000} = 0.5023 \approx 0.5\)$

En IA/ML:

  • Usada en validación cruzada
  • Evaluación de modelos (tasa de acierto)
  • Tests A/B

2️⃣ Interpretación Bayesiana

"La probabilidad es un grado de creencia que se actualiza con evidencia"

\[P(A | \text{Evidencia}) = \frac{P(\text{Evidencia} | A) \cdot P(A)}{P(\text{Evidencia})}\]

Características:

  • Basada en creencia subjeti
  • Se actualiza con nuevos datos
  • Flexible (permite incorporar conocimiento previo)

Ejemplo práctico:

  • Creencia inicial: "Hay 30% de probabilidad de que llueva mañana" (\(P(\text{Lluvia})\))
  • Nueva evidencia: "El cielo está muy nublado"
  • Creencia actualizada: "Ahora creo que hay 75% de probabilidad de que llueva" (\(P(\text{Lluvia | Nublado})\))

En IA/ML:

  • Filtros de spam (correo)
  • Diagnóstico médico basado en síntomas
  • Sistemas recomendadores

🔗 Operaciones con Sucesos

Unión (\(A \cup B\))

Ocurre \(A\) O \(B\) O ambos

\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

Intersección (\(A \cap B\))

Ocurren \(A\) Y $B** simultáneamente

Para sucesos independientes: $\(P(A \cap B) = P(A) \cdot P(B)\)$

Complemento (\(\overline{A}\) o \(A^c\))

No ocurre \(A\)

\[P(\overline{A}) = 1 - P(A)\]

Ejemplo: Si \(P(\text{Acierto}) = 0.85\), entonces \(P(\text{Fallo}) = 1 - 0.85 = 0.15\)


🎯 Probabilidad Condicional

La probabilidad de que ocurra \(A\) dado que ya sabemos que ocurrió \(B\):

\[P(A | B) = \frac{P(A \cap B)}{P(B)}\]

(siempre que \(P(B) \neq 0\))

Ejemplo: Clasificación de Imágenes

Un modelo clasifica imágenes como "Gato" o "Perro":

  • \(P(\text{Predicción} = \text{Gato} | \text{Imagen es realmente gato}) = 0.95\) (buena)
  • \(P(\text{Predicción} = \text{Gato} | \text{Imagen es realmente perro}) = 0.05\) (falsa alarma)

📌 Propiedades Derivadas

Propiedad Fórmula Interpretación
Regla de adición \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\) No contar dobles
Probabilidad total \(P(B) = \sum_i P(B \| A_i) \cdot P(A_i)\) Descomponer en casos
Independencia \(P(A \cap B) = P(A) \cdot P(B)\) Sucesos sin influencia
Sucesos contrarios \(P(A) + P(\overline{A}) = 1\) Complementariedad

🚀 Aplicaciones en Inteligencia Artificial

1. Clasificación Probabilística

Un modelo puede devolver probabilidades en lugar de predicciones binarias:

\[ \hat{y} = \begin{cases} \text{Gato} & \text{si } P(\text{Gato | Imagen}) > 0.5 \\ \text{Perro} & \text{si } P(\text{Gato | Imagen}) \leq 0.5 \end{cases} \]

2. Redes Bayesianas

Modelos que capturan relaciones probabilísticas entre variables:

  • Diagnóstico médico
  • Sistemas de recomendación
  • Detectores de anomalías

3. Aprendizaje Profundo

Las redes neuronales producen probabilidades a través de la función softmax:

\[\sigma(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}\]

✅ Resumen de Conceptos Clave

Concepto Definición
Probabilidad Medida cuantitativa de incertidumbre en \([0, 1]\)
Espacio muestral Conjunto de todos los resultados posibles
Suceso Subconjunto del espacio muestral
Frecuentista Basada en repeticiones (datos)
Bayesiana Basada en grado de creencia (actualizable)
Condicional \(P(A\|B)\) = probabilidad de \(A\) si sabemos \(B\)

🎓 Ejercicio Rápido

Una consulta médica diagnostica correctamente el 95% de los casos positivos y el 99% de los casos negativos. Si el 1% de la población tiene la enfermedad:

Pregunta: ¿Cuál es la probabilidad de que una persona que da positivo en el test realmente tenga la enfermedad?

Solución

Usamos el Teorema de Bayes:

Datos: - \(P(\text{Positivo | Enfermedad}) = 0.95\) (sensibilidad) - \(P(\text{Negativo | Sin enfermedad}) = 0.99\) (especificidad) - \(P(\text{Enfermedad}) = 0.01\)

Necesitamos: - \(P(\text{Positivo | Sin enfermedad}) = 1 - 0.99 = 0.01\) (falsos positivos) - \(P(\text{Sin enfermedad}) = 1 - 0.01 = 0.99\)

Probabilidad total de dar positivo: $\(P(\text{Positivo}) = P(\text{Positivo | Enf.}) \cdot P(\text{Enf.}) + P(\text{Positivo | Sin Enf.}) \cdot P(\text{Sin Enf.})\)$ $\(= 0.95 \times 0.01 + 0.01 \times 0.99 = 0.0095 + 0.0099 = 0.0194\)$

Teorema de Bayes: $\(P(\text{Enfermedad | Positivo}) = \frac{P(\text{Positivo | Enf.}) \cdot P(\text{Enf.})}{P(\text{Positivo})}\)$ $\(= \frac{0.95 \times 0.01}{0.0194} = \frac{0.0095}{0.0194} \approx 0.49\)$

Interpretación: Aunque el test es 95% sensible, si da positivo, hay solo ~49% de probabilidad de que realmente tenga la enfermedad. ¡Esto es porque la enfermedad es muy rara!