Skip to content

Proceso estándar de análisis de datos


Objetivo

✨ Presentar un flujo de trabajo (workflow) completo y ordenado para el análisis de datos — guía de referencia para todo análisis riguroso.

Idea Clave 💡

No existe análisis sin estructura. El flujo de trabajo es el "mapa" que guía tu análisis desde datos crudos hasta conclusiones. Seguirlo previene errores, mejora reproducibilidad y acelera desarrollo.


El Workflow Completo: 6 Etapas

graph TD
    A["📊 RECOGIDA<br/>Muestreo"] --> B["📝 REGISTRO<br/>Captura datos"]
    B --> C["🧹 LIMPIEZA<br/>Validación"]
    C --> D["📈 EXPLORACIÓN<br/>EDA"]
    D --> E["🤖 MODELADO<br/>Inferencia"]
    E --> F["📋 COMUNICACIÓN<br/>Reportes"]

    A --->|Pregunta| B
    B --->|Datos crudos| C
    C --->|Datos limpios| D
    D --->|Patrones| E
    E --->|Conclusiones| F
    F --->|Feedback| A

    style A fill:#bbdefb
    style B fill:#bbdefb
    style C fill:#f8bbd0
    style D fill:#f8bbd0
    style E fill:#ffe0b2
    style F fill:#ffe0b2

Etapa 1️⃣: RECOGIDA — Definir y Muestrear

Qué hacemos: Diseñar el muestreo y recolectar datos representativos.

Tareas:

  • ✅ Definir población objetivo con precisión
  • ✅ Decidir método de muestreo (aleatorio, estratificado, etc.)
  • ✅ Calcular tamaño de muestra necesario
  • ✅ Establecer criterios de inclusión/exclusión
  • ✅ Planificar logística de captura

Outputs:

  • Plan de muestreo documentado
  • Tamaño de muestra justificado
  • Lista de población / protocolo de selección

Recursos: Muestra representativa


Etapa 2️⃣: REGISTRO — Capturar y Documentar

Qué hacemos: Recopilar datos en sistema ordenado con validaciones.

Tareas:

  • ✅ Diseñar esquema de datos (nombres, tipos, unidades)
  • ✅ Implementar validaciones en tiempo real
  • ✅ Capturar metadatos (quién, cuándo, cómo)
  • ✅ Crear backup inmediato

Outputs:

  • Dataset con registros validados
  • Metadatos de captura completos
  • Backup del dataset original

Recursos: Observación y registro


Etapa 3️⃣: LIMPIEZA — Validar y Reparar

Qué hacemos: Detectar y resolver problemas en datos crudos.

Tareas:

  • ✅ Inspeccionar: tipos, dimensiones, valores faltantes
  • ✅ Detectar: duplicados, valores fuera de rango, outliers
  • ✅ Documentar: registro de cambios por cada transformación
  • ✅ Aplicar: imputación, normalización, corrección
  • ✅ Validar: comparar estadísticas antes/después

Outputs:

  • Dataset limpio y validado
  • Registro de cambios documentado
  • Reporte de calidad de datos

Recursos: Limpieza de datos


Etapa 4️⃣: EXPLORACIÓN (EDA) — Entender Patrones

Qué hacemos: Análisis descriptivo profundo para encontrar patrones y anomalías.

Tareas:

  • ✅ Estadísticas básicas: media, mediana, varianza, cuartiles
  • ✅ Distribuciones: histogramas, densidades, boxplots
  • ✅ Relaciones: correlaciones, tablas cruzadas
  • ✅ Segmentación: análisis por subgrupos
  • ✅ Hipótesis iniciales: qué patrones observas?

Outputs:

  • Gráficos exploratorios
  • Tabla de estadísticas descriptivas
  • Hipótesis para modelado

Recursos: Medidas de tendencia, Visualización


Etapa 5️⃣: MODELADO — Inferencia y Predicción

Qué hacemos: Aplicar técnicas estadísticas para generalizar y predecir.

Tareas:

  • ✅ Seleccionar método (test estadístico, regresión, ML)
  • ✅ Ajustar modelo y validar supuestos
  • ✅ Evaluar con métricas apropiadas
  • ✅ Hacer predicciones o estimaciones
  • ✅ Cuantificar incertidumbre (intervalos de confianza)

Outputs:

  • Modelo entrenado
  • Métricas de desempeño
  • Predicciones con intervalo de confianza

Recursos: Aparecen en UD3+ (inferencia, regresión, hipótesis)


Etapa 6️⃣: COMUNICACIÓN — Reportar Resultados

Qué hacemos: Documentar hallazgos de forma clara y reproducible.

Tareas:

  • ✅ Crear narrativa clara (pregunta → método → resultados)
  • ✅ Visualizar conclusiones principales
  • ✅ Documentar supuestos y limitaciones
  • ✅ Proporcionar código reproducible
  • ✅ Especificar siguientes pasos

Outputs:

  • Reporte ejecutivo (1-2 páginas)
  • Reporte técnico completo
  • Código reproducible (scripts)
  • Datasets generados

¿Por Qué Esta Estructura?

Etapa Si la saltas...
1. Recogida Muestras sesgadas → conclusiones inválidas ❌
2. Registro Datos caóticos → limpieza imposible ❌
3. Limpieza Análisis con datos sucios → resultados engañosos ❌
4. Exploración Métodos inapropiados para tus datos ❌
5. Modelado Sin validación formal → intuiciones no probadas ❌
6. Comunicación Resultados olvidados → sin impacto ❌

Conclusión: Todas son críticas. Saltar una = fracaso garantizado.


Iteración y Feedback

graph TB
    A["Pregunta de Negocio"] --> B["1. RECOGIDA"]
    B --> C["2. REGISTRO"]
    C --> D["3. LIMPIEZA"]
    D --> E["4. EXPLORACIÓN"]
    E --> F["¿Patrón claro?"]
    F -->|NO| E
    F -->|SÍ| G["5. MODELADO"]
    G --> H["¿Válido?"]
    H -->|NO| D
    H -->|SÍ| I["6. COMUNICACIÓN"]
    I --> J["Acción / Siguiente Análisis"]

    style A fill:#c8e6c9
    style J fill:#c8e6c9
    style F fill:#ffecb3
    style H fill:#ffecb3

Nota: El análisis no es lineal. Es común volver atrás (p.ej. exploración → más limpieza) cuando descubres problemas.


Recomendaciones Prácticas

Documentación Continua

Documenta mientras haces, no después. Crea un notebook (Jupyter, R Markdown) que capture: - Pregunta de análisis - Código de cada etapa - Visualizaciones - Decisiones y justificaciones

Reproducibilidad

Tu análisis debe ser 100% reproducible: - ✅ Código disponible y comentado - ✅ Datos de entrada especificados - ✅ Dependencias y versiones documentadas - ✅ Alguien más debe poder reejecutar en 10 minutos

Pensamiento Crítico

En cada etapa, pregúntate: - ¿Por qué hago esto? - ¿Cuáles son mis supuestos? - ¿Qué podría estar equivocado? - ¿He validado mis conclusiones?


Conexión con UD1

Etapa Contenido UD1
1. Recogida Muestreo
2. Registro Observación y registro
3. Limpieza Limpieza de datos
4. Exploración Medidas, Visualización
5. Modelado Aparece en UD3+
6. Comunicación Cada unidad

UD1 prepara los pasos 1-4. Etapas 5-6 se desarrollan en unidades posteriores, pero es fundamental dominar antes la preparación de datos.


💭 Reflexión Final

Éxito en Análisis de Datos

El 80% de la tarea es correcta preparación de datos (etapas 1-4).

El 20% es modelado y comunicación (etapas 5-6).

Sin los primeros, los últimos son inútiles. Invierte el tiempo necesario en hacer bien las cosas desde el inicio.


📖 Referencias Internas