Cuando los Datos se Rebelan: Manual de Primeros Auxilios para Sobrevivir al Caos

Cristina Caballero y Emma Rodríguez 

Madrid, 14 de Mayo de 2025

Tiempo de lectura: 9m

¿Quién dijo que trabajar con datos era fácil?

Cuando te dicen “trabajar con datos”, es fácil imaginar a alguien en una empresa moderna, con futbolín y hamacas, tecleando fórmulas mágicas mientras gráficos espectaculares aparecen en pantalla. Algo así como ser Harry Potter, pero con Excel y Python en vez de túnica y varita. Spoiler: no es así. 

La realidad es más parecida a entrar en un trastero lleno de cajas polvorientas donde alguien escribió “importante” en todas ellas. Te toca abrir cada caja, ver que hay, tratar de entender de dónde ha salido todo eso y, si hay suerte, encontrar algo útil entre tantos trastos.

Y por supuesto, no ayuda que los datos lleguen en todas las formas que puedas imaginar: fechas en todos los formatos posibles, nombres escritos de mil formas distintas, valores que brillan por su ausencia… Y se complica todavía más si tenemos millones de filas, columnas con nombres indescifrables y sistemas “automáticos” pero que requieren más cuidados que una mascota: reinicios, parches, rezos y, si hace falta, un pequeño sacrificio al dios de los servidores.

Por eso, antes de lanzarse a hacer gráficos increíbles o entrenar algoritmos de IA que predigan el futuro, el primer trabajo real es el de detective: 

  • Limpiar, corregir, interpretar, completar
  • Preguntar (mucho)
  • Y aceptar que, a veces, ni el que recogió los datos se acuerda de que eran

Desaparecidos en combate: El drama de los datos que faltan

Los missing values, esas piezas del puzzle que se han perdido por el camino y que es uno de los grandes clásicos, siempre hay algo que falta. Una edad vacía, una compra sin precio, una encuesta que alguien dejó a medias cuando llegó la pizza. Mil razones, un mismo problema: huecos en los datos. 

¿Y qué hacemos cuando nos encontramos con este problema? Pues tenemos varias opciones, y no todas implican llorar en un rincón:

  • Ignorarlos: si son pocos y no afectan mucho, se pueden eliminar. Pero cuidado: eliminar sin pensar puede hacer que pierdas patrones importantes.
  • Rellenarlos: puedes imputarlos usando la media, la mediana, la moda o, si quieres ser un experto, usar modelos que predigan el valor que podría haber sido.
  • Modelos autosuficientes: algunos algoritmos son robustos y pueden lidiar sin problemas con estos datos incompletos.

Ten en cuenta que no hay una receta mágica, depende de la situación que enfrentes y las características de tus datos. No rellenes por rellenar, no es lo mismo un “0” en “edad” que un valor vacío porque la persona no quiso contestar. Además, si los datos también los recolectas tú, pregúntate por qué faltan datos, a lo mejor el problema está en el proceso de recogida.

Demasiado de todo: El lío de la alta dimensionalidad

Ahora imagina, que en vez de faltarte datos, tienes demasiados. Cada usuario tiene 200 columnas de información: edad, altura, color favorito, número de calcetines… Esto es la alta dimensionalidad, y puede ser realmente frustrante. 

¿Por qué es un problema? En general, cuantos más datos tengamos mejor, ¿no? Modelos más precisos se podrán entrenar… Pues no exactamente, cuantos más atributos tengamos, más difícil es encontrar patrones fiables. Esto se le conoce como “la maldición de la dimensionalidad” y ha sido muy estudiado. Los modelos empiezan a hacer overfitting (se aprenden de memoria los datos de entrenamiento y luego fallan con datos nuevos) o simplemente no funcionan porque todo parece demasiado importante y, a la vez, nada lo es.

¿Cómo sobrevivimos a este caos?

  • Feature selection: es una de las técnicas más comunes para quedarnos con las variables relevantes. Observamos qué columnas aportan realmente valor, ¿necesitamos saber el color favorito del cliente para diagnosticar una enfermedad? Elimina las características que no nos interesan, simplificando así el modelo y evitando que este se pierda en información innecesaria.
  • Reducir dimensiones: con métodos como PCA (Análisis de Componentes Principales). Consiste en condensar las columnas en menos dimensiones, pero lo hace de forma inteligente, manteniendo la mayor parte de información importante. Crea nuevas columnas donde se combinan las originales, haciendo nuestros datos más sencillos.
  • Agrupar datos: creando categorías más generales o combinando variables que están muy relacionadas.
  • Regularización: se usa para evitar sobre ajustar el modelo (overfitting), evitando que se obsesione con los pequeños detalles del entrenamiento y pueda generalizar con los nuevos datos. Se usan técnicas como L1 y L2.

Idea clave: más datos no siempre significa mejor, a veces, menos es más. Mejor tener pocas variables muy buenas que 300 columnas de ruido. Como en todo, el equilibrio es la clave.

Cuando todo el mundo dice "sí" y tú buscas un "no": class imbalance

Imagina que tienes una caja con 1 000 canicas azules y rojas, pero tan solo 10 son rojas. Si juegas a “adivina el color” y gritas “azul” siempre, acertarás el 99 % de las veces… y aun así serás un pésimo adivino.
Eso es el class imbalance: cuando una categoría domina descaradamente sobre las demás.

¿Por qué es un drama?

  • Ilusión de precisión: un 99 % de acierto puede esconder que jamás detectas el “evento raro” (fraude, enfermedad, cancelación de suscripción…).
  • Modelos perezosos: el algoritmo aprende que es más rentable ignorar los pocos casos minoritarios que esforzarse en distinguirlos.
  • Métricas que engañan: accuracy ≠ utilidad. Necesitas otras métricas como recall, precision, F1 o ROC-AUC.

Botiquín de urgencia

1. Re-muestreo:

  • Oversampling (duplicar o SMOTE para crear sintéticos) si te faltan positivos.
  • Undersampling para bajar el volumen de la clase mayoritaria (con cuidado; no tires oro a la basura).

2. Ponderar el error: dile al modelo que fallar con la clase minoritaria duele más: class_weight en sklearn es tu amigo.

3. Algoritmos robustos: XGBoost, LightGBM, CatBoost suelen llevar el desequilibrio mejor que un simple k-NN.

4. Umbral a la carta: en producción ajusta el threshold de probabilidad según el coste real de falsos positivos/negativos.

Bonus round: Otros problemillas que te van a sonar

Outliers: valores extremos en los datos, como -999 ºC de temperatura o ingresos de 9 999 999€. Deberemos decidir si son errores, rarezas interesantes… o ruido que hay que capar.

Time-travel y data leakage: entrenar con datos que el modelo “no debería conocer todavía” es como aprobar un examen con la chuleta impresa en la mano. Puede hacer que el modelo obtenga resultados en el testing irrealmente buenos.

Codificación errónea: el clásico Monday = 1, Tuesday = 2 y el modelo creyendo que martes es el doble que lunes. Usa one-hot, embeddings o al menos ordena con cabeza.

Concept drift: cuando la realidad cambia más rápido que tu pipeline (algoritmo entrenado en 2022, clientes de 2025). Necesitas monitoreo y re-training periódico.

Conclusión: No estás solo en esto (y sí, se puede sobrevivir)

Trabajar con datos es un deporte de riesgo, y pequeños errores en los datos pueden producir grandes errores en los modelos.
La clave es recordar que todo problema de datos tiene remedio si:

  1. Detectas el fallo temprano (mirando los datos de frente, no solo los bonitos dashboards).

  2. Comprendes su impacto en tu pregunta de negocio.

  3. Eliges la herramienta adecuada sin miedo a iterar.

Así que la próxima vez que tu CSV huela a chamusquina, respira, saca este manual, y ataca paso a paso. Tus modelos te lo agradecerán.