Validación de datos

Al recibir un conjunto de datos para analizar o visualizar, resulta práctico asumir un manejo a la defensiva: los datos están malos, hay que averiguar dónde y repararlos. Creo que nunca me ha pasado que un conjunto de datos no venga con errores.

Los 3 principales errores son: * Datos duplicados: Un mismo elemento viene 2 ó más veces. * Datos faltantes: Falta un elemento o un valor de una fila. * Datos erróneos: Alguno de los valores no es correcto.

Este tutorial será práctico: consideremos el siguiente conjunto de datos:

polluted_pokemon_stats.csv

Entidades e indexación

Una forma práctica de mirar los datos es usar “entidades y propiedades”.

Por ejemplo:

entrenador:

entrenador-torneo:

Dependiendo de que tipo de dato estemos mirando, se define la entidad básica.

Datos duplicados

Una entidad básica debería estar representada una única vez en el conjunto de datos. Puede estar completamente duplicada o bien, estar duplicada como entidad pero tener distintas propiedades, en cuyo caso puede ser dificil decidir cual es el “representante” correcto.

Datos faltantes

Puede ser un valor en una columna, esto es fácil de detectar

Puede ser una fila completa (una entidad) - esto es dificil de saber. Tipicamente recurrimos a los conteos y validaciones “alto nivel”

Datos erróneos

Existen datos erróneos que son fáciles de identificar, y otros que son imposibles de identificar.

Column-wise: Facil en datos categóricos, un poco más dificil en datos numéricos.
Multiple columns (queda en el cuadrante equivocado): Podría ser un error o no. Depende de los datos.
Tiene un valor erróneo (aunque cercano): Solo se podría identificar comparando con otra referencia.