Se estima que hasta el 70% del tiempo de desarrollo de algoritmos de inteligencia atficial termina dedicándose en preparación de datos, y no en el análisis en sí.
Al reducir el tiempo de preparación de datos, tu empresa puede ganar agilidad en el despliegue de nuevas tecnologías.
Más que comprar un software en particular, la solución radica en establecer un programa de solución de calidad. En este artículo veremos algunas estrategias que puedes usar para introducir un programa de calidad de data en tu empresa.
Enfoque ágil
Podemos aplicar técnicas del desarrollo ágil de software para solucionar temas de calidad de datos.
- Centraliza y versiona tus esquemas
- Aprende a evolucionar esquemas en tu data pipeline.
- Entiende y controla la calidad de fuentes en el perímetro
Centralización de esquemas
Primero, debemos centralizar los esquemas de la data de manera que forman un diccionario central al que varios equipos pueden referirse.
Esta definición de esquema debe ser centralizada y debe evolucionar con control de versiones, al igual que cualquier otro componente de software.
Evolución de esquemas
Este análisis se tiene que llevar a cabo a varios niveles. Primero, a nivel dataset individual, y segundo, cruzando datasets.
Controlando la calidad de fuentes externas
Este analis se puede llevar a cabo en dos niveles: a nivel dataset, y abarcando datasets.
1. Basico / A nivel dataset
- De dónde vino este dato?
- Qué valores son válidos para este campo?
- Se permiten campos nulos o vacíos?
- Se están entendiendo e.g. fechas y cantidades numéricas de la manera correcta?
- Hay suficiente precisión en cantidades monetarias?
- Hay teléfonos o correos electrónicos en el dataset? Son válidos?
2. Avanzado / cruzando datasets
- Los IDs de usuario son conocidos?
- Hay coincidencia de nombres y apellidos?
- Hay coincidencia entre la cantidad de registros entre un dataset y el otro?
- Donde hay agregados o totales: suman correctamente?
Asegurar cada una de estas por separado puede ser tedioso. Nuestro enfoque está en preparar un análisis profundo y automatizado sobre las fuentes, y luego reportar utilizando scorecards en vivo.
Scorecard
Nuestro data scorecard te da un resumen ejecutivo de la calidad de tu data.
Monitoreamos la data a nivel atributo y te ayudamos a mantener y continuamente mejorar la calidad, y evitamos “data drift.” Escribe a [email protected] para más detalles.