La calidad de datos como una ventaja competitiva

La calidad de datos impacta en el trabajo del científico de datos. En la nota veremos algunas estrategias para mitigar el impacto y generar valor de negocio.

La calidad de datos y la analítica de negocios también estuvieron presentes en las primeras Conferencias Abiertas en Gestión de Datos organizadas en el 2020 por Noresdata. En esta oportunidad Santiago Escobar, economista y científico de datos, presentó la conferencia “La calidad de datos como una ventaja competitiva”. A continuación, resumimos algunos de los conceptos destacados de su conferencia.

 

 

Calidad de datos, Gestión de datos y Analítica.

Los problemas habituales de calidad de datos en el marco de la analítica de negocios, tienen que ver con inconsistencia en los datos, que llevan a que los reportes no cierran, entre otros escenarios.
En la rueda de DAMA está presente la calidad de datos cómo una de sus áreas de trabajo. En la práctica la calidad de datos tiene implicancias en otras áreas de la rueda de DAMA.

La pirámide de Peter Aiken ordena las áreas de conocimiento según las distintas etapas de madurez en la gestión de sus datos. La calidad de datos se posiciona en la base de la pirámide y esto trae repercusiones en otras áreas de la Gestión de Datos. En la punta de la pirámide se posiciona la analítica de datos.

Piramide de Peter Aiken

Pirámide de Peter Aiken

 

Implementando Data Mining.

Para la implementación de Data Mining se utilizó la metodología Cross Industry Standard Process for Data Mining.

Cross-industry standard process for data mining

Cross-industry standard process for data mining

 

La metodología propone en primera instancia, comprender el negocio y comprender los datos. Es iterativo ese pasaje porque si no se entiende el negocio o los datos, se puede regresar a la etapa anterior para seguir indagando hasta alcanzar el nivel de conocimiento necesario.

Nos centraremos en la etapa de entendimiento y preparación de datos.

Entendimiento de datos.

Durante la etapa de entendimiento de datos, hay varias actividades a realizar:

  • Recolección de datos de las distintas fuentes de información
  • Descripción de los datos, conformando un diccionario de datos
  • Exploración de datos, utilizando estadísticos descriptivos.
  • Análisis de calidad de datos, donde se trabaja sobre la completitud, exactitud y consistencia.

Una buena práctica que facilita esta etapa es conocer el ciclo de vida de los datos.

Preparación de datos.

En esta etapa es necesario trabajar sobre:

  • Selección y limpieza de datos. Se trabaja sobre normalización de datos y tratamiento de nulls.
  • Ingeniería de atributos.
  • Integración y estructuración de datos.
  • Formateo de los datos.

 

Esfuerzo del proyecto.

El esfuerzo de dedicación del proyecto se da en mayor medida en recolección, limpieza y transformación de datos. Si se pudiera atender de alguna manera los problemas de calidad de datos previamente, los modelos o los resultados esperados podrían alcanzarse antes.

Esfuerzo de proyectos de analítica de datos y data mining.

Esfuerzo de proyectos de analítica de datos y data mining.

 

Herramientas para la calidad de datos.

Hay varias herramientas que pueden utilizarse para la limpieza de datos. Detallamos aquí algunas de ellas.

 

Algunos consejos finales para impactar la calidad de datos.

Como facilitador de los cambios, contar con una visión clara del negocio permitirá tener soluciones más robustas frente a los continuos cambios. Siempre tener en cuenta los datos que se necesitarán y la calidad de datos adecuada.
Contar con un sponsor dentro de la organización con alto rango, que se empodere de la calidad de datos y la lleve adelante.
Al considerar la estrategia empresarial que pretenda ser data driven, considerar: los procesos, el negocio, la normativa, la cultura empresarial y los datos ocupando un lugar central.
Nuevos roles híbridos que tengan conocimiento de TI y del negocio. Este tipo de proyectos requiere de equipos interdisciplinarios que colaboren aportando cada uno su punto de vista.

La presentación completa puede verse a continuación.