Índice de temas
Democratización de los datos
Si los directivos tienen que señalar en su agenda un asunto perentorio y que urge abordar sin más dilaciones, ese es la democratización de los datos, un factor clave para enfocar el negocio hacia el data-driven, y poder extraer todo el potencial de la analítica. Los principales obstáculos que enfrentan las organizaciones en este punto incluyen la falta de acceso a información relevante, la calidad inconsistente de los datos y la complejidad de las arquitecturas de datos. Todos estos aspectos se han puesto sobre la mesa durante el encuentro ‘Datos: La clave para la innovación empresarial’ con la participación activa de Denodo y de diversos expertos tecnológicos, y en el que se ha profundizado en los desafíos que tienen que ver con la normalización y calidad de los datos, la importancia de un cambio cultural y el respaldo de la dirección en este tipo de iniciativas, con la IA como marco transformador.
Por qué fijar un gobierno de datos
Sobre la mesa se ha subrayado el papel fundamental del gobierno de datos, la profesionalización de roles como el data owner y la creación de reglas de calidad lideradas por el negocio. De la misma manera, se reconoce la complejidad de la limpieza de datos y la necesidad de mejorar la captura y calidad de las fuentes de datos desde su origen, al tiempo que se resalta el valor estratégico del dato como activo empresarial.
La baja calidad de los datos es el mal de origen de la mayoría de las organizaciones, pues puede dar pie a informaciones erróneas y a procesos fallidos. Así lo evidencia Juan Luis Vicente Carro, Jefe del Departamento de Gestión TIC y Normativa de la Dirección General de la Policía del Ayuntamiento de Madrid: “Trabajamos en un proyecto de inteligencia policial con el objetivo de comprender lo que sucede en diversos eventos y relacionarlo con situaciones específicas. Por ejemplo, si ocurre un robo seguido de un delincuente que se salta un semáforo, es crucial poder conectar estos eventos entre sí. Además, al investigar a un delincuente que opera en pareja, es fundamental analizar y comprender esta dinámica a través de los datos disponibles. Sin embargo, nos enfrentamos a desafíos significativos, como la falta de normalización de los datos y la necesidad de limpiarlos manualmente si están mal introducidos desde el principio”. A pesar de tener conocimientos sobre cómo abordar estos problemas,
Carro reconoce que aún no han logrado desarrollar un producto concreto. “A menudo, recurrimos a bases de datos de terceros para obtener información, pero nos encontramos con limitaciones en la aplicación de tecnologías como la inteligencia artificial y el aprendizaje automático debido a la causística tan amplia que manejamos”. La Policía puso en marcha un piloto de ticketing con Watson y comprobaron que llevaba demasiado tiempo normalizar los datos, por problemas de interoperabilidad y terminó archivándose.
La baja calidad de los datos es el mal de origen de la mayoría de las organizaciones, pues puede dar pie a informaciones erróneas y a procesos fallidos.
Calidad de datos e IA
Desde el punto de vista de José Luis Hernández, director del Servicio de Informática y Comunicaciones de la Universidad Carlos III, en este asunto tenemos “mucha teoría, pero poca práctica”. Si algo ha hecho la IA es traer a colación el gobierno de datos. “Al unir la IA y el gobierno del dato, la importancia de la calidad de los datos es clave para aplicar cualquier tipo de IA, ya sea generativa o tradicional. Independientemente de los datos que poseas, lo importante es actualizar tu información, tener un catálogo de datos limpio y un diccionario de datos es fundamental para el cuadro de mandos y otros procesos de aprendizaje profundo”, argumenta Hernández. Mientras no exista una cultura de limpieza del dato, las empresas no pueden avanzar: “El dato es a la organización, lo que los metros cuadrados a la oficina”.
Hay una barrera tecnológica entre dónde se ubican los datos, las fuentes que normalmente son muy heterogéneas, y el hacer llegar esos datos en tiempo y forma adecuada a los usuarios
JAVIER NAVARRO
SALES DIRECTOR DENODO IBERIA
Su universidad tiene en marcha un proyecto de datalake para mejorar la calidad y categorización de los datos. “Un data lake limpio requiere el respaldo de la dirección, no es tanto la tecnología; los fallos se producen en la organización y el gobierno” puntualiza.
¿Qué es un datalake?
Recordemos que un datalake es un repositorio centralizado de datos estructurados y no estructurados que permite el almacenamiento y análisis de grandes volúmenes de información en su forma original. Proporciona un entorno escalable y flexible para procesar datos de diversas fuentes con el fin de obtener conocimientos y soportar análisis avanzados
Javier Martínez, Big Data Manager de Enagás, se muestra muy partidario del concepto del datalake. De la validez de los datos de una compañía como Enagás depende la eficiencia del mantenimiento de sus activos industriales. La cuestión es que los operadores de campo introducen los datos que consideran críticos, pero no siempre lo pueden hacer en tiempo real, por lo que se requiere abordar un tema cultural. Según Martínez, la IA está traccionando dentro de la organización, mientras que el Gobierno de datos lleva tiempo sin ejercer la misma presión dentro de la compañía. “Tenemos un modelo de gobierno federado con las áreas de negocio. En cuento a la IA generativa, estamos en pleno hype, y hay que establecer reglas para evitar alucinaciones, fugas de datos y un gobierno adecuado. Pero esto no será fácil si no viene de arriba, desde la alta dirección”.
Marek Nowosielski, Director Data Science de Liberty Seguros, incide en esta misma idea: “la IA generativa parece algo maravilloso, pero ponerla en práctica tiene sus complicaciones. Tiene que haber un driver de negocio que lidere, como puede ser el beneficio de la productividad, y los CEO tienen que verlo; la idea tiene que calar desde arriba.
La calidad del dato es de todos
En este punto interviene Juan Miguel Moreno, Jefe de Servicio de Analítica de Datos de Informática del Ayuntamiento de Madrid, la calidad de datos corresponde a todos los integrantes de la empresa, igual que la ciberseguridad: “es el usuario que captura el dato el que tiene que responsabilizarse de ese dato, hay que asumir los roles y la puesta en práctica de la responsabilidad de esos roles”. Moreno también pide un poco de autocrítica a los departamentos de TI: “Por qué nos cuesta tanto explicarlo, pecamos de un lenguaje excesivamente técnico, tenemos que ser más didácticos.
Desde Denodo ayudamos a homogeneizar y uniformizar lo que es el acceso al dato, de tal forma que el acceso sea muy sencillo por parte de los usuarios y poder eso exponer esos datos de manera gobernada a las organizaciones
ÁLVARO GALÁN
SALES DIRECTOR DENODO IBERIAN & LATAM
Alberto García, Head of Data Management & Visualization de CEPSA, distingue tres líneas básicas: organizativa, tecnológica y cultural. “Las empresas tienen que empezar a pensar en roles como el data owner dentro de negocio y que vela por este tema invirtiendo en herramientas”. Por su experiencia, vender dentro de una organización el gobierno del dato es una misión compleja, si bien es verdad que con la explosión de la IA generativa se vende más fácilmente. Si se introducen datos basura, el resultado del algoritmo va a ser nulo. Y ya en la línea tecnológica, Alberto García piensa que la industria TI tiene que madurar ofreciendo herramientas que ayuden en esta dirección.
En qué consiste una organización data-driven
Carlos Garriga, CIO del Instituto de Empresas, establece las pautas de una empresa data-driven: “para ser data-driven hay que reconocer primero que el dato es un activo de la empresa, ni tuyo ni del departamento; igual que una mesa que no te llevas a tu casa. Quien va a decir cómo se comparte tiene que ser el Chief Data Officer. Y en tercer lugar, la calidad del dato empieza en la base”. Garriga ilustra la necesidad de fijar procesos que, aunque sean algo penosos demuestran su eficacia, como es el caso del uso de menús desplegables pero que son de gran ayuda en la normalización en la introducción de datos.
En último término, Carlos Federico Moscat, Jefe Adjunto del Departamento de Innovación de la Dirección General del Parque Tecnológico Valdemingómez, demuestra que andando se hace el camino. “Pusimos en marcha internamente un proyecto de tratamiento de residuos basado en modelos estimativos. Luego se lo presentamos a la dirección y dieron su conformidad. La limpieza del dato es un engorro, pero sin ella no es posible avanzar. Si no se depura la fuente, luego resulta muy costoso. Es muy importante trabajar hacia delante y no hacia atrás”.