En una época en la que todo es medible y cuantificable, los datos se acumulan más rápido de lo que la mayoría de las empresas pueden procesar, ocupando a menudo demasiado espacio de almacenamiento, lo que conlleva un alto coste de adquisición y mantenimiento. De hecho, se calcula que hoy en día hay, de media, más de ocho data lakes por empresa.,
Esta cantidad de datos suele crear más caos y trastornos que valor añadido. Sólo hay que pensar en la cantidad de pasos que hay que dar para filtrar y encontrar información de calidad en una situación así. Los responsables de TI se ven obligados no sólo a perfilar, catalogar y almacenar la información, sino que también deben cumplir las normas que regulan su uso. Esto hace que el proceso sea manual, lento y a menudo propenso a errores:
- Los silos de datos impiden encontrar y compartir información útil que podría ser valiosa para otros departamentos
- Falta en las compañías una cultura de toma de decisiones basada en los datos y la colaboración
- Cuando varias iniciativas se solapan o se ponen en marcha en paralelo, las organizaciones suelen acabar con datos duplicados y cuya procedencia se desconoce. Si además no se puede establecer la calidad de los datos, éstos no son fiables y cualquier tipo de análisis o información carece de sentido. Esto es un problema habitual y las compañías deberían apostar por la calidad de los datos. Dicho de otro modo, la incertidumbre sobre la procedencia de la información que tenemos es enemiga de que lo que hacemos sea lo correcto
Todo esto se traduce en un conjunto de datos desperdigados a los que no se les saca toda la rentabilidad posible. Esto implica, además, aumentar el riesgo de incumplimiento de la regulación sobre gobernanza y gestión de la información. Aún asi, las empresas siguen invirtiendo grandes cantidades de recursos en tratar todos estos datos, sin obtener los resultados óptimos. Aquí es donde el despliegue de “operaciones de datos”, o DataOps, puede ayudar a las organizaciones a recuperar el rumbo en un “océano de datos”.
El futuro es DataOps
En los últimos años, las “operaciones de datos”, o DataOps, se han popularizado hasta el punto de que muchas organizaciones están adoptando o considerando seriamente los principios “Agile” para la gestión de datos.
Es más conveniente pensar en DataOps como una metodología, en lugar de un conjunto de herramientas o soluciones. El concepto, que se inspira en las prácticas de lean manufacturing, agile y DevOps, ayuda a las organizaciones a superar la burocracia para ofrecer análisis rápidos sin comprometer la calidad o la gobernanza de los datos.
Las ventajas principales son: una mayor innovación, un análisis de datos más rápido y un aumento de los ingresos. Más concretamente, se traduce en lo siguientes beneficios:
- Una mejor comprensión empresarial de sus datos, que implica combinar el catálogo de datos con clientes y colaboradores para cuidar la calidad de estos
- La automatización de las tareas asegura la calidad, compliance y gobernanza de los datos para asegurar que están listos para su consumo
- Poner el énfasis en la gestión ágil y automatizada de los datos para que las personas, los procesos y las tecnologías orienten la información hacia los objetivos empresariales, manteniendo los riesgos de gobernanza al mínimo y los costes bajo control
- La principal ventaja de las “operaciones de datos”, o DataOps, es que permiten romper con los silos. Así, el negocio funciona mucho más rápido y ofrece nuevos productos al mercado más rápidamente, ya que esa valiosa información no está encerrada en un solo departamento y puede compartirse en toda la organización.
Índice de temas
IA, ML y Automatización
Los metadatos son la base de cualquier enfoque DataOps. Al conseguir que se creen metadatos automáticamente usando algoritmos de inteligencia artificial (IA) y Aprendizaje Automático (ML), una empresa puede reducir significativamente el esfuerzo manual. Así se acelera el desarrollo de sus pipelines de datos y el análisis efectivo por parte de sus equipos.
Cuando la IA automatiza la gestión integral de los metadatos, la tecnología se está usando eficientemente para conseguir su objetivo. Para ello, se necesitan tecnologías de integración de datos, así como un mecanismo eficaz para catalogarlos y las reglas que deben aplicarse a ellos para establecer el linaje de la información.
Es más conveniente pensar en DataOps como una metodología, en lugar de un conjunto de herramientas o soluciones
Hay que tener cuidado con aquello que podría hacer fracasar estas operaciones. Esto es un enfoque fragmentario, en el que los datos se pasan de una herramienta a otra. Ahí es donde la IA y las técnicas de aprendizaje automático (ML) deben ayudar a las organizaciones a comprender mejor los datos y enriquecerlos semánticamente, según sea necesario. Además, la integración de la IA y el ML puede ayudar a identificar cualquier problema de calidad al tiempo que permite añadir reglas de gobernanza a los datos.
La transformación
La clave del éxito para la transformación de datos es definir los resultados y tener muy claros los objetivos finales. Se trata de averiguar de dónde proceden los datos, seleccionar la mejor metodología para almacenarlos y gestionarlos, y averiguar cómo garantizar que se pueden aprovechar para ofrecer rápidamente valor al cliente final.
Por último, no hay que olvidar que gran parte de esta evolución no es sólo técnica, sino cultural. De hecho, el éxito de la adopción de DataOps dependerá de aspectos como acabar con los silos de una vez por todas, al tiempo que se fomenta una mayor colaboración entre los equipos de datos y de TI, el pensamiento de diseño end-to-end y el tratamiento de los datos como un activo compartido.
Estos retos no son triviales. Al revisar la postura que una compañía tiene respecto a los datos, es necesario hacer pensar a sus responsables seriamente en tratarlos realmente como un activo que puede mejorar los resultados de su empresa.