Rubén Terceño, Senior Director and Solutions Engineering de Confluent, nos habla de las ventajas del nuevo producto de la compañía, Apache Flink, y de los próximos retos que encara Confluent en el mundo del data streaming en el Kafka Summit de Londres.
¿Qué es Apache Flink y desde cuándo forma parte de la cartera de productos de Confluent?
Apache Flink, como proyecto open source, lleva en el mercado desde 2014, aproximadamente. Pero no fue hasta principios de 2023 que, desde Confluent, adquirimos la compañía Immerok, uno de los principales colaboradores de Apache Flink, para desarrollar esta tecnología en la nube a través de Confluent Cloud para Apache Flink, un servicio gestionado que permite procesar datos en tiempo real y crear flujos de datos reutilizables en streaming.
¿Qué aporta Flink al análisis de datos?
En un modelo tradicional, los datos se mueven de un lugar a otro sin tratarlos previamente. Entonces, cuando estos datos llegan a su destino tienen que ser manipulados para hacer cambios, desde más pequeños, como cambios de formato, a más significativos, como enmascarar ciertos campos. Con Flink, los datos se procesan aplicando los filtros necesarios en tiempo real. No es necesario esperar a cargar datos de diversas fuentes y combinarlos para obtener datos limpios. Como digo, la información se enriquece en tiempo real según las necesidades del cliente, detectando, por ejemplo, la dirección IP o el identificador de cookies de una persona que accede a la página web de una compañía, qué usuarios se conectan desde un smartphone y quiénes desde un navegador web, etcétera.
¿En qué sectores se está aplicando más el streaming de datos?
Nuestros dos productos, tanto Apache Kafka como Apache Flink, se pueden implantar de forma transversal en cualquier empresa o vertical ya que, cualquier sector, hoy en día, puede extraer valor del procesamiento de datos en tiempo real, desde logística, hasta retail, transporte, energía o el sector financiero. Desde Confluent estamos trabajando mucho con este último en el campo de la detección de fraude financiero mediante patrones. La conjunción en este sector de empresas potentes con gran capacidad de inversión y entidades innovadoras y nativas digitales se ha convertido en la tormenta perfecta para que el data streaming sea una de sus tecnologías críticas.
Que dar un buen servicio al cliente solo es posible cuando varias tecnologías se integran para crear un plan de datos efectivo
Por ejemplo, hemos desarrollado recientemente un proyecto con EVO Banco en España a través del cual, mediante la implantación de Confluent Cloud, han analizado en tiempo real más de 500.000 transacciones diarias en busca de fraude alcanzando una media de 500 transacciones fraudulentas bloqueadas al día, lo que ha reducido las pérdidas semanales causadas por fraude en un 99%.
No obstante, la detección de fraude financiero también es transversal a todos los sectores porque todos tienen una plataforma de pago digital o de transacciones financieras detrás, y todas las empresas son susceptibles de ser defraudadas. Por ejemplo, en el sector retail, puede ocurrir que alguien intente devolver un producto distinto al que había comprado o, por poner otro ejemplo, que alguien manipule de alguna forma los puntos de viaje que te dan las aerolíneas intentado engañar al sistema. Por nombrar un cliente de retail, te puedo decir que hemos estado trabajando con Mercadona.
¿Estáis desarrollando algún proyecto con el sector público?
Por supuesto. En el sector público hemos trabajado, por ejemplo, con la Agencia Tributaria y con la Generalitat de Catalunya, que es una Administración que invierte mucho en data streaming. De hecho, la Generalitat es una de las grandes consumidoras de esta tecnología en España. Cuando comenzamos a hablar con la Generalitat para perfilar el proyecto, ya estaban utilizando Apache Kafka por lo que, básicamente, nuestro trabajo consistió en ayudarles a decidir si querían seguir trabajando con esta herramienta o preferían probar una plataforma más completa como es Flink.
¿Cuáles son vuestros principales partners y qué importancia tienen para vosotros?
Todas las tecnologías tienen una parte de colaboración y una parte de competición. Es decir, no hay tecnologías mutuamente excluyentes, siempre existe un área gris. Lo importante es encontrar el punto fuerte de cada tecnología e intentar dar siempre al cliente la mejor solución posible. En España, algunos de nuestros principales partners son la compañía de Data Cloud, Snowflake y la base de datos no relacional, MongoDB. También tenemos fuertes alianzas con los grandes proveedores cloud, como Google Cloud, Microsoft Azure y Amazon Web Services (AWS).
En Confluent ofrecemos una parte de la solución que, aunque muy importante, necesita de otras piezas del puzle para crear una solución completa y robusta. Dentro del proceso de análisis de datos están las aplicaciones que extraen los datos, sistemas de almacenamiento de datos, soluciones que los procesen y enriquezcan la información, etcétera. La gran cantidad de bases de datos con las que contamos confluyen en Kafka y se muestran a través de Snowflake. ¿Con esto qué quiero decir? Que dar un buen servicio al cliente solo es posible cuando varias tecnologías se integran para crear un plan de datos efectivo.
España es el segundo país de Europa donde tenemos más negocio, el primero es Reino Unido
En este sentido, Kafka es la pieza central que permite que tecnologías que no hablan el mismo idioma, por así decirlo, puedan hablar entre ellas. Es el lenguaje universal que están adoptando cada vez más aplicaciones para comunicar sus datos y sus eventos de forma clara y eficiente.
¿Qué objetivos tenéis para este año?
En cuanto a España, contamos con una comunidad de Kafka bastante fuerte y el uso de Confluent ya estaba muy extendido incluso antes de que tuviéramos presencia física en el país. No en vano, España es el segundo país de Europa donde tenemos más negocio, el primero es Reino Unido, que es donde está la matriz. Sin embargo, esto supone un arma de doble filo porque muchos profesionales ya conocen bastante la herramienta y les cuesta salir de su zona de confort y evolucionar. Y eso es justo lo que queremos en Confluent, ir más allá del data streaming y llegar al data processing, hacia una plataforma de datos integrada.
Por lo tanto, nuestro gran reto para este año es conseguir que haya cada vez más clientes que compartan esta visión. Tenemos que convencer a toda esa gente que ya tiene la primera pieza, que es Kafka, de las ventajas que conseguirán si obtienen la segunda, y después la tercera, y así hasta que obtengan todo el valor que pueden sacar de los datos. Hemos tenido mucho éxito plantando la primera semilla, ahora hay que seguir haciéndola florecer.
Y a nivel global, ya hemos cumplido uno de nuestros principales retos que era demostrar que el negocio de Confluent es sostenible a largo plazo. Por lo que el objetivo para 2024 es mantener esa solidez financiera que nos permita seguir creciendo y hacer ver a nuestros clientes que la compañía no es una flor de un día. En este momento somos autosuficientes y no necesitamos de más rondas de financiación ni de ningún otro apoyo externo para seguir existiendo.
Evidentemente, ambos objetivos, el que he dicho de España y el global, están ligados, porque cuantos más clientes logremos convencer, tanto en España como en cualquier país, del valor que aporta esta visión integral de los datos y de unirse a esta aventura del streaming, más fácil será aumentar los recursos de la empresa e invertirlos en mejorar el producto y, por lo tanto, optimizar los precios, -porque las economías de escala siempre son beneficiosas-; y mantenernos como un player importante del mercado de datos. Es un círculo de virtuosismo en el que ganamos todos.