“Big Data helps solve big problems. But when it comes to everyday marketing decisions, Little Data is where the answers live”. No existe una traducción exacta al castellano, pero podemos captar la idea de estas frases con solo unas pequeñas nociones de inglés. Los datos pueden ser muchos pero la información relevante y útil suele ser muy pequeña. Y es que el concepto de Big Data bien puede resumirse en cuatro aspectos diferentes pero relacionados: volumen de datos, velocidad de acceso a ellos, veracidad de los mismos y su valor.
Mientras que las facetas de volumen y velocidad se refieren expresamente al proceso de generación de los datos y a la forma de capturarlos y almacenarlos, la veracidad y el valor se ocupan de la calidad y la utilidad de los mismos. Por su parte, Little Data es el lugar donde los usuarios puedan interactuar y aplicar la información a la práctica. En realidad se trata de contar con algo que sea manejables para organizaciones de tipo medio o pymes.
Es en este punto donde podemos hablar de los costes de infraestructura necesaria, tanto a nivel de hardware como en lo que a software se refiere. Como siempre todo dependerá de hacia dónde queramos enfocarnos. Existen dos posibilidades bien diferenciadas en este sentido: usar cloud, o bien decantarnos por infraestructura propia.
HPE, por ejemplo, dispone de sistemas hardware altamente escalables (caso de ser necesario) con discos desde pocos Tbytes hasta el soporte de varios Pbytes, y a nivel de servidores desde un procesador hasta ocho procesadores. En cuanto a software, la plataforma que más impulso tiene en estos momentos es Vertica sobre Hadoop, también escalables desde dos nodos de computación hasta 16 de ellos.
HPE cuenta con arquitecturas específicas para sistemas Big Data basados en nodos de computación en formato blade o servidores Proliant ‘enracables’, con una alta capacidad en disco y electrónica de red incluida. Sin embargo, estos sistemas pueden llegar a tener un coste alto si necesitamos mucha potencia. Por ejemplo, los nuevos sistemas hiperconvergentes HC 250 y HC380, aunque no están específicamente pensados para Big Data sino para virtualización, nos permiten empezar una arquitectura basada en hipervisores de VMware o Microsoft Hyper-V, protegiendo de esta forma las inversiones realizadas en sus actuales sistemas de virtualización.
Estos sistemas formados como mínimo por dos nodos permiten a las pymes, a un coste muy contenido, empezar a implantar a medida nodos de computación y almacenamiento; podremos configurarlos con distintos modelos de procesadores, con memoria RAM desde los 128 Gbytes hasta los 1,3 Tbytes, y almacenamiento local con discos de estado sólido, discos empresariales o discos SATA, entre otros. Esta arquitectura nos permitirá empezar a implantar sobre plataforma virtual sistemas SQL Vertica con bases de datos columnares (Column Oriented) por ejemplo, con un interfaz de salida Apache Hadoop. Esta arquitectura es capaz de proporcionar un almacenamiento y un procesamiento distribuidos. Lógicamente podremos aumentar el rendimiento de la solución añadiendo simplemente nodos de ampliación (con capacidad de disco, procesadores y memoria incluida en un solo appliance).
Así pues, y tras lo visto, una infraestructura para Big Data no necesariamente tiene que empezar por ser muy ‘Big’. Los análisis de la gestión de los datos con sistemas nos dan la razón.