En el verano de 2009 entró en operatividad Caléndula, el superordenador de la Fundación Centro de Supercomputación de Castilla y León (FCSCL).
Bautizado con el nombre de una flor que crece de forma espontánea a lo largo de todo el año y es también conocida como ‘maravilla’, el superordenador es fruto del compromiso por la innovación de la FCSCL, una fundación de derecho público que tiene a Luís Muñoz como director general y como patronos a las Consejerías de Economía y Empleo, Fomento y Educación de Castilla León, y a la Universidad de León. Caléndula materializa la apuesta de la Junta de Castilla y León por la supercomputación sostenible y, de hecho, la sostenibilidad constituye uno de sus valores diferenciales, de acuerdo con el director técnico de la FCSCL, Antonio Ruiz-Falcó: “en España hay muchos centros de supercomputación construidos con dinero público para prestar servicios gratis, mientras que en este caso, los patrones han aportado el dinero inicial para las infraestructuras, pero la FCSCL tiene vocación de sostenibilidad y eso significa cobrar por los servicios que se prestan”.
Ciertamente la iniciativa ha supuesto una inversión cuantiosa. “La premisa inicial”, indica Ruiz-Falcó, “era una aportación de los patronos de dos millones de euros anuales durante cuatro años”; es decir, que la inversión inicial asociada al proyecto asciende a alrededor de ocho millones de euros que se pretenden rentabilizar. Así, pues, el objetivo de la FCSCL pasa por mejorar las actividades de investigación y prestar servicios de supercomputación a universidades y centros de investigación, pero también y muy especialmente a las empresas.
Con esa vocación nació el superordenador Caléndula que, inaugurado oficialmente en noviembre del pasado año por el presidente de la Junta de Castilla y León, Juan Vicente Herrera y el presidente de HP, José Antonio de Paz, se encuentra localizado en el Centro de Tecnología de la Información y la Comunicación para el Aprendizaje y la Investigación de la Universidad de León (ULE-CRAI). Por capacidad de cálculo, Caléndula puede presumir a día de hoy de ser el segundo superordenador de España por detrás del Mare Nostrum y de ocupar a escala global la plaza número 180 en la más reciente edición del Top500. Este privilegio se debe a que Caléndula cuenta con una capacidad de cálculo de 33,1 Tflops, es decir, que es capaz de procesar 33,1 billones de operaciones de coma flotante por segundo.
Eficiencia energética
El avance en supercomputación estaba en los planes de la Junta de Castilla y León y la Universidad de León desde hacía ya años, pero es a partir de la constitución de la FCSCL, que suma un equipo de 12 profesionales entre personal interno y externo, cuando el proyecto Caléndula empieza realmente a tomar forma, empezando por el diseño del propio sistema de cálculo. Como indica Ruiz-Falcó, “tras el estudio de las necesidades y el diseño de la infraestructura, la FCSCL convocó dos concursos públicos: uno para la construcción de la sala y el recinto, y un segundo para dotarse de la infraestructura hardware y software del superordenador. En la primera convocatoria, adjudicada a finales de noviembre de 2009 por un montante de 1,18 millones deeuros, se impuso la empresa castellanoleonesa experta en esta materia, Electroson Castilla, con una solución avanzada basada en la tecnología InfrastruXure de APC by Schneider Electric ya que “las soluciones tradicionales de refrigeración no sirven a partir de 10 kilovatios por rack”, asevera Ruiz-Falcó.
La obra comenzó a finales de noviembre de 2008 y se terminó el 28 de febrero de 2009, incluyendo la instalación, en la sala de 90 metros cuadrados donde se aloja Caléndula, de una innovadora solución basada en la separación de espacios y el uso de agua capaz de soportar cargas por armario superiores a los 40 kilovatios. En total se han instalado 18 racks, de los cuales la mitad están aún libres, de modo que “todavía tenemos mucho espacio para crecer”. Y con garantías, ya que la sala tiene dos UPS (Uninterruptible Power Supply) y todos los armarios disponen de alimentación doble, además de contar con un grupo electrógeno que, según Ruiz-Falcó, “nos permitiría operar durante dos días sin suministro eléctrico”.
Con estas credenciales, la eficiencia energética constituye uno de las características diferenciales de Caléndula, de acuerdo con Ruiz-Falcó, quien a pesar de considerar odiosas las comparaciones, no puede obviar indicar que “funcionando al cien por cien, el famoso Mare Nostrum tiene un consumo de 1,2 megavatios en tanto que el de Caléndula es de sólo 150 kilovatios”.
HPC de Hewlett-PackardEl segundo concurso para la adquisición de la necesaria infraestructura hardware y software del superordenador, el cual se convocó de forma simultánea al primero, se organizó en tres lotes. En el primer lote, para la adquisición de la infraestructura de cálculo, resultó adjudicataria por 2,31 millones de euros HP, que se imponía así a las propuestas de Dell, IBM y Bull, las cuales también concurrieron a la convocatoria. En base al diseño previo del superordenador, la infraestructura suministrada por HP empezó a instalarse físicamente en la primavera de 2009 y tras el diseño de procedimientos y el desarrollo de las pruebas pertinentes, después del verano arrancaba Caléndula, formado por un total de 342 servidores HP.
Hablamos, en concreto, de 304 máquinas HP BLx220c (288 de producción y 16 para desarrollo y pruebas), 10 BL460c, 16 DL580, tres DL380 y nueve DL160; de forma que, en su conjunto, el superordenador de la FCSCL suma 2.856 núcleos de proceso Intel Xeon. Dado que se utilizan los chasis blade C7000 de HP, que admiten 32 servidores por chasis, se trata de una solución extremadamente densa con 128 servidores por armario, es decir, 1.024 cores por armario de 42U.
Actualmente, se utilizan nueve chasis C7000 completos (producción) y un décimo con 16 servidores -ampliable en 16 más- para desarrollo y pruebas. Se trata de una infraestructura formada por tres clusters diferenciados: un cluster de cálculo paralelo, un cluster de visualización y un cluster de memoria compartida. “El cluster de cálculo paralelo se compone de 304 máquinas HP BLx220c, el cluster de visualización suma nueve máquinas HP DL160 y una décima DL380; en tanto que el tercer cluster de memoria compartida consta de 16 máquinas DL580 -ocho de 128 Gb y ocho de 256 Gb- sumando tres Tb de memoria compartida”. En este entorno, Ruiz-Falcó pone el acento en el cluster de visualización que, considerado único en España, está orientado al pre-proceso y post-proceso de imágenes, y a actividades relacionadas con el tratamiento de imágenes y la presentación de resultados. En cuanto a las comunicaciones internas, Ruiz-Falcó indica que “cada nodo tiene dos interfaces Gigabit y una interfaz Infiniband DDR a 20 Gbps”. Los tres clusters se encuentran en la misma red Infiniband, de modo que un switch director de Voltaire ISR 2012 con una capacidad de 11,2 Tbps se encarga de las tareas de conmutación entre los chasis C7000, que disponen de cuatro switches Gigabit y cuatro Infiniband DDR. Las tarjetas de comunicaciones de las máquinas son, en su mayor parte, de Mellanox Technologies.
Solidez y estabilidad Red Hat
No sorprende que Red Hat sea el sistema operativo que corre en esta potente infraestructura, pero sí llama la atención el hecho de que Red Hat formara parte de la propuesta de todos los proveedores que compitieron en este proyecto, con la única excepción de Dell, que se presentó con CentOS. “En nuestro caso y por el tipo de aplicaciones que ejecutamos lo lógico era utilizar Linux, fundamentalmente porque la inmensa mayoría del software científico de aplicación se ejecuta preferiblemente sobre Linux”. Más allá del sabor Linux, la solidez y estabilidad de Red Hat Enterprise Linux fueron determinantes en su selección. Y es que, teniendo en cuenta que los recursos a nivel de explotación de un centro de supercomputación suelen funcionar permanentemente al cien por cien de sus posibilidades, la fiabilidad, disponibilidad y ausencia de fallos son aspectos sumamente críticos.
Tal y como apunta Ruiz-Falcó, “el cluster de cálculo paralelo de la FCSCL se compone de 304 máquinas, si fuera necesario ejecutar un trabajo sobre 1.024 procesadores a la vez, es decir, 128 nodos, resulta imperativo garantizar que los 128 nodos sean capaces de trabajar conjuntamente durante todo el tiempo que dure el proyecto, que puede ser de varios meses. Red Hat Enterprise Linux ha demostrado su capacidad para cumplir con éxito estas exigencias de rendimiento”.
En la actualidad y tras varias actualizaciones, la FCSCL utiliza la versión 5.2 de Red Hat Enterprise Linux, que responde a una exigencia clave: “con una red Infiniband como esta, el conjunto del kernel tiene que estar muy afinado con la red ya que, en caso contrario, se corre el riesgo de reducir las prestaciones en las comunicaciones entre nodos o perder estabilidad”.
El sistema operativo en un entorno de HPC (High Performance Computing) es a todas luces clave, pero hay más piezas a considerar. Y es que, en la sala donde se aloja Caléndula, encontramos otros elementos como el sistema de almacenamiento, los sistemas de seguridad, servidores de correo, servidor web, servidores de autenticación, etc. Hablamos de un total de 400 servidores, todos ellos corriendo Red Hat Enterprise Linux.
‘Storage’ y comunicaciones
En el segundo lote del concurso convocado por la FCSCL, que correspondía al almacenamiento, resultó ganadora con un contrato valorado en 259.950 euros, Bull, que se encargó de la instalación de un sistema NetApp Fas3140 que actualmente suma una capacidad de 110 Tb y una librería de cinta para backup de Overland con capacidad para 560 LTO, si bien hasta el momento sólo se han instalado alrededor de 180 cintas. Esta infraestructura se completa con una solución integral de copia de seguridad basada en la propuesta Calypso de la propia Bull. La convocatoria constaba de un tercer lote para la adquisición del necesario equipamiento de comunicaciones, en el que Satec resultó adjudicataria por 143.961 euros, encargándose así de desplegar las soluciones para garantizar las comunicaciones de cara al exterior y securizar asimismo el entorno.
Con ese doble objetivo, se instalaron en alta disponibilidad dos cortafuegos Cisco ASA, el sistema de detección de intrusiones Cisco IPS 4260 y un gestor de ancho de banda de Allot Communications.
Y es que la conectividad de este centro es doble. “Contamos con acceso a RedIRIS al compartir la línea de la Universidad y disponemos también de acceso a Internet con un ancho de 50 Mbps de arranque con una operadora comercial”. Telefónica ha resultado adjudicataria este año del concurso convocado por la FCSCL para la contratación de los servicios de acceso a Internet por un plazo de dos años y un importe de 55.513 euros. Y, también en 2010, la FCSCL ha adjudicado por 96.000 euros a la empresa Catón Sistemas Alternativos el concurso para la contratación de los pertinentes servicios de administración de sistemas HPC.
Cálculo intensivo con SLAs
Se trata este último de un punto clave teniendo en cuenta que la FCSCL tiene el compromiso de ofrecer sus servicios de computación con máximas garantías de seguridad, calidad y confidencialidad puesto que así lo exigen las empresas potencialmente usuarias. “Una empresa que, por ejemplo, quiere ejecutar un prototipo, no sólo demanda que se compute en tiempo y forma, sino que además el prototipo no salga de aquí”, apunta Ruiz-Falcó. No hay que olvidar, como precisa Ruiz-Falcó, que “a diferencia de otros centros de supercomputación, la FCSCL es un centro tecnológico en el que se desarrollan proyectos de investigación propios, pero es también un centro de servicios para cualquier entidad o empresa que necesite ejecutar servicios de cálculo y llevar a cabo proyectos que requieran de una capacidad de cálculo intensivo”.
En este sentido, entre los usuarios de la FCSCL encontramos tanto grandes empresas, como pymes que desarrollan labores de investigación en sectores como el farmacéutico, la biotecnología, la aeronáutica o la automoción, entre otros.
Para proporcionar este tipo de servicios se requiere de una serie de condiciones de seguridad física y también de unas políticas operativas avanzadas. En base a esa premisa y como señala Ruiz-Falcó, “estamos implantando la ISO 27001 de gestión de la seguridad de los sistemas de información y esperamos conseguir la certificación de Aenor a finales de este año”. La misma orientación implica asimismo que “nuestro objetivo no es tener la máquina saturada”, afirma Ruiz-Falcó, para argumentar que “en los centros de supercomputación con una orientación tradicional su justificación se basa en estar saturados de carga de trabajo, lo cual en nuestro caso nos impediría firmar los correspondientes acuerdos de calidad de servicio con las organizaciones clientes”.
Supercomputación pública y privada
Hasta el momento y de acuerdo con el director técnico de la FCSCL, Antonio Ruiz-Falcó, del total de los proyectos desarrollados en el superordenador Caléndula, la mitad son de carácter universitario y otra mitad empresariales. Respecto a este último ámbito, Ruiz-Falcó indica que “el mayor volumen de actividad corresponde a empresas de los sectores de la automoción, la informática y la industria farmacéutica, pero se cubren prácticamente todas las ramas de actividad”.
Así pues y desde su entrada en producción, el superordenador Caléndula ha llevado a cabo miles de trabajos que Ruiz-Falcó clasifica en dos grandes clases: “trabajos que corren en paralelo en muchos procesadores y durante muchas horas, y trabajos pequeños de media hora sobre un número de reducido de procesadores”. De esta última categoría, Caléndula ha resuelto en el último año, por ejemplo, más de 25.000 trabajos para una empresa farmacéutica.