“La capacidad de cálculo es siempre escasa por muy grande que sea”

Cuando se cumplen dos meses de la puesta en producción y la apertura a la comunidad investigadora del FinisTerrae, el director del Centro de Supercomputación de Galicia (CESGA), Javier García Tobío, explica a COMPUTING los orígenes, el presente y el futuro de un proyecto clave en la búsqueda de la excelencia en la ciencia computacional.

Publicado el 23 Jun 2008

11902_90

¿Cómo nace el proyecto FinisTerrae y cuál ha sido el impacto de su puesta en producción?
A finales de 2006 acordamos hacer una gran instalación y, puesto que no hablamos de una máquina ‘pret-a-porter’, había que diseñarla. Ésta fue una labor en la intervinieron técnicos e investigadores de HP, del CSIC de Galicia y del CESGA, coordinados por éste último. En el CESGA teníamos muy claro lo que necesitábamos, ya que por nuestro trabajo del día a día sabemos lo que necesitan nuestros investigadores. Nuestro listón en aquel momento estaba en un lugar determinado ya que la máquina más grande que teníamos era un SuperDome de HP con el que estábamos y estamos muy contentos. Pero el investigador que pedía más de 60 procesadores lo tenía difícil ya que suponía utilizar la mitad del SuperDome.
Hicimos el ejercicio de definir cómo debería ser esa nueva máquina, la que nos gustaría tener, sin pensar en los condicionamientos económicos y dibujamos el FinisTerrae. Al hacer los números, pensamos que era imposible, pero asumimos el reto e, inmediatamente, tanto la Xunta de Galicia como el CSIC (a través de su presidencia y, explícitamente, de su vicepresidente José Manuel Labastida) nos apoyaron puesto que el proyecto encajaba dentro de su política de descentralización, creación de herramientas que vertebren el sistema de investigación en España y colaboración con las instituciones. Por otro lado, la Xunta había determinado constituir cuatro Centros de Excelencia en Investigación en Galicia y al mismo tiempo apareció HP, que es nuestro socio tecnológico y proveedor desde 2001.

¿Desde la compra de los primeros Alpha a Compaq?
Así es. Todavía hoy los Alphas son de las mejores máquinas que tenemos en el CESGA. Hay investigadores agarrados a ellas que no hay forma de sacarlos de ahí, en gran medida porque en ellas corren los códigos que utilizan. Pero esos 6 o 7 investigadores están avisados de que si un día se rompe esa máquina, ya no tenemos mantenimiento de HP.

¿Cómo evolucionó el proyecto con esos apoyos?
Constituimos un comité porque, aunque en el CESGA sabíamos bien lo que queríamos, teníamos que contrastarlo, había distintas opciones y era necesario objetivizar al máximo la información. Los profesores de Supercomputación de las tres Universidades gallegas, el Consejo Superior de Investigaciones Científicas y el Cesga trabajamos intensamente bajo mi dirección durante cinco o seis meses más para desarrollar el proyecto científico y asegurarnos de que no nos equivocábamos.
Mientras tanto, y al tiempo que se organizaban los concursos correspondientes, HP e Intel nos ofrecieron su apoyo porque el proyecto también coincidía con sus intereses. En aquel momento los Itanium tenían que acabar de demostrar de lo que eran capaces. Teníamos un SuperDome con Itanium con el que estábamos muy satisfechos y queríamos más.
Llegar a determinar la arquitectura no fue trivial, hubo muchas discusiones, excepto en lo que se refería a una de sus principales característica: memoria, memoria y memoria. Pero no sabíamos si utilizaríamos un tipo de red u otro, y cual sería finalmente la arquitectura de memoria compartida, nodos más grandes, más pequeños…Después de mucho trabajo y con el apoyo de HP e Intel hemos llegado hasta aquí y tenemos una máquina que es singular en muchos aspectos.

¿Cuáles son las características diferenciales del FinisTerrae respecto a otros superordenadores?
El FinisTerrae sigue siendo hoy la única máquina de supercomputación con unas características significativas que permite correr simultáneamente múltiples sistemas operativos. Tenemos Unix, porque todavía hay códigos que corren en HP-UX; tenemos Linux y hemos decidido que fuese Suse aunque podría ser Red Hat o cualquier otro; y corremos Windows. Linux y Unix ya eran parte de los supercomputadores, pero también hay que tener en cuenta a Windows. La combinación Windows con Intel interesa mucho tanto a los fabricantes como a nosotros.

¿Qué sistemas corren sobre Windows en el FinisTerrae?
Windows no es hoy una plataforma en la cual estemos corriendo códigos muy grandes. Más del 90 por ciento de lo que estamos corriendo lo hace en Linux y animamos a todos los investigadores a que nos traigan sus códigos para correr sobre Linux y, si no es así, les ayudamos a portarlos. Por otro lado, hay algunos histéricos que todavía prefieren Unix, por ejemplo, los que utilizan el Gaussian 98, que estaban en Unix, vamos a continuarlo en Unix y pretendemos que acaben su vida en Unix. Pero Windows significa lo que puede venir. Por un lado, Microsoft está haciendo inversiones importantes y mantiene una apuesta decidida por el mundo de la supercomputación y, por otro lado, hay algunos investigadores que nos traen sus códigos o sus licencias de software con Windows y si no disponen de esa plataforma no les sirve para nada y les obligamos a comprar otra licencia de software, algo que es contrario a nuestra vocación de facilitar la vida al investigador.
Hasta ahora veníamos resolviendo esa problemática con una workstation corriendo Windows Server; pero Microsoft tiene interés en entrar decididamente en el mundo de la supercomputación y los grandes sistemas. Además Intel está interesado en que Microsoft funcione mejor sobre Itanium y para HP eso significa ampliar su mercado; de modo que hay mucho por hacer. Itanium y Windows tienen que afinarse muchísimo y el CESGA pretende colaborar con HP, con Microsoft y con Intel porque conocemos muy bien las herramientas de compilación y de tunning; así como los problemas que nos encontramos con Windows.

¿Cuándo se presentó el FinisTerrae la apuesta por Linux era clara?
Sí y no, también teníamos un ojo en Windows. Nosotros somos absolutamente partidarios del software abierto porque nos gusta tocar el código y, de hecho, es necesario para optimizar y sacar todo el rendimiento de las arquitecturas. Un código cerrado por definición no nos gusta, pero tenemos la posibilidad y la certeza de que Windows nos va a abrir su código.

De hecho, ¿ya existe un acuerdo en ese sentido con el CSIC?
Claro. Si no fuese así, el progreso que podríamos hacer sería bastante corto. No hablamos de un PC, que si se atasca, apago y enciendo; no puedo apagar y encender el FinisTerrae. No puedo quedarme mirando al techo pensando en lo que le estará pasando a la máquina, hay que utilizar las herramientas disponibles y determinar donde están los problemas para solucionarlos. Es un tema que Microsoft entiende muy bien, pero hay cuestiones delicadas como son las licencias, el acceso al software y ciertas reglas de juego que tiene Microsoft que hay que cumplir. Todavía no hemos firmado un convenio con Microsoft, pero estamos en líneas de conversación.

¿Se enmarcan esas conversaciones dentro del acuerdo más global entre Microsoft y el CSIC?
No, es un acuerdo al margen y el CSIC, que en un plazo breve elevará al 50 por ciento el 30 por cien que hoy tiene en el CESGA, es un conocedor de este acuerdo y de nuestra relación directa con Microsoft.

Volviendo al FinisTerrae, ¿qué otras características le distinguen?
Otro de los puntos singulares de la arquitectura son los nodos. El FinisTerrae tiene algo más de 2.500 cores de cálculo –aparte del almacenamiento- que se agrupan en nodos. El nodo más pequeño del FinisTerrae tiene 16 cores y 128 Gbytes de memoria, y el más grande tiene 128 cores y 1 Tbytes de memoria.
Sabemos que gran parte de los procesos de los investigadores se pueden resolver en 1, 2 o 3 nodos y de esta forma reducimos al máximo el viaje por las redes de interconexión de los nodos.
Aunque tenemos la red más rápida que existe hoy -InfiniBand a 20 Gbps-, no tiene nada que ver el tiempo que necesito para ir a la memoria de al lado que el tiempo que se utiliza para ir a la memoria del próximo nodo, de forma que procuramos utilizar la red de interconexión lo estrictamente necesario. Por ese mismo motivo, no tenemos muchos grandes nodos ya que, a día de hoy, gran parte de los códigos importantes se pueden resolver utilizando sólo el nodo más grande, que tiene 128 procesadores y 1 Tb de memoria. Esto significa que sin pisar para nada lared el investigador puede hacer grandes descubrimientos.

¿No sucede lo mismo en otros centros de supercomputación?
En el CESGA y en todos los centros de supercomputación existen, como poco, dos arquitecturas de cálculo. Una es de memoria distribuida, como aquí sucede con los clusters que suman unos 2.000 procesadores interconectados a través de una red Gigabit o Mirinet y donde en cada nodo hay 1, 2 o 4 procesadores, disponiendo de nodos de medio Gb y nodos de hasta un máximo de 8 Gb de memoria. Esa arquitectura es la ideal para muchos pequeños proyectos, como los que utilizan Física de Partículas, el Método de Montecarlo, etc.; es decir, pequeños programas que se realizan millones de veces. Sin embargo, una arquitectura como la de FinisTerrae es para pocos grandes proyectos.
Por otro lado y dado que la capacidad de cálculo es siempre escasa por grande que sea, tenemos los grids, que son clusters de memoria distribuida, pero distribuidos geográficamente; y además, trabajamos intensamente con las cloud, las nubes.

¿Qué puertas abre el emergente Cloud Computing?
Tenemos que ingeniárnoslas para buscar potencia de cálculo en cualquier lugar de este planeta al coste más reducido posible. El CESGA participa en 7 u 8 grids en producción, entre ellos los más grandes como el EGEE y el EUMedGrid. De hecho, los tecnólogos e investigadores del CESGA no sólo han participado en el desarrollo del EGEE, también gestionamos la monitorización y la contabilidad del EGEE, es decir, que monitorizamos y contabilizamos lo que está sucediendo en 40.000 CPUs distribuidas por todo el mundo.

Comentaba que la arquitectura del FinisTerrae es para pocos pero grandes proyectos. ¿Podría comentar algunos de los actualmente en desarrollo? ¿En qué campo se encuadran y cuál es la capacidad máxima que han llegado a utilizar?
Son trabajos que pertenecen a grupos de investigación y son ellos los que deben mencionarlos. No obstante, puedo decir que hemos llevado a cabo retos de supercomputación en campos como los algoritmos matemáticos que han permitido, por ejemplo, dar con la solución de los Puntos de Fekete. También se han hecho grandes avances en el diseño de nuevos materiales. En conjunto, hay 5 grandes proyectos que utilizaron en torno a 1.000 procesadores y algunos de ellos más de 10 Tb de memoria.

¿Cómo valora el estado actual de la denominada Red Española de Supercomputación?
Existe una iniciativa del Ministerio de Ciencia e Innovación que es la Red de eCiencia de España, liderada por el profesor Vicente Hernández, con el que trabajamos intensamente. Con la Red Nacional de eCiencia se pretenden coordinar todos los esfuerzos de computación en sus diferentes sabores en España para ofrecer el mejor servicio a la comunidad investigadora española y competir a nivel internacional. Ahí, la Red Española de Supercomputación tiene, sin lugar a dudas, su papel; igual que lo tienen los Centros de Supercomputación autonómicos, el CESCA en Cataluña, el CICA en Andalucía, el CESGA en Galicia y los que ya anunciaron su incorporación como Murcia o León, amigos con los que ya tenemos tendidos puentes de colaboración. El interés del Ministerio no se limita a la supercomputación en tanto ésta se encuentra ligada al grid, la actividad del middleware y la red de comunicaciones RedIris. Se trata de una iniciativa que, por supuesto, apoyamos; creemos absolutamente en ella y esperamos que produzca las sinergias necesarias para mejorar nuestro I+D.

Sin embargo, por ahora son pocos los proyectos conjuntos…
La Red Española de Supercomputación tiene una estructura y un protocolo de actuación que tendrá que revisarse para que podamos incorporarnos otros centros. Es un protocolo de actuación que obedecía a la casuística de aquel momento, pero hay que abrir sitio en esa red para que entre el FinisTerrae y cualquier otro. Y hay que hacerlo sin romper nada ya que es una red operativa. Espero que seamos entre todos capaces de hacer una red más amplia.

¿Qué te ha parecido este artículo?

La tua opinione è importante per noi!

Redacción

Artículos relacionados

Artículo 1 de 3