Cells Alba, almacenamiento y gestión de datos a velocidad de luz sincrotrón

El acelerador de partículas Sincrotron Cells Alba ha desplegado una solución de almacenamiento en la que convergen la tecnología de Hitachi Data System (HDS), Overland y Atempo para responder a los altos requerimientos de almacenamiento y gestión de datos asociados al desarrollo de las investigaciones que se llevan a cabo en esta innovadora instalación científica.

Publicado el 03 Oct 2011

72065_63

El hermano pequeño del Gran Colisionador de Hadrones (LHC), el Sincrotrón Cells Alba, alojado en un singular edificio circular de 140 metros de diámetros localizado en Cerdanyola del Vallés (Barcelona) y conocido como el sincrotrón español, tiene un aliado de primer orden en las TIC. Y es que de poco serviría esta innovadora infraestructura científica de no disponerse de los sistemas TI capaces de gestionar, almacenar y facilitar el acceso a la información de los posibles experimentos que abre este gigante aplicado a la aceleración de partículas al permitir la observación de las estructuras moleculares a modo de un potentísimo microscopio.   Denominado Alba por la luz que genera -el pasado marzo se hicieron las primeras pruebas- y Cells a razón del Consorcio Cells (Consorcio para la Construcción, Equipamiento y Explotación del Laboratorio de Luz Sincrotrón) que lo impulsa y del que forman parte el Gobierno de España y la Generalitat de Catalunya, el Sincrotrón Cells Alba constituye una decidida apuesta por la investigación científica que ha contado con una inversión inicial aproximada de 200 millones de euros. Tal y como explica el jefe de Sistemas de Sincrotron Cells Alba, Joachim Metge, “Cells Alba es un laboratorio para el desarrollo de investigaciones en muy diversos campos, se trata de un acelerador de partículas que produce radiación sincrotrón, es decir, con un amplio espectro de radiación electromagnética que va más allá de la región propia de los rayos X”.
Con una plantilla de alrededor de 150 empleados, el valor del Sincrotrón Cells Alba radica justamente en la luz sincrotrón en cuanto que su espectro, al cubrir frecuencias en las que no existen otros recursos, permite la realización de experimentos imposibles de llevar a cabo de otra forma. “Los experimentos que se realizan utilizando tubos de rayos X pueden mejorarse por varios factores de magnitud con la aportación de imágenes con mejor contraste, menor tiempo de exposición y con la posibilidad de utilizar muestras más pequeñas”, destaca Metge.   Dentro del Sincrotrón Cells Alba, la luz sincrotrón se deriva a diferentes estaciones de trabajo o ‘beamlines’ en las que se realizan las investigaciones pudiendo obtenerse imágenes con una calidad radiográfica -de una milésima por una milésima de milímetro de sección.   El proyecto del Sincrotrón Cells Alba contempla la construcción de más de 30 estaciones experimentales alrededor del anillo de almacenamiento, un tubo circular de unos 270 metros de perímetro que ya ha sido instalado y en el que los electrones se mantienen dando vueltas de forma constante permitiendo el desarrollo de muy diversas investigaciones. De hecho y tras las pruebas del pasado marzo, este mismo mes el Sincrotrón Cells Alba realiza el primer llamamiento para la presentación de propuestas, estando previsto que los primeros experimentos oficiales se planifiquen a partir de marzo de 2012 en adelante.   Con esas miras y en el marco de una primera fase, “estamos construyendo siete estaciones dedicadas a diferentes tipos de experimentos”, detalla Metge, para comentar que las aplicaciones más comunes “se relacionan con la cristalografía macromolecular, la absorción espectroscópica o la microscopía en campos de investigación que van desde la física, la biología, la química y la ciencia de los materiales, hasta el arte, la medicina y la paleontología”.

El aliado de las TIC
En el paso que está dando esta instalación científica para dejar de ser proyecto y convertirse en realidad, las TIC juegan un papel revelante. Y es que, como en cualquier otra instalación de investigación, sin las TIC serían imposibles las actividades del Sincrotron Cells Alba, ya sea en la vertiente de gestión o en la de investigación.   En el primer ámbito, en el Sincrotrón Cells Alba nos encontramos con un conjunto de soluciones de software de base, muchas de ellas de código abierto, como OpenLDAP, MySQL, Plone/Xope, Postfix, (Cyrus), OpenRadius y Apache; si bien en la parte específica de contabilidad, Cells Alba hace uso de la solución SAP BO adaptada a los requerimientos propios de un organismo público.
  En la vertiente científica y específicamente para el control del acelerador y los experimentos se ha optado por la tecnología de Tango en base a un acuerdo de colaboración entre varios centros de investigación. Y en el estrictamente científico conviven diferentes aplicaciones: desde CCP4, GDfidL y Fluka hasta MatLab y Microwave Studio, pasando por XOP y SHADOW, entre otras.   A nivel de infraestructuras, los sistemas de almacenamiento resultan críticos para el buen funcionamiento del Sincrotrón Cells Alba puesto que la tecnología de detección avanza a una gran velocidad y los sistemas de almacenamiento tienen que dar respuesta a esta progresión. “Hace años”, recuerda Metge, “se preveía contar con sistemas de detección con una capacidad de 300 Mbps de datos y en la actualidad ya se están desarrollando detectores con unos ratios de generación de datos de 1 Gbps y superiores”.   En el caso concreto del Sincrotron Cells Alba, “los sistemas de detección de varias de las estaciones experimentales serán capaces de generar, cada una de ellas, más de 300 Mbps de datos experimentales”.

Avalancha de datos
Ante esos ingentes volúmenes de datos resultaba imperativo disponer de un sistema de almacenamiento en la órbita Petabyte. Además y como puntualiza Metge, “estas ingentes cantidades de datos no solo requieren de espacio de almacenamiento, sino que también exigen disponer de un sistema que permita una fácil gestión para mantener los esfuerzos aplicados a la administración de sistemas a un nivel relativamente bajo”.
  Con esas miras y en aras de la simplificación, el Sincrotrón Cells Alba ha apostado por un sistema de almacenamiento centralizado. Y es que, más allá de los puntos a favor mencionados antes, “la existencia de recursos de almacenamiento descentralizados e independientes para cada una de las estaciones de experimentación sería una pesadilla desde el punto de vista de la administración”.   No es extraño, por tanto, que el proyecto de almacenamiento, previsto desde los orígenes del proyecto del Sincrotrón Cells Alba, sea uno de los proyectos TI de más envergadura de la instalación científica.   Dado que originalmente estaba previsto que los primeros experimentos generaran datos a lo largo de 2011, el proyecto de almacenamiento se lanzó en 2009 y, de hecho, la iniciativa se abordó poco tiempo después de finalizarse la construcción del edificio y cuando empezaron a montarse los aceleradores.   La iniciativa se estructuró en varias fases, empezando por el análisis de las soluciones disponibles en el mercado, que se prolongó seis meses. Metge recuerda que se evaluaron las soluciones de los principales proveedores de almacenamiento -IBM, HP, DDN, Oracle/Sun/StorageTek, EMC, Pillar, HDS/BlueArc, NetApp, Panasas, SGI, Isilon, etc., enumera el técnico- y de entre todos ellos “sólo unos pocos fueron capaces de tratar con volúmenes de datos con unos ratios de 300 Mbps hacia y desde un único sistema cliente”.   Asimismo, se estableció contacto con los departamentos de TI de otros sincrotrón de cara a conocer las demandas en materia de almacenamiento y posteriormente se publicó una oferta pública, que se prolongó tres meses. Durante la fase de negociaciones algunos de los proveedores ofrecieron la posibilidad de evaluar sus sistemas, lo que motivó según Metge, que “esta fase tuviera una duración relativamente larga en el tiempo, concretamente de ocho meses”.
  Finalmente el Sincrotrón Cells Alba apostó por el sistema de almacenamiento on line HNAS 3200 de HDScon conectividad LAN a 10 Gbps (cuatro conexiones, ofreciendo un agregado de 40 Gbps) para los protocolos CIFS y NFS, y una capacidad de 250 Tb. En cuanto al software de backup la balanza se inclinó hacia la tecnología de Atempo, de la cual el Sincrotrón Cells Alba tenía conocimiento través de los colegas del sincrotrón europeo ESRF, localizado en Grenoble (Francia), donde el software de Atempo funciona desde hace 15 años.   La solución se completa con una librería de cinta Overland Neo 8000 con un total de 400 cintas LTO5 que se aplica tanto al archivo como al backup. “Esta combinación de soluciones”, celebra Metge, “nos permite tratar con flujos de datos en el almacenamiento on line superiores a 2Gbps en conjunción con un robusto sistema de archivo y backup”.   En este entorno, la solución ADA de Atempo gestionará inicialmente el archivado de 250 Tb de almacenamiento on line para datos experimentales y llevará a cabo la migración de dichos datos a cintas a una velocidad de 600 Mbps, a fin de liberar el almacenamiento online para los experimentos de los usuarios. Metge explica que tras los experimentos realizados se ha determinado que “normalmente los datos se almacenarán durante 30 días en disco y modo on line para, pasado ese tiempo, trasladarlos a la librería de cinta donde serán archivados durante un tiempo nunca inferior a 6 meses”.   La protección de los datos y la salvaguarda de las carpetas de trabajo de los usuarios quedan garantizadas con la solución de backup/restauración Time Navigator, que se encarga de la salvaguarda de los directorios de los usuarios con funcionalidades de codificación, firma, gestión de clave jerárquica, etc. De esta forma, cada usuario dispondrá de su espacio conectado vía red a las NAS a través del protocolo NFS/CIFS. Actualmente, el Sincrotrón Cells Alba dispone de 30 Tb de almacenamiento on line para los usuarios y otros servicios de base como el correo electrónico.

600 Mbps a 10 GbE
Aunque todavía se encuentra en fase de despliegue, el sistema de almacenamiento on line de HDS será capaz de dar respuesta a los requerimientos del Sincrotrón Cells Alba. “A raíz de las pruebas llevadas a cabo previamente, tenemos constancia de que podemos almacenar 600 Mb/s o más de datos desde un único cliente NFS con una conexión superior a 10 Gigabit Ethernet (GbE)”.   Eso es posible, entre otras cosas, a que el rendimiento de las interfaces a 1 GbE se ha multiplicado por dos en comparación con la anterior solución de almacenamiento existente. Y, gracias a ello, ya se han migrado multitud de particiones y directorios al nuevo sistema con buenos resultados.   En cuanto a la solución de Atempo, de cuya instalación se encargó el integrador Flytech, en el Sincrotrón Cells Alba se valoran sobre todo tres aspectos: su capacidad de integración, su fácil instalación y sus posibilidades de adaptación. “El software de Atempo trabaja muy bien en conjunción con el hardware de HDS y Overland, las aplicaciones cliente son de fácil instalación y nos ofrece toda la libertad que necesitamos a la hora de adaptarlo a nuestras necesidades”.   En este mismo entorno y para eliminar las cargas de datos en la red con la posibilidad de realizar ‘snapshots’ reduciendo la carga de trabajo de los administradores del sistema, se ha optado por utilizar el protocolo abierto Network Data Management Protocol (NMPD). De esta forma y como destaca Metze, “los usuarios pueden recuperar fácilmente los archivos que pudieran haber eliminado de forma accidental”.   Por último y respecto a los usuarios externos -finalmente los clientes del Sincrotrón Cells Alba-, el jefe de Sistemas de Sincrotrón Cells Alba pone el acento en el acceso ya que “con todas las posibilidades que nos ofrece el software de Atempo, nuestros usuarios externos tendrán la capacidad de acceder a sus datos utilizando una simple interface web”.

Alta disponibilidad con posibilidad de crecer
La plataforma HNAS 3200 del Sincrotrón Cells Alba está formada por dos nodos en configuración cluster para ofrecer alta disponibilidad y un rendimiento agregado a la altura de las expectativas de la infraestructura de investigación científica.   Se trata de sistemas de la gama modular AMS 2500 de Hitachi Data System (HDS) con 140 Tb netos cada uno, ofreciendo un total de 280 Tb netos para satisfacer unas necesidades primarias estimadas en 250 Tb de datos para los experimentos y 30 Tb adicionales para los directorios de usuarios.   Así, pues, aunque el cluster está inicialmente formado por dos nodos en configuración activo/activo, está preparado para crecer hasta ocho nodos dentro del mismo cluster, ofreciendo un rendimiento agregado de crecimiento lineal en comunicaciones NFS/CIFS/iSCSI.

¿Qué te ha parecido este artículo?

La tua opinione è importante per noi!

S
Lola Sánchez

Artículos relacionados