Cluster GPU Jazz

In linea con la politica d’avanguardia storicamente seguita dal CASPUR nel campo della ricerca ed innovazione tecnologica, nel 2010 il Consorzio ha acquistato e messo in opera un nuovo sistema di calcolo ad alte prestazioni basato sugli acceleratori grafici NVIDIA Fermi. Il cluster Jazz è nato come realizzazione delle ultime tendenze in termini di integrazione tra le risorse di calcolo tradizionali e le nuove piattaforme basate sui processori grafici (Graphics Processing Unit, GPU).

Il cluster Jazz si è distinto al primo posto in Europa e al quinto posto al mondo nella classifica Little Green 500 (pubblicata a Novembre 2010), caratterizzando CASPUR come uno dei centri di supercalcolo più ecologicamente sostenibili del pianeta.
Il cluster, recentemente ampliato con 8 nuovi nodi di tipo tradizionale, è un cluster Linux costituito da:
  • un front-end (louis.caspur.it) con 2 GPU
  • nodi di calcolo con 2 GPU (ella001-ella016)
  • nodi di calcolo memory-oriented (woody001-woody008).
Ogni nodo è dotato di 48 o 96 GB di memoria connessa a due unità Intel Xeon esacore con una velocità di clock pari a 2.80GHz e basati sull'architettura Nehalem. La nuova tecnologia QPI di Intel di cui sono dotati permette tra le altre cose una comunicazione efficiente tra le diverse CPU e, per i nodi con GPU, con i dispositivi di accelerazione.
Il cuore computazionale dei nodi del cluster è rappresentato da  due schede NVIDIA Tesla serie 20 con tecnologia Fermi, ognuna delle quali è capace di raggiungere una potenza di calcolo fino ad 1 Tflops. Tale potenza è possibile grazie all’elevato parallelismo che l’hardware di queste schede grafiche raggiunge e alle velocità di comunicazione interne alla scheda tra core computazionali e memoria che, nel migliore dei casi, può raggiungere il terabyte per secondo. La famiglia dei prodotti Tesla con tecnologia Fermi, che è orientata ad un’utenza di alto livello e specifica per il calcolo, garantisce, oltre alle prestazioni appena descritte, la coerenza e la stabilità dei risultati prodotti attraverso un meccanismo di controllo dell’errore sul singolo bit di memoria. Grazie alla tecnologia GPUDirect di NVIDIA e alle connessioni QDR InfiniBand tra i nodi del cluster, Jazz permette di estendere problemi di taglia particolarmente grande su più nodi del cluster garantendo velocità di comunicazione elevatissime (fino a 40 Gb/s).
I nodi di calcolo woody dispongono di 96 GB di memoria e connessioni QDR InfiniBand. Sono dedicati ad applicazioni memory-intensive quali, ad esempio, programmi di sequenziamento del genoma.

Nel suo complesso il cluster è potenziato da Lustre, un filesystem parallelo distribuito ad alte prestazioni in grado di supportare reti di cluster con migliaia di nodi e petabyte di dati da immagazzinare. Il filesystem, al momento di 230 TB, risiede su due storage enterprise CX4-960 ed è servito da 10 server dedicati.
Sono a disposizione dell'utenza sul cluster Jazz:
  • un sistema di code, basato su Torque + Moab, che garantisce un uso ottimale delle risorse di calcolo disponibili
  • un sistema che gestisce l'accreditamento e il bilancio in ore di calcolo dell'utente, basato su Gold;
  • un ambiente di sviluppo (compilatori e librerie) in continuo aggiornamento
  • una vasta collezione di software professionali per il calcolo scientifico ottimizzati al fine di sfruttare al meglio le potenzialità offerte dagli acceleratori grafici
Il CASPUR fornisce inoltre un servizio di supporto specializzato tramite forum, una mailing list, e un'estesa documentazione disponibile sul portale dedicato al supporto HPC.