Speaker
Description
La sezione di Padova (assieme ai Laboratori Nazionali di Legnaro) è da tempo dotata di un’infrastruttura Cloud (CloudVeneto) federata con la Cloud nazionale dell’INFN (INFN Cloud), in grado di supportare varie richieste di calcolo scientifico di diverse comunità. Recentemente, abbiamo integrato questa infrastruttura con le le risorse finanziate dal progetto PNRR Terabit. Quest’ultimo ha tra i suoi obiettivi la creazione delle cosiddette HPC Bubbles, infrastrutture di calcolo ad alte prestazioni distribuite in diversi centri di calcolo dell’INFN.
Padova è stata la prima sede INFN a mettere in produzione una HPC Bubble ovvero un cluster ad alte prestazioni, ideale per calcoli intensivi, grazie alla combinazione di nodi CPU e GPU con interconnessione a bassa latenza. Il cluster, composto da 6 nodi con sole CPU e 6 nodi CPU-GPU (collegati tra loro attraverso una rete Infiniband), fornisce complessivamente circa 2300 core fisici, 18 TB di memoria RAM e 24 GPU NVIDIA H100.
Abbiamo deciso di gestire le risorse HPC attraverso un batch system basato su SLURM, che consente la gestione flessibile dei carichi di lavoro. Attualmente, il cluster è utilizzato con successo da diversi utenti per attività di calcolo HPC, dimostrando stabilità ed efficienza.
Date le funzionalità offerte e la semplicità di utilizzo, alcuni gruppi hanno deciso di finanziare risorse aggiuntive al cluster.
In questo talk presenteremo l’architettura del cluster, le soluzioni storage adottate, la gestione software, le politiche di accesso, i tool utilizzati per la gestione del sistema e del suo monitoraggio. Parleremo inoltre dell'integrazione tra questo cluster HPC e l'infrastruttura CloudVeneto. Infine, discuteremo dei primi utilizzi di questo cluster, sia per casi d’uso di progetti PNRR, sia da parte di utenti che utilizzano queste risorse in modalita' opportunistica.