Speaker
Description
Il centro di calcolo ReCaS-Bari ha arricchito il proprio portfolio di servizi fornendo ai propri utenti un nuovo cluster HPC/GPU tramite il quale poter eseguire applicazioni complesse che richiedono l’impiego di una infrastruttura di calcolo massicciamente parallela. Il cluster è equipaggiato con risorse hardware di ultima generazione, come le schede grafiche Nvidia V100 e A100, ideali per tutte quelle applicazioni che, nativamente, sono in grado di adattare il proprio parallelismo all'hardware a disposizione. Esempi sono le applicazioni basate sull’Intelligenza Artificiale, sulla simulazione di modelli complessi (previsioni meteo, previsioni terremoti, formazione galassie e dinamica delle molecole) e tutte quelle applicazioni utilizzanti un elevato numero di operazioni in virgola mobile. Il cluster è formato da 10 macchine che mettono a disposizione complessivamente 1755 core, 13.7 TB di RAM, 55 TB di spazio disco locale e 38 GPU ad altissime prestazioni (18 Nvidia A100 e 20 Nvidia V100). Le applicazioni sono eseguite esclusivamente tramite Docker container (eseguito nativamente), tecnologia che conferisce semplicità di configurazione ed esecuzione, affidabilità, flessibilità e sicurezza. L'utente può richiedere (sia via APIs sia tramite semplici interfacce grafiche) l'istanziazione di servizi interattivi, come IDE utilizzabili da remoto (Jupyter Notebook e RStudio), e la sottomissione di workflow rappresentabili con Directed Acyclic Graphs (DAG). La gestione delle applicazioni di lunga durata (long running services) e la sottomissione dei job è affidata a Marathon e Chronos, due framework che lavorano in stretto contatto con Apache Mesos, che aggiunge caratteristiche come alta affidabilita’, robustezza ai guasti e sicurezza e la capacità di gestire le risorse disponibili nel cluster e le richieste da parte degli utenti. La soluzione tecnologica implementata consente all’utente di continuare ad accedere ai propri dati sia dal cluster HTC (basato su HTCondor) sia dal questo cluster HPC/GPU basato su Mesos. In questo contributo verranno presentate e discusse le risorse e le soluzioni tecnologiche utilizzate per renderle disponibili attraverso il cluster HPC/GPU di ReCaS-Bari. Verranno anche brevemente illustrati alcuni dei primi esempi di utilizzo del cluster da parte dei gruppi di ricerca della Sezione.