23–27 May 2022
Hotel Ariston
Europe/Rome timezone

The new GPU-based HPC cluster at ReCaS-Bari

25 May 2022, 08:30
25m
Sala Saturno (Hotel Ariston)

Sala Saturno

Hotel Ariston

Via Laura, 13 - Capaccio-Paestum (SA)
Presentazione orale Tecnologie ICT (Harware e Software) Tecnologie ICT Hardware e Software

Speaker

Gioacchino Vino (INFN Bari (IT))

Description

Il centro di calcolo ReCaS-Bari ha arricchito il proprio portfolio di servizi fornendo ai propri utenti un nuovo cluster HPC/GPU tramite il quale poter eseguire applicazioni complesse che richiedono l’impiego di una infrastruttura di calcolo massicciamente parallela. Il cluster è equipaggiato con risorse hardware di ultima generazione, come le schede grafiche Nvidia V100 e A100, ideali per tutte quelle applicazioni che, nativamente, sono in grado di adattare il proprio parallelismo all'hardware a disposizione. Esempi sono le applicazioni basate sull’Intelligenza Artificiale, sulla simulazione di modelli complessi (previsioni meteo, previsioni terremoti, formazione galassie e dinamica delle molecole) e tutte quelle applicazioni utilizzanti un elevato numero di operazioni in virgola mobile. Il cluster è formato da 10 macchine che mettono a disposizione complessivamente 1755 core, 13.7 TB di RAM, 55 TB di spazio disco locale e 38 GPU ad altissime prestazioni (18 Nvidia A100 e 20 Nvidia V100). Le applicazioni sono eseguite esclusivamente tramite Docker container (eseguito nativamente), tecnologia che conferisce semplicità di configurazione ed esecuzione, affidabilità, flessibilità e sicurezza. L'utente può richiedere (sia via APIs sia tramite semplici interfacce grafiche) l'istanziazione di servizi interattivi, come IDE utilizzabili da remoto (Jupyter Notebook e RStudio), e la sottomissione di workflow rappresentabili con Directed Acyclic Graphs (DAG). La gestione delle applicazioni di lunga durata (long running services) e la sottomissione dei job è affidata a Marathon e Chronos, due framework che lavorano in stretto contatto con Apache Mesos, che aggiunge caratteristiche come alta affidabilita’, robustezza ai guasti e sicurezza e la capacità di gestire le risorse disponibili nel cluster e le richieste da parte degli utenti. La soluzione tecnologica implementata consente all’utente di continuare ad accedere ai propri dati sia dal cluster HTC (basato su HTCondor) sia dal questo cluster HPC/GPU basato su Mesos. In questo contributo verranno presentate e discusse le risorse e le soluzioni tecnologiche utilizzate per renderle disponibili attraverso il cluster HPC/GPU di ReCaS-Bari. Verranno anche brevemente illustrati alcuni dei primi esempi di utilizzo del cluster da parte dei gruppi di ricerca della Sezione.

Primary authors

Alessandro Italiano (Istituto Nazionale di Fisica Nucleare) Domenico Elia (Istituto Nazionale di Fisica Nucleare) Giacinto Donvito (Istituto Nazionale di Fisica Nucleare) Gioacchino Vino (INFN Bari (IT)) Marica Antonacci (Istituto Nazionale di Fisica Nucleare)

Presentation materials