Speakers
Description
L’uso delle GPU sta diventando sempre più richiesto nel campo del calcolo scientifico e dei Big Data, in particolare per le applicazioni di machine learning e di simulazioni numeriche, dovuto alla sua capacità di accelerare in maniera significativa le applicazioni.
Tuttavia, l'accesso alle GPU non è sempre facile per via del loro costo e di alcune limitazioni intrinseche che rendono difficile la loro adozione in tutti i centri di calcolo.
INFN Cloud offre la possibilità di accedere a risorse di calcolo dotate di GPU ad alte prestazioni in modo semplice ed immediato, attraverso alcuni servizi di alto livello presenti nel catalogo. Uno di questi è l’ambiente di calcolo per il progetto ML_INFN, basato su JupyterHub, che consente agli utenti di creare notebook che hanno accesso ad hardware specializzato (al momento della creazione del servizio la GPU puo’ essere selezionata tra vari modelli disponibili). La configurazione dell’ambiente è completamente automatizzata e include l’installazione dei driver necessari per usare le GPU. Per sfruttare al massimo in maniera efficiente le risorse disponibili, chi istanzia il servizio può anche decidere di partizionare la singola GPU (è questo il caso delle Nvidia A100) in modo da assicurare la possibilità a più utenti di condividere la potenza di calcolo della singola GPU.
Recentemente è stata introdotta anche la possibilità di configurare cluster Kubernetes che hanno sia nodi solo CPU che nodi con GPU per supportare use-case che richiedono l’esecuzione di workload misti (su processori e GPU) su un’architettura distribuita e scalabile.
Kubernetes ha un ruolo sempre più importante nel panorama del calcolo scientifico, grazie alla sua capacità di gestire in modo efficiente, scalabile e resiliente l'esecuzione di applicazioni e servizi containerizzati. D’altro canto, l'installazione di un cluster Kubernetes da zero può essere un'attività molto complessa e richiedere molte ore di lavoro, soprattutto per chi non ha una conoscenza approfondita di Kubernetes e delle tecnologie correlate.
INFN Cloud fornisce la possibilità di istanziare on-demand cluster Kubernetes completamenti equipaggiati (incluso il monitoraggio delle risorse e dei container con soluzioni basate su Prometheus e Grafana). L’installazione e configurazione del cluster è completamente automatizzata tramite TOSCA template e ruoli ansible e il servizio è istanziabile attraverso la Dashboard di INFN Cloud con pochi click.
Il presente poster fornirà una overview dell’architettura dei servizi descritti e di come l’Orchestratore della PaaS è in grado di schedulare i deployment sulle cloud che forniscono le GPU come risorse di calcolo aggiuntive alle CPU.