AI_INFN Technical meeting – Minutes and actions
Date: 2024-02-05
Nessuna presentazione.
Tracked developments:
Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)
- Create 4 VM su OpenStack di Cloud@CNAF per:
- master
- storage (distribuito tramite NFS)
- A100
- cpu-only
- Il nodo A100 è stato temporaneamente collegato ad altro cluster RKE2 per studi sul partizionamneto. Il nodo sarà reinizializzato in serata.
- Il nodo storage è stato separato dal master per mitigare il rischio di eviction dei servizi per disco pieno.
- Richiesto dominio https://hub.ai.cloud.infn.it tramite cloud-support.
- Un secondo nodo A100, attualmente in uso da Virgo/RM1 sarà liberato in settimana per essere integrato nel nuovo cluster.
- Si propone di partizionare entrambe le A100 in 7 partizioni da 10 GB ciascuna.
- La discussione sull’automazione (Ansible+Dashboard) è stata avviata ma è ancora sospesa.
- L’obiettivo per la prossima settimana è avere il cluster configurato e funzionante (senza ansible e senza monitoring) per poter iniziare i test e la migrazione.
- Si riporta una richiesta di modifica in INFN Cloud Dashboard che comporta che i cluster Kubernetes GPU saranno d’ora in poi istanziati esclusivamente in Cloud@CNAF per evitare che ridimensionamenti che includano una GPU possano comportare la distruzione e re-creazione del cluster con conseguente perdita di dati.
- Si avrà un nuovo bottone kubernetes per deployare con solo CPU e che non potrà essere esteso a includere GPU.
Port monitoring infrastructure to Helm chart (R. Petrini)
- Notiamo che i dati di monitoring di Prometheus sono attualmente su disco effimero.
- Va reso persistente, si propone NFS come per i dati utente.
Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)
- Tirato su un ambiente conda in cui sono stati installati tutti i pacchetti necessari. E ha funzionato.
- Non ha funzionato la parte DWave di Ocean. Seguendo le istruzioni sul sito di DWave le cose ancora non hanno funzionato.
- I test sono stati fatti su hardware con GPU, ma vanno ripetuti i test per verificare diverse configurazioni.
- Pennylane con GPU è stato testato.
- Obiettivo per la prossima settimana, completare i test.
- Prossimi step:
- Organizzeremo un tutorial ad un prossimo meeting.
Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)
- Come accennato alle riunioni precedenti, lo strumento per fare offloading su acceleratori diversi è Virtual Kubelet. Virtual Kubelet permette di definire dei nodi virtuali, che funziona sopra un provider.
- Nel testbed il provider è InterLink. Va capito come interagire con le API di InterLink.
- InterLink prevede l’utilizzo di un sidecar per gestire sia le risorse host che le risorse di un pod.
- In locale abbiamo a disposizione T4 e abbiamo creato un testbed dedicato
- Il flusso è testato su questo testbed locale e va trasferito.
- Lavoro in corso sulla documentazione.
- Sidecar è un traduttore che prende da InterLink delle API e le passa al sito remoto. Prende un pod e lo traduce alla luce di quello che ha il sito.
- Ci aggiorneremo offline per dettagli supplementari sulla strategia.
Acquisto FPGA
- Stefano Dal Pra (offline), sentito M. Mariotti per panoramica su opzioni d’acquisto. Sentirà presto S. Giagu.
- M. Mariotti riporta la discussione preliminare con Stefano più sul contesto generale.
- S. Giagu conferma che stanno discutendo i requirement per il sistema complessivo.
- Siamo orientati sulla piattaforma Alveo che è già dockerizzata.
Status legend
Active
Priority
Problems
Postponed or Blocked by others
Completed
There are minutes attached to this event.
Show them.