AI_INFN Technical Meeting

Name: AI_INFN Technical Meeting
Start: 2024-02-05T16:00:00+01:00
End: 2024-02-05T17:00:00+01:00
Location: No location set

Monday 5 Feb 2024, 16:00 → 17:00 Europe/Rome

Description

Virtual meeting room (zoom): https://l.infn.it/ai-infn-meeting

Hide

AI_INFN Technical meeting – Minutes and actions

Date: 2024-02-05

Nessuna presentazione.

Tracked developments:

Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)

Create 4 VM su OpenStack di Cloud@CNAF per:
- master
- storage (distribuito tramite NFS)
- A100
- cpu-only
Il nodo A100 è stato temporaneamente collegato ad altro cluster RKE2 per studi sul partizionamneto. Il nodo sarà reinizializzato in serata.
Il nodo storage è stato separato dal master per mitigare il rischio di eviction dei servizi per disco pieno.
Richiesto dominio https://hub.ai.cloud.infn.it tramite cloud-support.
- L’entry nel DNS è stata creata, ma non abbiamo ancora verificato se funziona
- Richiesto di reindirizzare https://ai.cloud.infn.it verso https://hub.cloud.infn.it. Attualmente in discussione.
Un secondo nodo A100, attualmente in uso da Virgo/RM1 sarà liberato in settimana per essere integrato nel nuovo cluster.
Si propone di partizionare entrambe le A100 in 7 partizioni da 10 GB ciascuna.
La discussione sull’automazione (Ansible+Dashboard) è stata avviata ma è ancora sospesa.
L’obiettivo per la prossima settimana è avere il cluster configurato e funzionante (senza ansible e senza monitoring) per poter iniziare i test e la migrazione.
Si riporta una richiesta di modifica in INFN Cloud Dashboard che comporta che i cluster Kubernetes GPU saranno d’ora in poi istanziati esclusivamente in Cloud@CNAF per evitare che ridimensionamenti che includano una GPU possano comportare la distruzione e re-creazione del cluster con conseguente perdita di dati.
Si avrà un nuovo bottone kubernetes per deployare con solo CPU e che non potrà essere esteso a includere GPU.

Port monitoring infrastructure to Helm chart (R. Petrini)

Notiamo che i dati di monitoring di Prometheus sono attualmente su disco effimero.
Va reso persistente, si propone NFS come per i dati utente.

Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)

Tirato su un ambiente conda in cui sono stati installati tutti i pacchetti necessari. E ha funzionato.
Non ha funzionato la parte DWave di Ocean. Seguendo le istruzioni sul sito di DWave le cose ancora non hanno funzionato.
I test sono stati fatti su hardware con GPU, ma vanno ripetuti i test per verificare diverse configurazioni.
Pennylane con GPU è stato testato.
Obiettivo per la prossima settimana, completare i test.
Prossimi step:
- mancano i test con venv
Organizzeremo un tutorial ad un prossimo meeting.

Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)

Come accennato alle riunioni precedenti, lo strumento per fare offloading su acceleratori diversi è Virtual Kubelet. Virtual Kubelet permette di definire dei nodi virtuali, che funziona sopra un provider.
Nel testbed il provider è InterLink. Va capito come interagire con le API di InterLink.
InterLink prevede l’utilizzo di un sidecar per gestire sia le risorse host che le risorse di un pod.
In locale abbiamo a disposizione T4 e abbiamo creato un testbed dedicato
Il flusso è testato su questo testbed locale e va trasferito.
Lavoro in corso sulla documentazione.
Sidecar è un traduttore che prende da InterLink delle API e le passa al sito remoto. Prende un pod e lo traduce alla luce di quello che ha il sito.
Ci aggiorneremo offline per dettagli supplementari sulla strategia.

Acquisto FPGA

Stefano Dal Pra (offline), sentito M. Mariotti per panoramica su opzioni d’acquisto. Sentirà presto S. Giagu.
M. Mariotti riporta la discussione preliminare con Stefano più sul contesto generale.
S. Giagu conferma che stanno discutendo i requirement per il sistema complessivo.
Siamo orientati sulla piattaforma Alveo che è già dockerizzata.

Status legend

:arrow_forward: Active
:fast_forward: Priority
:bangbang: Problems
:parking: Postponed or Blocked by others
:white_check_mark: Completed

There are minutes attached to this event. Show them.

- 1
  
  News and setup
  
  Speaker: Lucio Anderlini (Istituto Nazionale di Fisica Nucleare)
- 2
  
  Discussion on tasks and priorities
  
  Speaker: All
- 3
  
  Any other business