AI_INFN Technical Meeting

Europe/Rome
Description

Virtual meeting room (zoom): https://l.infn.it/ai-infn-meeting

AI_INFN Technical meeting – Minutes and actions

Date: 2024-02-05

Nessuna presentazione.

Tracked developments:

:fast_forward: Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)

  • Create 4 VM su OpenStack di Cloud@CNAF per:
    • master
    • storage (distribuito tramite NFS)
    • A100
    • cpu-only
  • Il nodo A100 è stato temporaneamente collegato ad altro cluster RKE2 per studi sul partizionamneto. Il nodo sarà reinizializzato in serata.
  • Il nodo storage è stato separato dal master per mitigare il rischio di eviction dei servizi per disco pieno.
  • Richiesto dominio https://hub.ai.cloud.infn.it tramite cloud-support.
  • Un secondo nodo A100, attualmente in uso da Virgo/RM1 sarà liberato in settimana per essere integrato nel nuovo cluster.
  • Si propone di partizionare entrambe le A100 in 7 partizioni da 10 GB ciascuna.
  • La discussione sull’automazione (Ansible+Dashboard) è stata avviata ma è ancora sospesa.
  • L’obiettivo per la prossima settimana è avere il cluster configurato e funzionante (senza ansible e senza monitoring) per poter iniziare i test e la migrazione.
  • Si riporta una richiesta di modifica in INFN Cloud Dashboard che comporta che i cluster Kubernetes GPU saranno d’ora in poi istanziati esclusivamente in Cloud@CNAF per evitare che ridimensionamenti che includano una GPU possano comportare la distruzione e re-creazione del cluster con conseguente perdita di dati.
  • Si avrà un nuovo bottone kubernetes per deployare con solo CPU e che non potrà essere esteso a includere GPU.

:arrow_forward: Port monitoring infrastructure to Helm chart (R. Petrini)

  • Notiamo che i dati di monitoring di Prometheus sono attualmente su disco effimero.
  • Va reso persistente, si propone NFS come per i dati utente.

:arrow_forward: Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)

  • Tirato su un ambiente conda in cui sono stati installati tutti i pacchetti necessari. E ha funzionato.
  • Non ha funzionato la parte DWave di Ocean. Seguendo le istruzioni sul sito di DWave le cose ancora non hanno funzionato.
  • I test sono stati fatti su hardware con GPU, ma vanno ripetuti i test per verificare diverse configurazioni.
  • Pennylane con GPU è stato testato.
  • Obiettivo per la prossima settimana, completare i test.
  • Prossimi step:
    • mancano i test con venv
  • Organizzeremo un tutorial ad un prossimo meeting.

:arrow_forward: Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)

  • Come accennato alle riunioni precedenti, lo strumento per fare offloading su acceleratori diversi è Virtual Kubelet. Virtual Kubelet permette di definire dei nodi virtuali, che funziona sopra un provider.
  • Nel testbed il provider è InterLink. Va capito come interagire con le API di InterLink.
  • InterLink prevede l’utilizzo di un sidecar per gestire sia le risorse host che le risorse di un pod.
  • In locale abbiamo a disposizione T4 e abbiamo creato un testbed dedicato
  • Il flusso è testato su questo testbed locale e va trasferito.
  • Lavoro in corso sulla documentazione.
  • Sidecar è un traduttore che prende da InterLink delle API e le passa al sito remoto. Prende un pod e lo traduce alla luce di quello che ha il sito.
  • Ci aggiorneremo offline per dettagli supplementari sulla strategia.

:arrow_forward: Acquisto FPGA

  • Stefano Dal Pra (offline), sentito M. Mariotti per panoramica su opzioni d’acquisto. Sentirà presto S. Giagu.
  • M. Mariotti riporta la discussione preliminare con Stefano più sul contesto generale.
  • S. Giagu conferma che stanno discutendo i requirement per il sistema complessivo.
  • Siamo orientati sulla piattaforma Alveo che è già dockerizzata.

Status legend

:arrow_forward: Active
:fast_forward: Priority
:bangbang: Problems
:parking: Postponed or Blocked by others
:white_check_mark: Completed

There are minutes attached to this event. Show them.