AI_INFN Technical Meeting

Europe/Rome
Description

Virtual meeting room (zoom): https://l.infn.it/ai-infn-meeting

AI_INFN Technical meeting – Minutes and actions

Date: 2024-02-19

Nessuna presentazione.

Vorremmo organizzare una giornata in presenza focalizzata sugli use-case.
Se c’è interesse nell’organizzare in una delle vostre sedi, prendete contatti.

Tracked developments:

:fast_forward: Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)

  • Il management board di INFN Cloud ha deciso che sarà organizzata una riunione per definire i passi verso l’integrazione. Siamo in attesa.
  • L. Anderlini chiede a G. Misurelli di iniziare a lavorare ad un documento di sintesi dei requisiti per la dashboard/integrazione che ci rendano semplice la gestione del cluster, incluso l’aggiornamento.
  • Prima documentiamo nel README, discutiamo e facciamo una presentazione

:arrow_forward: Port monitoring infrastructure to Helm chart (R. Petrini)

  • Primo contatto con Costantini per il monitoring in INFN Cloud
  • Risposta positiva, ma da discutere con WP1
  • Questione relativa alla sicurezza per proteggere l’endpoint prometheus
    • https
    • BasicAuth HTTP

:arrow_forward: Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)

  • Eravamo rimasti che andavano fatti test per mettere su un ambiente containerizzato sotto conda per tutti i pacchetti
  • I test mostravano che più o meno funzionava tutto, ma andava testato il comportamento con GPU.
  • Richiesto a Simone Bordoni il test con GPU. Sono state necessarie diverse librerie addizionali,
    alcune su conda alcune con pip e ha funzionato. Testato con una GPU locale nVidia.
  • Resta fuori DWave, ma non sembra uno show-stopper.
  • L. Anderlini chiede a Matteo di verificare la compatibiltà con l’environment in attesa di avere il setup nuovo.

:arrow_forward: Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)

  • Test di spawning di JupyterHub via VK. I test sono ancora fatti con infrastruttura locale a PG.
  • Il setup è presumibilmente identico nel setup nuovo.
  • G. Bianchini ha iniziato a lavorare anche ad una guida per creare il setup. Più sulla parte di backend.
  • L. Zangrando: come viene condivisa la GPU? Ogni pod ha uso esclusivo della GPU.
  • Fatti test e le GPU possono essere condivise tra pod diverse con GPU-share, uno scheduler che si installa come Operator per Kubernetes. Vengono definite delle policy con cui alternare l’uso delle GPU. Il pod dichiara quanta GPU vuole utilizzare. Conosce lo stato della GPU ma non ha policy specifiche.
  • containerd può supportare le GPU, vanno sostituiti alcuni parameteri e vanno installati i driver, a quel punto si installa un operator e questi due software permettono la condivisione della GPU che viene usata davvero in parallelo da più processi.
  • Non specifico per offloading.
  • S. Dal Pra chiede se è vero anche per le partizioni MIG. Risposta: sì.

:arrow_forward: Acquisto FPGA

  • Breve aggiornamento da S. Dal Pra: D. Cesini sta cercando di acquistare un server su cui installare le FPGA.

Status legend

:arrow_forward: Active
:fast_forward: Priority
:bangbang: Problems
:parking: Postponed or Blocked by others
:white_check_mark: Completed

There are minutes attached to this event. Show them.
    • 16:00 16:20
      News and setup 20m
      Speaker: Lucio Anderlini (Istituto Nazionale di Fisica Nucleare)
    • 16:20 16:50
      Discussion on tasks and priorities 30m
      Speaker: All
    • 16:50 17:00
      Any other business 10m