AI_INFN Technical Meeting

Europe/Rome
Description

Virtual meeting room (zoom): https://l.infn.it/ai-infn-meeting

Date: 2024-01-22

  • Reported incident breaking Jupyter Proxy due to full storage (see slides)

Tracked developments:

:fast_forward: Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)

  • Dal Pra, Misurelli e Corvo hanno iniziato a tirare su un cluster per fare test.
  • L’idea è avere tre macchine virtuali di cui una con GPU, un master due worker.
  • Serve una T4, Dal Pra ne può liberare due e lo farà a breve. CPU e RAM dovrebbero bastare.
  • Creato uno spazio su baltig, chiamato “WP1”.
  • Perché non usiamo baltig, ma GitHub? Per policy di autenticazione.
  • Perché non usiamo harbor? Lo usiamo.
  • Possiamo fare test con A100? Verificare con Marco Serra.
  • R. Petrini ha creato un primo cluster kubernetes con RKE2 in Cloud@CNAF. Ancora non la parte GPU.
  • Cercheremo di rafforzare coordinamento e sinergia CNAF-Firenze.
  • Terraform vs Ansible?
    • Terraform è utilizzato per i sistemi nazionali, ma non è compatibile con INFN Cloud.
    • INFN Cloud usa Ansible.
    • Forse meglio orientarsi verso Ansible.

:arrow_forward: Port monitoring infrastructure to Helm chart (R. Petrini)

  • NTR

:arrow_forward: Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)

  • NTR

:arrow_forward: Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)

  • A VM with a dedicated GPU RTX5000 has been deployed and will serve VK endpoint.

:arrow_forward: Acquisto FPGA

  • Stefano Dal Pra organizza una discussione.
  • Lucio manda a Stefano note della precedente riunione.

Status legend

:arrow_forward: Active
:fast_forward: Priority
:bangbang: Problems
:parking: Postponed or Blocked by others
:white_check_mark: Completed

There are minutes attached to this event. Show them.
    • 16:00 16:20
      Incident report: disk full and proxy failing 20m
      Speaker: Lucio Anderlini (Istituto Nazionale di Fisica Nucleare)
    • 16:20 16:30
      Offloading 10m
      Speaker: Giulio Bianchini (Istituto Nazionale di Fisica Nucleare)
    • 16:30 16:50
      Discussion on tasks and priorities 20m
      Speaker: All
    • 16:50 17:00
      Any other business 10m