Meeting federazione ATLAS-IT

Europe/Rome
Vidyo only

Vidyo only

https://vidyoportal.cern.ch/join/ahPINgxdzIgk

=============================================================================

1) report dai T1/T2

=============================================================================

A) Napoli :

- problemi in passato su alcuni nodi nel passaggio centos7, risolti.

- alcuni problemi di surriscaldamento sala macchine

- problema sullo storage : attualmente blacklisted in scrittura, rebuild dei volumi in corso

B) Frascati :

- aggiornamento DPM quasi terminato

- ultimi nodi comprati hanno molte CPU alcuni jobs si piantano presumibilmente per problemi di velocità' di connessione. Attualmente due connessioni da 1 Gbit/s. Per risolvere il problema sarebbe necessario cambiare infrastruttura ed arrivare a 10 Gbit/s

- problemi con pbs : arrivati a 4000 slot, al limite del sistema PBS, sperimentare condor

- disco tutto online ma da assegnare tutto in datadisk. Possibile fare un favore a Padme anticipando 100 TB ATLAS che verranno restituiti verso fine anno. Da valutare quando mettiamo in linea tutto lo storage disponibile e capiamo come siamo messi rispetto al pledge.

C) Roma1 :

- non si sono notati problemi con i jobs che si bloccano per la rete

- migrazione a condor, test in corso

- CPU tutta in linea, storage tutto in linea e assegnato.

- Migrazione a DPM completata

D) Milano :

- problemi con storage gpfs che si trascinano da settimane. Problemi a scrivere un singolo blocco ( uno ogni tanto, non si capisce ). In contatto stretto con gli esperti del CNAF.

- storage non ancora tutto online. Aspetta per capire se serve qualche cambiamento nella configurazione prima di farlo riempire.

- Questo ci mette un po' in crisi rispetto al pledge : prendersi ancora qualche giorno ma poi mettere comunque il linea e assegnare tutto lo storage.

E) CNAF :

- rate elevato di fallimenti. Interrogazione server webdav per ottenere il path fisico du gpfs molto lunga, fino a 80 secondi. C'e' un limite di 10 secondi hardcoded timeout quindi i jobs muoiono. Investigazioni in corso da parte degli esperti del CNAF.

- reprocessing 2018 e test del tape carousel : CNAF escluso perche' c'era stato un down.

- migrazione condor : due code ATLAS pronte (analisi e produzione), pochi jobs ~100 (su 4000)

============================================================================

2) report dai T3

=============================================================================

A) COSENZA

- piccolo stop a inizio anno per il resto tutto bene

- sperimentazione in corso sull'uso di condor

- lavoro sulla rete per adattare a IPV6

- apel non raccoglie piu' i dati ? (da controllare)

- sperimentati alcuni utili tools di monitoraggio : ricavare potenza dissipata su macchina, temperature

etc [ maggiori informazione nel mail di Alessandro T. ]

B) ROMA3

- problema con wn per richiesta RAM superiore a quella settata, ora tutto ok.

- no IPV6, provare aggiornamento centos7 per storm

- interesse a sperimentare la migrazione a condor

=============================================================================

3) gare / acquisti

=============================================================================

Cercare di far partire il prima possibile le gare. Accordo per :

- gara unica per lo storage ( 900 TB, 126 KEURO ). Capire che sara' il RUP.

- gare separate per CPU. Valutare quanti HS06 si comprano con 50K euro ( IVA esclusa ). Se ci stiamo rispetto al pledge procediamo con 3 gare locali < 50 KEuro.

=============================================================================

4) varie

=============================================================================

A) Siti DPM : white paper della DPM community in cui si esprimono tutte le preoccupazioni circa il

calo progressivo di supporto verso DPM e’ in circolazione

B) INFN ha acconsentito a pagare (20 Keuro) l'estensione garanzia hardware comprato attraverso RECAS. Contattare Chiara per capire come far partire la procedura. Questo dovrebbe garantire un altro anno di copertura

C) Prossime gare : ricordarsi di chiedere in fase di gara l'estensione della garanzia a 5 anni anche

per le CPU

D) aggiungere per le prossime riunioni un report sulle cose importanti che sono successe in ATLAS.

 

=============================================================================

ACTION ITEMS :

=============================================================================

1) capire come si controlla esattamente l'hardware che effettivamente abbiamo online

2) seguire la preparazione delle gare : chat durante la S&C week. Verificare il costo stimato per HS06.

3) interesse generalizzato a condividere l'esperienza/istruzioni per la migrazione a condor. Come facilitare questo scambio ? Istruzioni, meeting dedicato telefonico/fisico ?

4) controllare la raccolta dei dati in apel ( segnalato da Alessandro T. )


 

There are minutes attached to this event. Show them.
    • 11:00 11:10
      Introduction 10m
      Speakers: Alessandra Doria (NA), Leonardo Carminati (MI)
    • 11:10 11:20
      Report T1 10m
      Speaker: Lorenzo Rinaldi (BO)
    • 11:20 11:50
      Stato siti: Situazione T3
      • 11:20
        Report Cosenza 5m
        Speaker: Alessandro Tarasio (Istituto Nazionale di Fisica Nucleare)
      • 11:25
        Report Genova 5m
        Speaker: Alessandro Brunengo (GE)
      • 11:30
        Report Lecce 5m
        Speaker: Antonio Forte (LE)
      • 11:35
        Report Roma3 5m
        Speaker: Antonio Budano (ROMA3)
    • 11:50 12:40
      Situazione T2
      • 11:50
        Report LNF 5m
        Speaker: Elisabetta Vilucchi (LNF)
      • 11:55
        Report Milano 5m
        Speaker: Davide Rebatto (MI)
      • 12:00
        Report Napoli 5m
        Speaker: Alessandra Doria (NA)
      • 12:05
        Report Roma1 5m
        Speaker: Alessandro De Salvo (ROMA1)
    • 12:40 12:50
      Varie 10m