Meeting federazione ATLAS-IT

Name: Meeting federazione ATLAS-IT
Start: 2020-01-30T11:00:00+01:00
End: 2020-01-30T13:30:00+01:00
Location: Vidyo only

Thursday 30 Jan 2020, 11:00 → 13:30 Europe/Rome

Vidyo only

https://vidyoportal.cern.ch/join/ahPINgxdzIgk

Description

https://vidyoportal.cern.ch/join/ahPINgxdzIgk

Hide

=============================================================================

1) report dai T1/T2

=============================================================================

A) Napoli :

- problemi in passato su alcuni nodi nel passaggio centos7, risolti.

- alcuni problemi di surriscaldamento sala macchine

- problema sullo storage : attualmente blacklisted in scrittura, rebuild dei volumi in corso

B) Frascati :

- aggiornamento DPM quasi terminato

- ultimi nodi comprati hanno molte CPU alcuni jobs si piantano presumibilmente per problemi di velocità' di connessione. Attualmente due connessioni da 1 Gbit/s. Per risolvere il problema sarebbe necessario cambiare infrastruttura ed arrivare a 10 Gbit/s

- problemi con pbs : arrivati a 4000 slot, al limite del sistema PBS, sperimentare condor

- disco tutto online ma da assegnare tutto in datadisk. Possibile fare un favore a Padme anticipando 100 TB ATLAS che verranno restituiti verso fine anno. Da valutare quando mettiamo in linea tutto lo storage disponibile e capiamo come siamo messi rispetto al pledge.

C) Roma1 :

- non si sono notati problemi con i jobs che si bloccano per la rete

- migrazione a condor, test in corso

- CPU tutta in linea, storage tutto in linea e assegnato.

- Migrazione a DPM completata

D) Milano :

- problemi con storage gpfs che si trascinano da settimane. Problemi a scrivere un singolo blocco ( uno ogni tanto, non si capisce ). In contatto stretto con gli esperti del CNAF.

- storage non ancora tutto online. Aspetta per capire se serve qualche cambiamento nella configurazione prima di farlo riempire.

- Questo ci mette un po' in crisi rispetto al pledge : prendersi ancora qualche giorno ma poi mettere comunque il linea e assegnare tutto lo storage.

E) CNAF :

- rate elevato di fallimenti. Interrogazione server webdav per ottenere il path fisico du gpfs molto lunga, fino a 80 secondi. C'e' un limite di 10 secondi hardcoded timeout quindi i jobs muoiono. Investigazioni in corso da parte degli esperti del CNAF.

- reprocessing 2018 e test del tape carousel : CNAF escluso perche' c'era stato un down.

- migrazione condor : due code ATLAS pronte (analisi e produzione), pochi jobs ~100 (su 4000)

============================================================================

2) report dai T3

=============================================================================

A) COSENZA

- piccolo stop a inizio anno per il resto tutto bene

- sperimentazione in corso sull'uso di condor

- lavoro sulla rete per adattare a IPV6

- apel non raccoglie piu' i dati ? (da controllare)

- sperimentati alcuni utili tools di monitoraggio : ricavare potenza dissipata su macchina, temperature

etc [ maggiori informazione nel mail di Alessandro T. ]

B) ROMA3

- problema con wn per richiesta RAM superiore a quella settata, ora tutto ok.

- no IPV6, provare aggiornamento centos7 per storm

- interesse a sperimentare la migrazione a condor

=============================================================================

3) gare / acquisti

=============================================================================

Cercare di far partire il prima possibile le gare. Accordo per :

- gara unica per lo storage ( 900 TB, 126 KEURO ). Capire che sara' il RUP.

- gare separate per CPU. Valutare quanti HS06 si comprano con 50K euro ( IVA esclusa ). Se ci stiamo rispetto al pledge procediamo con 3 gare locali < 50 KEuro.

=============================================================================

4) varie

=============================================================================

A) Siti DPM : white paper della DPM community in cui si esprimono tutte le preoccupazioni circa il

calo progressivo di supporto verso DPM e’ in circolazione

B) INFN ha acconsentito a pagare (20 Keuro) l'estensione garanzia hardware comprato attraverso RECAS. Contattare Chiara per capire come far partire la procedura. Questo dovrebbe garantire un altro anno di copertura

C) Prossime gare : ricordarsi di chiedere in fase di gara l'estensione della garanzia a 5 anni anche

per le CPU

D) aggiungere per le prossime riunioni un report sulle cose importanti che sono successe in ATLAS.

=============================================================================

ACTION ITEMS :

=============================================================================

1) capire come si controlla esattamente l'hardware che effettivamente abbiamo online

2) seguire la preparazione delle gare : chat durante la S&C week. Verificare il costo stimato per HS06.

3) interesse generalizzato a condividere l'esperienza/istruzioni per la migrazione a condor. Come facilitare questo scambio ? Istruzioni, meeting dedicato telefonico/fisico ?

4) controllare la raccolta dei dati in apel ( segnalato da Alessandro T. )

There are minutes attached to this event. Show them.

- 11:00 → 11:10
  
  Introduction 10m
  
  Speakers: Alessandra Doria (NA), Leonardo Carminati (MI)
  
  ATLASIT-20200130.pdf
- 11:10 → 11:20
  
  Report T1 10m
  
  Speaker: Lorenzo Rinaldi (BO)
- 11:20 → 11:50
  Stato siti: Situazione T3
  - 11:20
    
    Report Cosenza 5m
    
    Speaker: Alessandro Tarasio (Istituto Nazionale di Fisica Nucleare)
  - 11:25
    
    Report Genova 5m
    
    Speaker: Alessandro Brunengo (GE)
  - 11:30
    
    Report Lecce 5m
    
    Speaker: Antonio Forte (LE)
  - 11:35
    
    Report Roma3 5m
    
    Speaker: Antonio Budano (ROMA3)
- 11:50 → 12:40
  Situazione T2
  - 11:50
    
    Report LNF 5m
    
    Speaker: Elisabetta Vilucchi (LNF)
  - 11:55
    
    Report Milano 5m
    
    Speaker: Davide Rebatto (MI)
  - 12:00
    
    Report Napoli 5m
    
    Speaker: Alessandra Doria (NA)
  - 12:05
    
    Report Roma1 5m
    
    Speaker: Alessandro De Salvo (ROMA1)
- 12:40 → 12:50
  
  Varie 10m

Choose timezone

Meeting federazione ATLAS-IT

Vidyo only