Skip to main content

News

Allagamento PoP Bologna - servizio ripristinato

Pubblicato il 28 Novembre 2017

Da venerdì 17 novembre è tornata alla quasi normalità la situazione del PoP GARR di Bologna situato presso il centro di calcolo dell’INFN-CNAF, che era stato oggetto di allagamento in seguito alla rottura di una conduttura idrica comunale, che ne aveva determinato lo spegnimento totale alle 7.15 circa di giovedì 9 novembre.

Grazie alla tempestività del gruppo Operations GARR, già nelle prime ore successive all'incidente tutte le utenze sono state ripristinate, con l’eccezione del PoP di Urbino per il quale il servizio è ripreso a partire dal martedì.

Tutte le apparecchiature GARR fondamentali presenti nel PoP di Bologna sono quindi operative e ripristinate in tutte le loro funzionalità e lo stato dei servizi è tornato quello pre-incidente. Le condizioni attuali ambientali del PoP, considerato l’accaduto, sono buone e i danni riportati sono minori di quanto inizialmente temuto. A livello ambientale e di condizionamento, rimangono alcune criticità che sono però in corso di risoluzione.

Già nella giornata di venerdì 10, tutta l’acqua nella zona del PoP era stata pompata e gli ambienti ripuliti in tempi record dal personale INFN, consentendo la riaccensione dei primi apparati. Il personale del gruppo Operations di GARR sin dalla giornata di venerdì 10 e per tutta la settimana successiva ha operato sul posto in collaborazione con il personale tecnico INFN per garantire un ripristino così rapido dei servizi all’utenza GARR e delle funzionalità del punto di presenza.

I danni maggiori sono stati proprio all'impianto e ai quadri elettrici e su questi elementi è concentrata l'attività' di ripristino dell'INFN in collaborazione con l'Università di Bologna, la quale ha prontamente fornito le linee elettriche di emergenza che alimentano il PoP GARR e alcuni servizi INFN.

Leggi l’approfondimento per sapere cosa è successo e come è stata gestita l’emergenza

Giovedì 9 novembre il cedimento di una conduttura idrica comunale ha determinato l’allagamento del data centre dell’INFN-CNAF, che ospita tra l’altro il PoP GARR BO1, e causato lo spegnimento totale di tutti gli apparati a partire dalle 7:15 circa. Nella zona del PoP GARR, l’acqua è arrivata a circa 10-20 cm, ma ha raggiunto livelli più elevati in altre zone del data centre, tra cui in particolare quella ospitante i quadri elettrici.

In seguito si è potuto verificare che la maggior parte degli apparati del PoP GARR, installata nei rack in modo da rimanere sollevata da terra di alcuni cm, era stata fortunatamente danneggiata in misura minore rispetto a quanto inizialmente ipotizzato.

Lo spegnimento totale del PoP BO1 ha comportato un disservizio completo relativamente ai servizi di connettività IP e VPN di una parte dell'utenza ad esso afferente (quella cioè i cui servizi non sono ridondati su un secondo PoP) e per l'intero PoP di Urbino, servito da un unico collegamento di dorsale terminato sul PoP BO1.

A livello di dorsale, lo spegnimento di uno dei 4 PoP di core della rete GARR-X ha comportato l’interruzione di molti collegamenti di backbone con un impatto non trascurabile sulla capacità complessiva di trasporto, ma l’elevato grado di magliatura e i meccanismi di rerouting automatici dei servizi della rete GARR-X a tutti i livelli (ottico, MPLS, IP) ne ha limitato la portata, facendo sì che l’evento disastroso fosse percepito solo dall’utenza locale. Inoltre nella stessa giornata di giovedì 9 una rapida riconfigurazione del backbone trasmissivo e IP/MPLS della rete da parte del NOC del GARR ha messo al sicuro la rete da eventuali ulteriori problematiche in caso di potenziali nuovi guasti.

Gli utenti interessati dal disservizio totale dal punto di vista della connettività Internet, oltre alla sezione INFN di Bologna, al CNAF e al Tier1 di LHC, direttamente interessati dall’incidente, sono stati: le università di Modena e Parma, Icranet, il sito eVLBI dell’INAF presso Medicina (BO) e l’università di Urbino (che ospita il PoP cittadino), e una serie di istituzioni e scuole afferente al PoP stesso (ITIS Mattei, Istituto Commerciale P. Volponi, Liceo Classico Raffaello, Liceo Scientifico Laurana-Baldi e l’Accademia delle Belle Arti e l’ISIA di Urbino.

I servizi sono stati riattivati gradualmente, con il ripristino dell’infrastruttura del PoP e, ove possibile, con l’implementazione di soluzioni alternative.

La connettività delle Università di Modena e di Parma è stata ripristinata venerdì 10 intorno 19:30, grazie alla realizzazione a tempo di record di collegamenti transitanti sulla rete regionale Lepida. I collegamenti originali sono poi stati ripristinati completamente lunedì 13 alle 17:31, quando è stato possibile ridare l’alimentazione agli apparati di terminazione dei servizi.

I servizi essenziali dal CNAF e della sezione INFN di Bologna sono stati ripristinati per fasi tra sabato 11 e domenica 12, attraverso la riconfigurazione dei collegamenti in fibra spenta esistenti, l’accensione di apparati GARR di emergenza e lo spostando fisico di server nell’altro PoP cittadino (BO3), ospitato presso l’area di ricerca CNR di Bologna.

Anche i servizi di connettività di INAF - eVLBI Medicina (BO) e Icranet, sono stati ripristinati nelle giornata di domenica 12 grazie alla riconfigurazione dei collegamenti in fibra spenta e ottici GARR.

Il PoP di Urbino è stato quello più lungamente disservito. È stato infatti possibile ridare connettività a tutta la sua utenza solo martedì 14 novembre alle 17:52, dopo la completa sostituzione dell’apparato operatore che era stato gravemente danneggiato dall’allagamento.

Alcune servizi di tipo VPN a Cineca e Lepida sono stati ripristinati lunedì 13 alle ore 17:00 circa, quando è stato possibile riaccendere in modo stabile l’apparato GARR di terminazione.

Tutti gli altri utenti afferenti al PoP di BO1 non ha subito interruzioni nei propri servizi grazie alla presenza di connettività GARR di backup.

Venerdì 17 novembre, a una settimana dall'allagamento, dopo aver sostituito le componenti danneggiate dall’acqua tutte le apparecchiature GARR fondamentali (router, apparati trasmissivi, apparati Operatori), erano di nuovo accese, operative e ripristinate in tutte le loro funzionalità e ridondanze; anche lo stato dei servizi era tornato quello pre-incidente.