1 of 25

ASTRI Mini-Array On-Site

Information and Communication Technology Infrastructure

1

Fulvio Gianotti

Ismam Abu

2 of 25

Introduzione e Sommario

In questa presentazione descriviamo il progetto Information and Communication Technology (ICT) e la sua configurazione. Questa infrastruttura ICT include tutto l'hardware e i servizi necessari per eseguire il software SCADA del Supervisory Control and Data Acquisition System e supportare l'installazione, il collaudo e le operazioni dei nove telescopi dell'ASTRI Mini-Array:

2

ASTRI Poject for USCVIII - General Assembly 18/10/2024

3 of 25

Presentazione del Progetto ASTRI-MA

ASTRI (Astrofisica con Specchi a Tecnologia Replicante Italiana) nasce come “Progetto Bandiera” finanziato dal Ministero della Ricerca Italiano con l’obiettivo iniziale di progettare e realizzare un prototipo innovativo end-to-end dei telescopi Cherenkov dual Mirror di classe 4 metri nell’ambito dell’osservatorio CTA

L’ASTRI Mini-Array è il secondo step del progetto il cui scopo è quello di costruire, implementare e gestire un array di 9 di questi telescopi Cherenkov presso l’Osservatorio del Teide a Tenerife (Spagna) in collaborazione con l’Instituto de Astrofísica de Canarias

Oltre 150 ricercatori appartenenti agli istituti INAF (IASF-MI, IASF-PA, IAPS-Roma, OAS, OACT, OAB, OAPD, OAR, OATS, OANA)

Università Italiane(Uni-PG, Uni-PD, Uni-CT, Uni-GE, PoliMi)

Istituzioni Internazionali (University of Sao Paulo – Brazil, North-West University – South Africa, Instituto de Astrofísica de Canarias – Spain, University of Geneva – Switzerland).

Fundacion Galileo Galilei – TNG

Aziende italiane e straniere sono coinvolte nel progetto ASTRI Mini-Array con un importante ritorno industriale

3

Credits: Daniel Lopez

ASTRI Poject for USCVIII - General Assembly 18/10/2024

4 of 25

ASTRI-MA: Effetto Cherenkov

Quando i raggi gamma

raggiungono l'atmosfera terrestre

interagiscono con essa, producendo cascate

di particelle subatomiche. Queste cascate sono anche note come sciami di particelle.

Queste particelle ad altissima energia possono viaggiare più velocemente della luce nell'aria, creando un lampo blu di "luce di Cherenkov" (scoperta dal fisico sovietico

Pavel Cherenkov nel 1934).

Sebbene questa luce di Cherenkov sia distribuita su un'ampia area (>250 m di diametro), dura solo pochi miliardesimi di secondo. È troppo debole e veloce perché l'occhio umano la veda, ma non per i sensibili sensori di luce dei telescopi di ASTRI-MA che così sono in grado di ricostruire l’energia e la direzione della particella gamma originale. Più telescopi abbiamo a disposizione più questa ricostruzione sarà precisa.

4

Credits: CTAO

ASTRI Poject for USCVIII - General Assembly 18/10/2024

5 of 25

ASTRI-MA: Teide Observatory

5

Data Center

ASTRI Poject for USCVIII - General Assembly 18/10/2024

6 of 25

Overall Network Schema

Questa figura rappresenta tutti i componenti dell'ASTRI MiniArray ICT e il modo in cui sono collegati in rete tra loro, con i Telescopi e la Control Room.

Tutti i sottosistemi nel Data Center sono collegati tramite una rete in rame RJ45 da 10 Gbit/s. Invece, le connessioni con i Telescopi e la Control Room sono realizzate in fibra monomodale che opera a 1-10 Gbit/s.

Tutte le connessioni in fibra passano attraverso appositi patch panel situati nel data center.

6

ASTRI Poject for USCVIII - General Assembly 18/10/2024

7 of 25

ICT subsystem

I sottosistemi evidenziati nella Figura sopra sono:

  • Virtual Telescope Control System (TCS), per il controllo del telescopio
  • Data Acquisition System (ADAS) composto da:
    • Camera Server per l'acquisizione dei dati dagli strumenti
    • Storage System per l'archiviazione e la condivisione dei dati
  • Kubernetes Cluster: un sofisticato sistema di orchestrazione dei container utilizzato per ospitare l'Online Observation Quality System (OOQS), il Monitor and Alarm System (MLA) e i Kafka e Cassandra Services
  • Timing System: composto da Master Clock e White Rabbit (WR) Switch per la sincronizzazione di tutti i sistemi e il time tagging dei dati acquisiti;
  • Frontier Server: sono due server collegati direttamente a Internet e dedicati alla trasmissione dei dati e all’accesso SSH, HTTPD ecc…
  • ICT Monitor system: sistema dedicato al monitoraggio ingegneristico dell'infrastruttura ICT e al suo controllo

7

ASTRI Poject for USCVIII - General Assembly 18/10/2024

8 of 25

ICT Network System

ASTRI Mini-Array Network:

questa figura riassume lo schema della rete privata di ASTRI Mini-Array: mavpn.org. Sono evidenziati gli switch che creano le reti e le VLAN adatte a collegare tutti i sottosistemi del Data Center con i Telescopi, Service Cabinet, la Sala Controllo e il Centro di Trasformazione. Questa rete privata è collegata a Internet tramite Router & Firewall Redundant System. La sezione Data Center illustra la rete che governa il funzionamento dell'ICT di ASTRI MA. La Main Network e la Telescope Control Network sono realizzate utilizzando Switch ridondanti che garantiscono l'HA.

8

ASTRI Poject for USCVIII - General Assembly 18/10/2024

9 of 25

ICT Infrastructures Project

9

240 cm

200 cm

RACK1

RACK2

RACK3

ASTRI Poject for USCVIII - General Assembly 18/10/2024

10 of 25

ICT construction phases

ASTRI Mini-Array ICT realizzazione:

  • Il progetto è stato realizzato e testato nel Data Center della ditta fornitrice, E4 Company, nella primavera del 2024.
  • In particolare sono stati fatti tutti i controlli di qualità dei server e apparati e di tutti i sottosistemi, per questi, si sono eseguiti anche i test di HA.
  • Questo per rendere idoneo alla spedizione alle Canarie, dove sarebbe difficile intervenire.
  • Infine l’ICT è stata spedita a Tenerife dove è arrivato a inizio Ottobre
  • Subito si è passati alla installazione presso l’osservatorio del Teide, vedi figura a lato
  • Al momento sono in corso le ultime verifiche e l’integrazione della rete dell’ICT con quella dei Telescopi, Service Cabinet e Control Room.
  • Al più presto l’ICT sarà operativa e sostituirà definitivamente la Mini -ICT servita nelle prime fasi di costruzione di ASTRI-MA.

10

ASTRI Poject for USCVIII - General Assembly 18/10/2024

11 of 25

Data Center of ASTRI-MA

Nella figura a destra una foto con illustrati il front del Rack #1, il front ed il back del Rack #2, in fine il front del Rack #3.

11

ASTRI Poject for USCVIII - General Assembly 18/10/2024

12 of 25

Data Center of ASTRI-MA

12

ASTRI Poject for USCVIII - General Assembly 18/10/2024

13 of 25

Virtual Telescope Control System (TCS)

Sistema di Virtualizzazione per il TCS

  • Sistema professionale basato su ProxMox Virtual Environment.
  • Fornisce la gestione delle macchine virtuali, lo storage e il networking definiti dal software e il clustering ad alta disponibilità.
  • Il sistema ospiterà le macchine virtuali che saranno utilizzate per: il TCS, la gestione dei componenti Alma Common Software (ACS) e i servizi generali e la General network Service Virtual Machine.
  • L'implementazione del Virtual TCS è stata realizzata sfruttando l'esperienza di INAF e E4
  • Si è realizzato un sistema iperconvergente ad alta disponibilità composto da 4 server connessi tra loro a 10 Gbit/s da 2 switches.
  • In questo modo il TCS può supportare un guasto in un server e/o uno switch, garantendone sempre il funzionamento.
  • HW Resources:​ 160 Phis. Core​; 320 Thread​; 1 TB RAM​; 48TB SSD Storage Gross​

13

ASTRI Poject for USCVIII - General Assembly 18/10/2024

14 of 25

Virtual TCS Control Sample

14

ASTRI Poject for USCVIII - General Assembly 18/10/2024

15 of 25

ASTRI’s Kubernetes Cluster 1/1

Kaptain offre controllo degli accessi (RBAC) per la sicurezza e la distribuzione continua (CI/CD) dei modelli in produzione. Supporta la gestione multicluster per coordinare ambienti Kubernetes complessi e permette l'allocazione dinamica delle risorse (CPU/GPU), ottimizzando i costi. Grazie alla sua scalabilità nativa su Con Kubernetes/Kaptain si possono orchestrare container su più nodi, mentre i meccanismi di resilienza e alta disponibilità garantiscono che i processi di ASTRI siano sempre operativi, anche in caso di malfunzionamenti.

Il cluster Kubernetes è composto da 6 macchine, tre delle quali fungono da master-worker e tre da worker.

Ogni nodo ha un disco SSD da 2 TB dedicato per creare volumi persistenti per i container, più altri 2 TB dedicati alla creazione del Block Storage necessario per determinate applicazioni. I dischi sono direttamente accessibili e non hanno RAID hardware.

A fianco un diagramma che rappresenta lo schema generale della rete Kubernetes realizzata con Kaptain.

15

ASTRI Poject for USCVIII - General Assembly 18/10/2024

16 of 25

ASTRI’s Kubernetes Cluster 2/2

Il sistema Kubernetes/Kaptain è utilizzato per ospitare una serie di software creati o usati da ASTRI:

  • Online Observation Quality System (OOQS): gestisce grandi volumi di dati (fino a 4,5 GB/s) tramite Kafka e il framework Avro. Utilizza Slurm per eseguire analisi parallele e scalabili.
  • Monitoring, Logging, and Alarm System (MLA): monitora le prestazioni del sistema raccogliendo dati ambientali, registri e allarmi, archiviandoli in database ottimizzati per applicazioni in tempo reale.
  • Servizi:
  • Kafka: sistema di streaming di dati distribuito per l'elaborazione in tempo reale.
  • Cassandra: database NoSQL scalabile per gestire grandi volumi di dati.

Il Data Center è collegato tramite rete a 10 Gbit/s, con connessioni in fibra verso i telescopi e la Control Room.

16

ASTRI Poject for USCVIII - General Assembly 18/10/2024

17 of 25

Kubernetes Access Point

Il cluster Kubernetes è raggiungibile in 2 modi:

  • tramite l'interfaccia grafica utilizzando Rancher
  • tramite il terminale della console che si collega alla macchina che gestisce il cluster: k8s-controller

17

ASTRI Poject for USCVIII - General Assembly 18/10/2024

18 of 25

Kubernetes Cluster Test

Sono stati svolti una serie di test per verificare l’integrazione del cluster Kubernetes/Kaptain con il software del progetto ASTRI Mini-Array.

I test più significativi sono due:

  1. Stress-Test su Cassandra: partendo da una nostra configurazione abbiamo provato a verificare il comportamento di cassandra sotto stress. Una parte dei risultati nell’immagine a destra.
  2. Test di Integrazione Software: Abbiamo simulato lo scambio di messaggi tra un’applicazione esterna a kubernetes con una interna ad esso, come sistema di messaggistica utilizziamo Kafka. Nel diagramma a destra è illustrato il funzionamento. I rate di scrittura, in determinate circostanze sono molto elevati, tuttavia non sono stati riscontrati problemi.

18

Results:

Op rate : 93 op/s [insert: 96 op/s]

Partition rate : 9,272 pk/s [insert: 9,581 pk/s]

Row rate : 926,997 row/s [insert: 957,888 row/s]

Latency mean : 1857.4 ms [insert: 1,857.4 ms]

Latency median : 1625.3 ms [insert: 1,625.3 ms]

Latency 95th percentile : 3716.2 ms [insert: 3,716.2 ms]

Latency 99th percentile : 5175.8 ms [insert: 5,175.8 ms]

Latency 99.9th percentile : 6413.1 ms [insert: 6,413.1 ms]

Latency max : 7914.7 ms [insert: 7,914.7 ms]

Total partitions : 287,500 [insert: 287,500]

Total errors : 0 [insert: 0]

Total GC count : 0

Total GC memory : 0.000 KiB

Total GC time : 0.0 seconds

Avg GC time : NaN ms

StdDev GC time : 0.0 ms

Total operation time : 00:00:31

ASTRI Poject for USCVIII - General Assembly 18/10/2024

19 of 25

Sistema di Storage BeeGFS 1/2

  • È stato progettato un sistema di storage composto da quattro server di storage.
  • Questo sistema di archiviazione è basato su BeeGFS, un file system condiviso, distribuito e concorrente (parallelo) per alte prestazioni, che garantisce caratteristiche di elevata affidabilità e disponibilità.
  • I server sono collegati in rete tra loro con 4 interfacce di rete RJ45 da 10 Gbit/s tramite lo switch principale.
  • Due server di storage fungeranno anche da server di metadati.
  • Ogni server è dotato di 3 volumi RAID6 da 10 dischi meccanici e 2 hot global hot spare per proteggere dai guasti.
  • Il file system BeeGFS verrà montato su tutti i server fisici e le VM che ne hanno bisogno, garantendo un file system condiviso con una capacità netta di 175 TB in Replica 2. Le prestazioni I/O totali superano i 3 GB/s, che possono essere suddivisi in scrittura e lettura, a seconda delle necessità.
  • La configurazione del client BeeGFS è automatizzata dagli script Ansible.
  • Un'interfaccia di archiviazione del contenitore appropriata (CSI) consente inoltre al contenitore del sistema Kubernetes di accedere a questo file system.
  • L'architettura del sistema e la sua configurazione consentono di avere l'HA sia in caso di guasto dei dischi o di interi volumi nei server, sia in caso di perdita di un intero server.

19

ASTRI Poject for USCVIII - General Assembly 18/10/2024

20 of 25

Sistema di Storage BeeGFS 2/2

Il sistema di archiviazione per INAF è una scatola nera, ma fornisce un sofisticato sistema di monitoraggio di tutte le sue parti. A destra la dashboard principale

20

ASTRI Poject for USCVIII - General Assembly 18/10/2024

21 of 25

Monitoring System: Zabbix

La soluzione utilizzata per il sistema di monitoraggio ICT ASTRI mini array utilizza il software Zabbix:

  • Il progetto è Open Source con una grossa comunity
  • consente l'acquisizione di informazioni sia da server Linux che da sistemi embedded (come gli switch).
  • Lo stato delle macchine monitorate può essere acquisito sia (Le due opzioni di monitoraggio non sono esclusive):
    • tramite agenti attivi
    • o con controlli passivi utilizzando i protocolli Simple Network Transfer Protocol (SNMP) e Internet Control Message Protocol (ICMP)
  • L'interfaccia WEB di Zabbix è facile da usare e consente non solo di controllare lo stato dei sistemi ma anche di mostrare la cronologia delle metriche raccolte.

Sotto alcuni esempi di schermate Zabbix attualmente implementate, ma che saranno perfezionate in seguito sia da E4 che da noi non appena comprenderemo meglio i meccanismi per farlo.

21

ASTRI Poject for USCVIII - General Assembly 18/10/2024

22 of 25

Conclusioni

  • L'infrastruttura informatica ICT per ASTRI-MA e stata progettata da INAF e la sua realizzazione è stata assegnata a E4 tramite una gara a livello Europeo.
  • Durante le fasi di revisione di progetto, con E4 sono state trovate le migliori soluzioni tecniche per rispondere ai requisiti del Capitolato Tecnico di gara.
  • Quindi si partiti alla realizzazione dell’infrastruttura, si capisce che non è una semplice fornitura di Hardware, bensì un progetto portato avanti insieme con lo scopo di soddisfare i requisiti del Software SCADA costruito a sua volta sugli use cases scientifici del progetto ASTRI-MA.
  • INAF e E4 hanno presentato 2 articoli al congresso internazionale SPIE Astronomical Telescopes + Instrumentation svoltosi a Yokohama in Giappone in Giugno 2024.
    • ASTRI Mini-Array on-site Information and Communication Technology infrastructurehttps://doi.org/10.1117/12.3018973
    • A reliable and automated orchestrator for the computing system of the ASTRI project�https://doi.org/10.1117/12.3018971
  • Ed è stata recentemente presentata all’Evento E4 AI&HPC 18/9/2024�https://www.e4company.com/ai-hpc-reshaping-the-business-landscape/

22

ASTRI Poject for USCVIII - General Assembly 18/10/2024

23 of 25

Conclusioni

  • L’infrastruttura così realizzata è stata montata nel Data Center di E4 e per mesi abbiamo lavorato insieme a E4 per configurarla al meglio e per verificare i requisiti funzionali descritti nel Capitolato. Poi è stata smontata e spedita alle Canarie.
  • Al momento l’infrastruttura è installata all’Osservatorio del Teide a Tenerife e sono in corso le ultime verifiche e l’integrazione della rete dell’ICT con quella dei Telescopi, Service Cabinet e Control Room.
  • Finita questa fase nell’ICT sarà installato il SW SCADA e verificato il funzionamento dell’intera ICT integrata con i Telescopi ASTRI facendo anche dei test di performance.

23

ASTRI Poject for USCVIII - General Assembly 18/10/2024

24 of 25

Grazie per l’attenzione

24

Fulvio Gianotti, Ismam Abu, INAF - OAS Bologna

ASTRI Project for INAF Central Scientific Unit VIII-Computing 18/10/2024

25 of 25

25