1 of 17

ICSC_progetto_comunicazione**

Spoke 2 - FUNDAMENTAL RESEARCH & SPACE ECONOMY

Sandra Malvezzi (INFN – MIB)

Antonio Stamerra (INAF – OAR)

Tommaso Boccali (INFN – PI)

2 of 17

Outline

Un veloce recap di goal e aree di attivita’
Industrie coinvolte
Possibili modalita’ di cooperazione
Idee

3 of 17

Lo Spoke 2 in ICSC

Spoke Leader: INFN

Sandra Malvezzi
Tommaso Boccali

Spoke co-Leader: INAF

Antonio Stamerra

13 Università
3 privati da progetto +1

IFAB

ENI

4 of 17

Le nostre necessità dal lato scientifico

Anche se la stragrande maggioranza dei nostri affiliati è di estrazione “fisica”, la realtà dei fatti è che nelle nostre attività abbiamo sempre più bisogno di capacità di calcolo avanzate, come dimensione e come complessità
Esempi:

gli esperimenti ai collisori della generazione corrente hanno già superato la scala dell’Exabyte di dati raccolti, e li gestiscono mediante > 100 centri di calcolo distribuiti sul globo
Le simulazioni su Lattice sono fra i principali clienti dei centri HPC, e ne guidano la direzione di sviluppo
La quantità e la complessità (nonché il costo!) dei dati raccolti e delle soluzioni per processarlo hanno spinto il campo alla ricerca di soluzioni avanzate di calcolo:

Il WEB, la Grid di calcolo di LHC, il test di soluzioni commerciali con HNSciCloud, la spinta per sistemi adatti a calcolo data-intensive in EuroHPC JU

Adesso, vediamo che altri domini (scientifici e non) si avvicinano a necessità simili alle nostre, e hanno conoscenze e idee da scambiare con noi
Lo spoke 2 🡪

5 of 17

Suddivisione delle attività

6 Work Packages definiti; 3+3:

I primi 3 sono ”guidati da use cases (scientifici e industriali)”

“per fare questa misura di fisica, mi servirebbe un sistema che mi permetta di eseguire X operazioni su Y dati in Z secondi, usando al massimo W risorse”

I secondi 3 sono “guidati da tecnologie in nostro possesso / che vorremmo acquisire”

“l’affiliato X ha esperienza di sistemi di data management e accesso remoto al Terabit/s; a chi puo’ interessare?”

Nella pratica, in questo modo ci aspettiamo che ogni use case (scientifico e industriale) possa afferire almeno a due WP

WP1/2/3

WP4/5/6

Has a need; searches for a solution

Has a technology; searches for a test use case

WP1: mappato sulle necessita’ della fisica teorica

WP2: … della fisica ai collisori

WP3: … della fisica delle astroparticelle

WP4: soluzioni “singolo nodo” (GPU, FPGA, …)

WP5: scale-out sul calcolo distribuito

WP6: soluzione cross domain + hook Space Economy

6 of 17

In una slide: keywords delle attivita’ previste

Algoritmi: porting a GPU e in generale calcolo eterogeneo, soluzioni realtime e offline con FPGA, sistemi con intelligenza artificiale a scala piccola-media-grande

Infrastrutturale: calcolo distribuito, calcolo con sorgenti di dati eterogenee, analisi data intensive al livello di PB-EB di dati, calcolo interattivo e infrastrutturale

La nostra sfida / percezione è che la maggior parte delle soluzioni NON sia relativa alla ricerca «fondamentale», e neppure alla «ricerca tout-court»

7 of 17

Le industrie

Già elencate al momento del bando

Leonardo: interesse soprattutto lato Space Economy
Intesa Sanpaolo: molteplici punti di contatto

Data management, analisi dati da sorgenti eterogenee, AI, ...

Discussioni post bando

IFAB: molteplici interessi; i più chiari al momento

E4: testbed tecnologici su soluzioni «non standard»
BIP e Esteco: data analysis e processing

ENI: …

In attesa di definizione:

UnipolSAI

8 of 17

I testbed

Per noi la realizzazione di testbed è una parte essenziale dell’attività del 2o e 3o anno, e il modo principe di collaborare con l’industria
Per noi il testbed è una piattaforma tecnologica, messa a disposizione dai partner Spoke 2 o mediante Open Calls o Innovation Grants o dallo Spoke 0 o dallo Spoke 1 (“Living Labs”), su cui sperimentare use cases accademici e industriali. Esempi (non finali):

Una piattaforma per test di calcolo eterogeneo (standard se da Spoke 0, meno se autoprocurata o da Spoke 1: ARM + GPU, GPU non Nvidia)
Una piattaforma per test di calcolo distribuito e porting di modelli su datalake
Una piattaforma ottimizzata per ML training

Ovviamente l’ideale sarebbe condividerle ANCHE con altri spoke

9 of 17

Collaborazioni con altri Spoke

Ancora in fase di studio; ci aspettiamo grosso contributo dalle Riunioni dello Steering degli Spoke
Alcune Ovvie

Spoke 0: alcuni dei nostri use cases sono già pronti a USARE risorse 🡪 Spoke Allocation Board + Spoke 0; middleware datalake da integrare con WP5
Spoke 3: Spoke “sinergico”. Scambio di persone a livello di Steering per armonizzare le attività, previste collaborazioni a molti livelli (attività “astroparticle”, data management, …)
Spoke 1: sinergia a livello tecnologico: accesso a piattaforme di R&D, studio di framework per calcolo eterogeneo

10 of 17

Possibili modalita’ di ingaggio con l’industria

Stiamo ancora aspettando dall’HUB il documento finale, ma tecnicamente nel CN ci sono 2 modalita’:

Open Calls (OC): riservate a industrie NON partner (quindi NON Intesa/ENI/Leonardo/…) - 32 MEur
Innovation Grants (IG): riservate a partecipanti al CN (quindi SI Intesa/ENI/Leonardo/…) – 18 MEur sugli spokes (1.8 MEur su Spoke 2) + 12 MEur centralmente sull’HUB

Come usarli?

11 of 17

Modalita’ tentative di utilizzo degli IG (pending documento CdA)

Non ancora chiarissimo, ma sembra plausibile

L’industria X mette a disposizione un testbed (per esempio usando cluster / risorse che ha gia’ a disposizione o che puo’ acquisire) con tecnologie non gia’ disponibili, e viene rimborsata per la sua operativita’
L’industria X acquisisce su IG unita’ di personale / stagisti / … (da verificare forma legale) e li manda a lavorare con il lato accademico, anche fisicamente
L’industria X chiede a un partner accademico di assumere unita’ di personale (PhD? Borse tecnologiche? Tempi determinati?) che poi lavori su progetti comuni, anche co-locati

(differenti modalita’ di rendicontazione?)

12 of 17

Modalita’ di definizione progetti industriali

Un misto di top down e bottom up, a nostra comprensione

Top down: le industrie propongono macro temi all’Industrial Board, e poi si cerca un match con gli Spoke (“a chi interessa?”)

Ci immaginiamo principalmente vero per IG su HUB

Bottom up: a livello di spoke si discutono use cases di interesse comune e si trovano dei progetti su cui mettere i fondi, con le modalita’ della slide precedente

Come sopra, per fondi IG su Spoke

13 of 17

Questi vorremmo “fissarli” asap, e usare il resto come “backup”

Questi vorremmo usarli per “premiare” i progetti che sono partiti bene / hanno trovato sinergie anche con le open calls

14 of 17

Nostre proposte (ad alto livello)

Testbeds:

Messa a disposizione del centro/spoke di risorse che l’industria abbia gia’ a disposizione / voglia acquisire

Per esempio per inserire un ulteriore centro in un testbed di calcolo in un testbed di calcolo distribuito

Use cases su utilizzo di sistemi ML a vario livello di scala

Idea: partire dalla sperimentazione su use case scientifici, e dimostrare utilizzabilita’ su use case scientifici. Alcuni esempi:

Time series: anomaly detection in apparati industriali
Simulazioni con GAN, VAE, Normalizing flows, … anche a larga scala
Mimicking di algoritmi, con Graph Networks, Transformers, ….

15 of 17

Use cases sul porting di software

Porting e benchmarking di codice esistente su framework di calcolo eterogeneo (GPU, TPU, FPGA, ….)
Sistemi per inferenza Machine Learning su FPGA

Use cases di calcolo distribuito

Adattamento di algoritmi ad accesso dati da datalake
Data management distribuito al PB e oltre (accesso, trasferimento, consistenza, …)
Fruizione di risorse remote (modelli di inferenza su FPGA remote, …)

Use cases di analisi ad alta performance

Jupyter notebooks legati a sistemi distribuiti e HPC, analisi “interattiva” su grandi basi di dati (anche distribuiti)

Space Economy e’ un caso a parte 🡪

16 of 17

Space Economy

Situazione “pregressa al CN”:

Accordo Quadro su AdA MISE/…/INFN/…Industrie…/Leonardo/…
Mai firmato accordo attuativo INFN-MISE; stiamo cercando di rielaborarlo ora (era O(6-8) MEur). Idea:

INFN ( → Spoke 0) per la parte infrastrutturale dei PoC
INFN ( → Spoke 2) per la parte test di algoritmi / servizi dei PoC

Prendere use cases rilevanti nei vari settori (come prioritizzati dal tavolo SE)
Realizzare PoC (non in produzione!) con le tecnologie del CN, in pratica gli use cases delle slides precedenti
Poi saranno le industrie per esempio gia’ finanziate nell’Azione di Accompagnamento a portare il sistema in produzione

Molte industrie del CN sono anche in AdA, possibile interesse a fare R&D su CN e poi produzione su AdA

17 of 17

Space Economy

Nostra idea:

Space Economy: scrivete una proposta per l’utilizzo di una quota degli IG

La discutiamo con i nostri WP leader di WP6
Ci piacerebbe avere delle open calls su SE; per cui potremmo “usare Leonardo” come “apparlatore” di attivita’” su OC

Se avete interessi di collaborazione extra space economy (HPC, Data Management su sistemi distribuiti, analisi a alta intensita’, …)
(con cappello INFN) – ci eravamo detti comunque di provare a organizzare una riunione sulla parte datalake