1 of 26

OBSERVABILITET I SKATTEETATEN

Fra monolitt til microtjenester

2 of 26

Agenda

Om Skatteetaten

Arkitektur (LGMT)

Event-prosess

Utvikling

Forvaltning

Overvåkning

3 of 26

Robert Myhren

  • Utdanning: UiO, QUT
  • Bakgrunn som konsulent og litt av hvert innen Skatteetaten
  • Open Source entusiast siden 90-tallet
  • Underdirektør Skatteetaten (Leder gruppen Overvåkning)

4 of 26

Skatteetaten

  • Finansierer velferdsstaten
  • 7500 ansatte
  • Ca. 900 stk i IT
  • 61 kontorer
  • Overvåkning har kontor i Grimstad, Oslo og Trondheim
  • Vi er 18 stk pt.

4 925 377 privatkunder (2022)

Noen av dere får igjen 43 336 186 373 NOK

Resten må dekke 18 981 117 614

5 of 26

Bakgrunn

Omorganisering i 2021. Gruppen Overvåkning oppsto.

RAMO «Ansvar for å overvåke alle tjenestene. Ende til ende målinger, SLA-ansvar»

Etter litt «hjelp» fra ledelsen, kom AppDynamics inn i 2018. Forsvant ut i 2023.

Overvåkningsteamet bestod av 2 mann

Grafana kom inn med Openshift i 2015/2016. Prometheus var en del av Openshift-stacken. 2 enslige Prometheus-servere sørget for infrastruktur-metrikker.

Vi har en lang rekke tunge enterprise overvåkningsystemer i bagasjen

6 of 26

1.Oversikt over systemene

    • IT produktliste

2. Status på systemene

  • SLA – rapportering
  • Statusvisning eksterne
  • Statusvisning interne
  • Overvåking Modenhetsgrad (OMG)

3. Overvåking, alarmering & beredskap

    • Dashboard
    • Alarmering
    • Beredskapsvakt
    • Vaktrom (Observatoriet)

4. Trace, metrikker & log

    • Teknisk trace tilgjengelig for alle systemer i Skatteetaten
    • Lagring av overvåkingsdata

5. Rådgivning

    • Behovskartlegging
    • Kurs og opplæring i våre verktøy

6. Støtteverktøy

  • Vaktliste
  • SLI
  • Kakeliste
  • Argus infoskjerm

7. Forvaltning & utvikling

    • Drift og utvikling av IT verktøy for overvåking

7 of 26

Den spede begynnelse

Splunk ble innført på «bakrommet»

Icinga ble satt opp av Bård i mangel av noe annet.

1 prometheusserver pr. VM med eget funksjonsområde. Lokale disker

Grafana med en datakilde pr. prometheus.

I 2019 erstattet vi BMC Truesight med Prometheus

8 of 26

Dagens bilde

9 of 26

LGMT

Log = Splunk

Grafana Enterprise

Mimir

Grafana Enterprise Trace

10 of 26

Logg

  • Vi logger «rubb&stubb»
  • Dersom logg ikke virker, stopper fagapplikasjoner
  • Splunk-teamet var litt delvise denne uken
  • Vi bruker Splunk-plugin i Grafana
  • I våre egenutviklede verdistrømsovervåkning bruker vi Splunk i en skala som får Splunk-teamet til å rive seg i håret
  • Vi har en liten Loki-installasjon til eget bruk. Ikke gjort noen strategisk vurdering her

11 of 26

Metrikker

  • Vi har mange metrikker. (For mange)
  • CMDB, Openshift og nå Azure som kilder for oppsett
  • Egenutviklede komponenter som Charon og Thanatos for å styre provisjonering

12 of 26

Mimir

Mimir ble klekket etter en lang rugeperiode.

Av prosesuelle grunner tok det eviglang tid å på plass objektbasert lagring.

Pt. har vi rundt 20 mill timeseries. Maks har vært over 40.

Vi henter inn data fra kilder. Gjør oppsett i Grafana lett

Ytelse og forvaltning er ikke «en big deal» nå. Det meste er automatisert gjennom Openshift / Helm

Vi har ikke kjøpt lisens her. Ser ikke helt behov, og det vil bli veldig kostbart

13 of 26

Grafana

Vi kjører Grafana Enterprise grunnet støtte for plugins og auth.

Fantastisk til å samkjøre data og visualisere data

1250 dashboards. Mye ræl

Krevende å administrere

Her begynt på egen løsning for å automatisk rydde i dashboard

Vi har begynt å kikke på Grafana Scenes

Vi jobber med å flytte alarmering og event-prosess inn i Grafana og Grafana OnCall

Kan ikke bruke SaaS av sikkerhetshensyn

Dette skaper merarbeid og merkost for oss

14 of 26

Trace

  • Våre utvikleres våte drøm
  • Vi har kjøpt Grafana Enterprise Trace (auth er viktig for sikkerhet)
  • Gir utrolig god innsikt ved feilsøking og optimalisering
  • Ytelse er ikke optimal

15 of 26

Arkitektur

  • Vi har etablert et arkitekturforum
  • Her løfter vi inn saker til diskusjon og prøver å beslutte noe vi kan stille oss bak

16 of 26

IT-målbilder for overvåkning

17 of 26

Event-prosess (IPCE / ITIL)

  • Skatteetaten følger ITIL prosessen
  • Vi kobler oss opp mot denne ved å implementere event mot incient-prosessen.
  • Finnes lite dokumentasjon på dette I Grafana-universet

18 of 26

Utvikling

Lager applikasjoner etter behov

Tilpasser exportere og integrasjoner

Enklere å utvikle enn å tilpasse

Go gjør det det lettere å skille seg ut i stillingsmarkedet

Siden Grafana slipper mange apps kun i cloud, må vi lage en del selv

19 of 26

Forvaltning

  • Skatteetaten har en driftsmodell med egne grupper / seksjoner som drifter applikasjonsporteføljen
  • Overvåkning utvikler og forvalter sine løsninger selv.
  • Vi bruker lite tid på drift av egne verktøy
  • Alle grupper / team skal i utgangspunktet overvåke sine egne verktøy
  • Hvordan kan vi måle / sjekke hvordan status på overvåkning er?

20 of 26

OMG (Overvåkningmodenhetsgrad)

  • Vi har rappet inspirasjon fra flere andre
  • Gitlab, Grafana m.fl.
  • Vi har bygget en løsning hvor eiere av applikasjoner kan selvrapporere status på overvåkning

21 of 26

OMG detaljer

22 of 26

Overvåkning

  • Distribuert overvåkning er vanskelig. (Felleskomponenter, avhengigheter , folk mm.)
  • Observatoriet er under utvikling
  • Vår bemannede overvåkning av Skatteetatens systemer
    • Husk «Overvåke alle tjenester»
  • Rett & slett ha et birds-eye perspektiv på Skatteetatens systemer
  • Vi skal kjenne status til Skatteetaten («helst før brukerene finner det ut»)

23 of 26

SLO

  • Mye av tankegangen er basert på Google og Tom Wilkies RED
  • Vi har både implementert dette for overvåkning i Grafana og for rapportering i vår egen portal
  • Mye arbeid som gjenstår

24 of 26

SLO - detaljer

  • Vi definerer SLI som grunnlag for SLO og bygger SLA-rapportering automatisk basert på dette.

25 of 26

Oppsummert

  • Vi prøver å utnytte så mye av Grafana-porteføljen som vi kan
  • Vi kjører så mange av Grafana-produktene som vi trenger
  • Grafanas cloud-first / cloud-only passer oss dårlig
  • Vi utvikler og tilpasser det som mangler
  • Vi deler gjerne koden med oss. Ta kontakt

26 of 26

Takk for meg

robert.myhren@skatteetaten.no