1 of 23

Idősor előrejelzés ML modellekkel

2023-03-21

2 of 23

Lehetséges ML feladatok

  • Előrejelzés (Regresszió)
  • Klasszifikáció
  • Anomália detekció

3 of 23

Lehetséges ML Modellek

  • Lineáris modellek
  • Döntési Fa alapú modellek
  • Deep learning alapú modellek

4 of 23

Adatok előkészítése

5 of 23

Adatok előkészítése - walk forward 1

6 of 23

Adatok előkészítése - walk forward 2

7 of 23

Lineáris modellek

8 of 23

Lineáris modellek

A lineáris regresszió széles körben használatos a gyakorlatban, és természetesen alkalmazkodik akár összetett előrejelzési feladatokhoz is.

A lineáris regressziós algoritmus megtanulja, hogyan készítsen súlyozott összeget a bemeneti jellemzőiből.

Két jellemző esetén a következő lenne:

cél = súly * feature_1 + súly * feature_2 + bias

9 of 23

Lineáris modellek

cél = súly_1 * feature_1 + súly_1 * feature_2 + bias

A képzés során a regressziós algoritmus megtanulja a súly_1, súly_2 és bias paraméterek értékeit, amelyek a legjobban illeszkednek a célértékhez.

10 of 23

Lineáris modellek és az idősor

Mivel a lineáris regresszió képes több FEATURE alapján előrejelző modellt képezni, igy egy megfelelő adat transzformációval az idősor előrejelzési probléma átalakítható egy felügyelt gépi tanulási problémára.

adatt = súly_1 * atadt-1 + súly_2 * atadt-2 + …… + súly_n * atadt-n + bias

Tehát egy walking forward (görgetett ablak) megoldással a múltbeli idő pillanatokat tekinthetjük úgy mint attribútumok, melyből ML model képezhető.

11 of 23

Lineáris modellek és az idősor

Az eddig használt idősor előrejelző modelljeink UNIVARIATE adatokkal dolgoztak, azonban az eddig megismert módszerekkel MULTIVARIATE feature halmazt is létrehozhatunk, amely segítheti a modell tanulását.

Ilyenek:

  • MA
  • Trend komponens
  • Szezonális komponens

12 of 23

Lineáris modellek és az idősor

A MULTIVARIATE adatokat többféleképpen is felhasználhatjuk:

  • egy modellben int feature halmaz bővítése
  • több modell készítése és kombinált előrejelző modell építése.

pl.: Cél = Szezon előrejelző + Trend előrejelző + Residual előrejelző

13 of 23

Lineáris modellek és az idősor

A lineáris modell-ek érzékenyek a következőkre:

  • Adat csúszás -> Box Cox transformálni kell
  • A nagy intervallumú adatok nagyobb súlyt kaphatnak -> Át kell skálázni az adatokat
  • Hiányzó elemek -> interpolálni kell

14 of 23

Döntési fa alapú modellek

15 of 23

Döntési fa alapú modellek

A döntési fa alapú modellek jellemzően osztályozási feladatokban szerepelnek, viszont a legtöbb döntési fal alapú modell regressziós feladatokat is képes hatékonyan megoldani.

Ilyen esetben az idősorokat a regressziónál használt módon újra kell keretezni.

Azonban még a regresziónál működik a TRAIN/TEST split alapú tanulás addig a Döntési fáknál csak a WalkForward alapú megközelítés a járható út

16 of 23

Walkforward és a távoli előrejelzés problémája

17 of 23

Train/Test split

A walk forward módszer jól alkalmazható az idősorok TRAIN/TEST halmaz vágására.

Azonban azt figyelembe kell vennünk, hogy a “nagyon távoli jövőbe” a legtöbb modell nem képes előrejelezni.

18 of 23

Walk forward

Ennek egy megoldása, a állandóan előre toljuk, és újra tanítják a modellünket.

19 of 23

Multistep forecast

20 of 23

Multistep forecast

21 of 23

Multistep forecast

Felmerülhet bennünk a kérdés, hogy amennyiben csak EGY lépést jelzünk előre, akkor hogyan tudunk olyan modelleket építeni, melyek akár 2,3,6,12,24 lépésre is képesek előrejelzést végezni.

A megoldás többféleképpen is lehetséges:

  • Az előre jelzett értékeket hozzáadjuk múltbeli adatokhoz, és az így kiegészített új adattal ismét előrejelzést végzünk

Ismert múlt

előrejelzett érték

előrejelzett érték újrafelhasználása

22 of 23

Multistep forecast

A megoldás többféleképpen is lehetséges:

  • Léteznek olyan modellek amelyek eleve lehetővé teszik többlépéses előrejelzést. Ilyen pl. az LSTM-es megközelités

előrejelzett érték

Ismert múlt

23 of 23

Multistep forecast

  • Épithetünk párhuzamos modelleket amelyek célja más más lépés előrejelzése

előrejelzett érték

Ismert múlt

model1

model2

model3

model4