1 of 22

Adattárház rendszerek

Kovács László, ME

2 of 22

Adattárház

  • speciális adatbázis
  • egyedi tárolási-kezelési formátum
  • adatelemzés orientált
  • adatmegjelenítési elemek
  • felhasználó orientált műveletek
  • egyszerűbb adatstruktúra
  • adatelemzés orientált belső szerkezet
  • több-dimenziós adatmodell, adatkocka
  • MDX

3 of 22

Adattárház

- Inmon (1995)

  • OLAP alapú adattárolás
  • heterogén adatok integrálása
  • múltbeli adatok
  • MD modell
  • MD algebra
  • nagy adatmennyiség

4 of 22

DW architektúra

5 of 22

DW architektúra

6 of 22

ETL architektúra

7 of 22

Adattisztítás

Inkonzisztencia okai:

  • hiányzó adatelem
  • hiányzó adatérték
  • hibás adat érték
  • hibás számítások
  • duplikáció
  • eltérő formátum
  • eltérő kódolás
  • integritási hiba
  • név konfliktus
  • strukturális konfliktus

8 of 22

MD adatkocka modell

9 of 22

MD adatkocka

10 of 22

MD logikai modell : Star/Csillag séma

11 of 22

MD logikai modell : Snowflake/Hópehely séma

  • a dimenziókhoz szintek (felbontási szintek) rendelhetőek
  • szintek hierarchiája
  • bázis szint
  • PCR kapcsolat

12 of 22

MD adatmodell

  • elemi értékű cellák
  • változók, PKI értékek
  • dimenzió szintek
  • measure dimenzió
  • measure értékei változókat jelölnek
  • a cellák lehetnek üresek
  • member: a dimenzió egy értéke

13 of 22

14 of 22

MD műveletei

  • adatlekérdezés orientált
  • elemi műveletek
  • legkisebb kocka: egy skalár érték
  • MD algebra:
    • selection (slice and dice)
    • drill down
    • roll up
    • fold
    • ...

15 of 22

MD művelet: selection

slice and dice: részkocka képzése

csak a feltételnek megfelelő cellák maradnak meg

  • variable:
  • attribute

f(v)(Cube)

f(d.a)(Cube)

profit > 100 (Sales)

16 of 22

MD művelet: drill down and roll up

drill down: részlezetőbb szintre váltás (snowflake modell)

Részletek kijelzése

roll up: aggregáltabb szintre lépés (snowflake model)

Aggregáció jelzése

кd(Cube)

17 of 22

MD művelet: fold

fold: dimenziók megszüntetése

  • jelentés: group by
  • csökkentett dimenziószám
  • a cellák összesített értékeket mutatnak

фd, aggr(Cube)

18 of 22

MD műveletek

Input kocka : Sales(customers:person, products:item,time:month)

E1:

eladási adatok 2017-re:

measure = sales_amount and time = 2017

time:year (Sales))

E2:

eladott darabszámok magyar vevőkre nézve 2017.ben:

measure = sales_amount and customer = “Hungary” and time = 2017

time:year, customer: country (Sales))

E3: össz eladási adatok havi bontásban фtime:sum(Sales)

E4: össz eladási adatok évi bontásban фtime:sumtime:year (Sales))

19 of 22

MDX nyelv

MDX nyelv modellje:

  • adatkocka
  • dimenziók
  • dimenzió hierarchia
  • szintek (level)
  • member: dimenzió érték
  • Measure
  • Tuple: értékek n-ese különböző dimenziókból véve
  • Set: azonos szerkezetű tuple-ek együttese
  • Default member
  • Property

20 of 22

MDX nyelv

lekérdezés operátora:

SELECT FROM Sales

SELECT {[MEASURES].[unit sold]} ON COLUMNS FROM Sales;

SELECT {[MEASURES].[unit sold]} ON AXIS(0), {Products.Fruit.MEMBERS} ON AXIS(1) FROM

Sales;

21 of 22

MDX minta lekérdezés

22 of 22