1 of 30

Mesterséges intelligencia

Adatbányászat

2 of 30

Motiváció

  • Adatrobbanás zajlik: terabájtokról (1012) áttérünk a petabájtokra (1015)
    • Nagy adatgyűjtemények keletkeznek és érhetők el
      • Automatikus adatgyűjtő mérőeszközök, adatbázisrendszerek, Web, közösségi hálók, számítógépes ügyfélszolgálatok
    • Nagy mennyiségű nyers adat keletkezik a következő területeken
      • Üzleti élet: Web, e-kereskedelem, pénzügyi tranzakciók, tőzsde
      • Tudomány: távérzékelő berendezések, bioinformatika, tudományos szimulációk
      • Közösségi és mindennapos élet: Facebook, hírek, digitális kamerák, YouTube
  • Ellep bennünket a rengeteg adat, bár mi valójában inkább tudásra vágyunk!
    • A nem nyilvánvaló információ gyakran rejtve van az adatokban
  • A szükség szüli az új technológiát: Az adatbányászat a nagy mennyiségű adatok automatikus elemzése

3 of 30

Adatbányászat

  • Különböző definíciók
    • Implicit (rejtett), korábban nem ismert és potenciálisan hasznos információ nem-triviális eszközökkel való feltárása.
    • Nagytömegű adatok feltárása és elemzése félig automatikus módon azért, hogy értelmes (nem triviális, implicit, eddig nem ismert és potenciálisan hasznos) mintázatokat fedezzünk fel.
    • A KDD (Knowledge Discovery from Databases) folyamat része

4 of 30

KDD folyamat

5 of 30

Adatbányászati feladatok

  1. Előrejelzés-
    • Más néven felügyelt adatbányászat
    • Egyes változók segítségével becsüljük meg, jelezzük előre más változók ismeretlen vagy jövőbeli értékét
    • Például:
      • Osztályozás
      • Regresszió
      • Eltérés, kiugró érték keresés
  2. Leírás- jellemzés
    • Más néven nem felügyelt (felügyelet nélküli) adatbányászat
    • Találjunk olyan, az emberek számára interpretálható mintázatot, amely jellemzi az adatot
    • Például:
      • Csoportosítás, klaszterezés
      • Társítási szabályok keresése
      • Szekvenciális mintázatok keresése

6 of 30

Osztályozás

  • Adott rekordok egy halmaza (tanító adatállomány)
    • Minden rekord attributumok értékeinek egy halmazából áll, az attributumok egyike (vagy némelyike) az ún. osztályozó változó.
  • Találjunk olyan modellt az osztályozó attributum-ra, amely más attributumok függvényeként állítja elő.
  • Cél: korábban nem ismert rekordokat kell olyan pontosan osztályozni ahogyan csak lehetséges.
    • A teszt adatállomány a modell pontosságának meghatározására szolgál. Az adatállományt két részre bontjuk, a tanítón illesztjük a modellt, a tesztelőn pedig megállapítjuk a hibáját.

7 of 30

8 of 30

Példák osztályozási feladatra

  • Osztályozzuk az országokat éghajlatuk alapján (szárazföldi, mediterrán, trópusi), úgy hogy mérjük az évi középhőmérsékletet, csapadékot, stb.
  • Az autók márkája, kora, súlya, mérete, stb. ismeretében osztályozzuk az autókat, hogy mennyi az éves szervízköltség (sok, közepes, kevés)
  • a levelezés költség csökkentése azon ügyfelek halmazának megcélzásával akik valószínűleg megvásárolják az új telefont a foglalkozás, lakhely, fizetés értékek alapján (demográfiai adatok, életstílus, stb)

9 of 30

  • Csalásnak tűnő esetek előrejelzése hitelkártya tranzakciónál a hitelkártya történet és a számlatulajdonos információi alapján, a korábbi tranzakciókat felcímkézzük (csalás, jó) és ezekre betanítunk egy modellt, ami a jövőben a tranzakciónál előrejelezzük a csalást
  • Ügyfél elvesztésének előrejelzése az összes múlt és jelenlegi ügyfélhez kapcsolódó tranzakció alapján (milyen gyakran telefonál, hol telefonál, melyik napszakban, pénzügyi helyzete, családi állapota, stb), így az ügyfeleket cimkézzük hűségesnek vagy hűtlennek
  • Égboltfelmérés katalógizálása, tehát égi objektumok osztályainak (csillag vagy galaxis) előrejelzése, figyelembe véve még az alig láthatóakat is
    • Sikeres: 16 új vörös-eltolódású kvazárt találtak, amely a legtávolabbi objektumok egyike és nehéz megtalálni

10 of 30

  • Galaxisok osztályozása

Fiatal

Középkorú

Idős

Adatnagyság:

  • 72 millió csillag, 20 millió galaxis
  • Objektum katalógus: 9 GB
  • Kép adatbázis: 150 GB

Osztályozó változó:

  • Az alakzat állapotai

Attributumok:

  • Képi jellemzők
  • A vett fényhullámok karakterisztikája stb.

Forrás: http://aps.umn.edu

11 of 30

Regresszió

  • Jelezzük előre egy adott folytonos változó értékét más változók értékeit felhasználva, lineáris vagy nemlineáris függőséget feltételezve

12 of 30

Példák regresszió feladatra

  • Új termékből eladott mennyiség előrejelzése a reklámköltségek alapján
  • A szélsebesség előrejelzése a hőmérséklet, a páratartalom, a légnyomás, stb. segítségével
  • A részvény-indexek idősorral való előrejelzése

13 of 30

Kiugró objektumok keresése

  • A kiugró (outlier) objektum olyan adatobjektum, amely az adatobjektumok általános viselkedésének nem felel meg, például valamelyik komponense nagyon eltér az átlagtól
  • Minek tekintsük, zajnak vagy kivételnek?
    • Ami az egyik szempontból hiba, az egy másik vizsgálat számára értéket jelent, például csalásra következtethetünk, ha a szokásos használattól nagyon eltér egy bankkártya használat
  • Ritka események felderítése (például CERN gyorsítójában a mért adatok alapján keletkezett-e új részecske)

14 of 30

15 of 30

Klaszterezés

  • Nincsenek előre megadott címkék a csoportokhoz
  • Magukat az adatokat csoportosítjuk, hogy új kategóriákat fedezzünk fel, például utcai rablások alapján különböző veszélyezettségű területeket különböztethetünk meg, vagy a házak értékeit vizsgálva egy adott ház helyéből az értékére következtethetünk
  • Alapelve, hogy maximalizáljuk az osztályokon belüli hasonlóságot és ezzel egyidőben minimalizáljuk az osztályok közötti hasonlóságot
  • Hasonlósági mérték lehet euklideszi távolság folytonos attribútumok esetén, illetve egyéb, a feladattól függő mérőszámok

16 of 30

Példa klaszterezés feladatra

  • Piaci szegmentáció, tehát a piac felosztása az ügyfelek diszjunkt halmazokra való bontás útján, ahol minden egyes potenciális célcsoportot, piaci szegmenst különböző marketing eszközökkel tervezünk elérni
  • Egymáshoz hasonló dokumentumok csoportjainak keresése a bennük megjelenő fontosabb kulcsszavak alapján
    • Példa: Csoportosítandó 3204 cikk a Los Angeles Timesból
    • Hasonlósági mérték: mennyi közös szó van a dokumentumokban

17 of 30

18 of 30

Társítási szabályok keresése

  • Adott rekordok egy halmaza, amely tételeket (termékek) egy összességét tartalmazza
  • Keressünk olyan összefüggéseket, következtetéseket, amely egyes tételek előfordulását előrejelzi más tételek előfordulása alapján (asszociáció)

Feltárt szabályok:

{Tej} --> {Kóla}

{Pelenka, Tej} --> {Sör}

19 of 30

Példa társítási szabály keresés feladatra

  • Marketing és reklám
    • Legyen a feltárt szabály {Édessütemény, …} -> {Burgonyaszirom}
    • Burgonyaszirom, mint következmény
      • Arra használható, hogy meghatározzuk, mit tegyünk az eladás meggyorsításáért
    • Édessütemény, mint előzmény
      • Arra használható, hogy lássuk, mely termékekre van hatással az, ha a bolt felhagy az édessütemények forgalmazásával
    • Együttesen a kettő
      • Arra használható, hogy lássuk, mely termékeket kell az édessütemények mellett árulni, hogy előremozdítsuk a burgonyaszirom forgalmát

20 of 30

  • Bevásárlóközpontok polckezelése
    • Célja azon termékek meghatározása, amelyeket elég sok vásárló vesz meg egyszerre
    • Példa: Ha egy vásárló pelenkát és tejet vesz, akkor nagy valószínűséggel vesz sört is
      • Ne lepődjünk meg, ha a pelenkák után 6-os csomagban sört találunk

21 of 30

Szekvenciális mintázatok keresése

  • Adott objektumok egy halmaza úgy, hogy minden objektumhoz tartozik eseményeknek egy sorozata
  • Keressünk olyan szabályokat, amelyek a különböző események között minél erősebb szekvenciális függőségeket jeleznek előre
  • A szabályokat az első felfedezett mintázatok alakítják ki
    • A mintázatokban előforduló eseményeknek időbeli peremfeltételeknek kell eleget tenniük

22 of 30

Példa szekvenciális minta keresésésre

  • Hibaüzenet a telekommunikációban:
    • (Átalakító_hiba Túlzott_vezeték_áram)

(Egyenirányító_riadó) --> (Tűz_riadó)

  • Tranzakciók sorozata automatizált vásárlásnál:
    • Számítástechnikai könyvesbolt:

(Bevezetés_a_Visual_C_be) (Bevezetés_C++_ba) --> (Perl_kezdőknek, Tcl_Tk_nyelv)

    • Sportruházat bolt:

(Cipő) (Teniszütő, Teniszlabda) --> (Sport_dzseki)

    • Számítástechnikai bolt:

(Kamera) -> (64GB_SD_kártya)

23 of 30

Osztályozás

24 of 30

Osztályozási hatékonyság metrika

  •  

25 of 30

Osztályozási módszerek

  • Döntési fák
  • Szabály alapú módszerek
  • Naív Bayes módszer
  • Memória alapú módszerek
  • Neurális hálók
  • Logisztikus regresszió
  • Vektorgépek: SVM

26 of 30

Döntési fák

  • Kis költséggel állíthatóak elő
  • Kimagaslóan jó új rekordok osztályozásánál
  • A kis méretű fák könnyen interpretálhatóak
  • Sok építő algoritmus (Hunt, CART, C4.5, ID3, AID, CHAID, SPRINT), több építő szempont (Gini index, entrópia, téves osztályozási hiba)
    • Például a C4.5 egyszerű, egy mélységű keresés, amely információnyereséget használ

27 of 30

Szabály alapú módszerek

  • Szabályok halmazát adja eredményül
  • Szabály formája:
    • IF feltétel THEN következmény (Ha feltétel Akkor következmény)
    • Például: IF(Kor < 30) ꓥ (Sok pizzát eszik) THEN Nem fitt
  • A szabályokat könnyebb megérteni, mint a nagy döntési fákat
  • Egy szabály készül a döntési fában levő összes gyökértől levélig menő útból

28 of 30

Naív Bayes módszer

  •  

29 of 30

30 of 30

Memória alapú módszerek�k-NN (k legközelebbi szomszéd)

  • Meglévő adatokból kiválasztja a k leginkább hasonlót, és azok osztálycímkéje alapján prediktál
  • K általában kicsi szám
  • Szavazás:
    • Többségi szavazás:
      • Amelyik osztálycímke szerepel legtöbbször a legközelebbi szomszédok esetében, azt rendeljük a tesztadathoz
    • Súlyozott szavazás:
      • A távolság alapján súlyozzuk a szavazatokat, a jobbat (kisebb távolságot eredményező) címkét választjuk
  • Nagyban függ a távolság metrikától
  • K lehet 1, illetve két osztályos probléma esetén páratlan