Umělá inteligence�pro humanitní a společenské vědy
Barbora Hladká, Martin Holub�{hladka, holub}@ufal.mff.cuni.cz
https://ufal.mff.cuni.cz/courses/npfl142
unless otherwise stated
Univerzita Karlova
Matematicko-fyzikální fakulta
Ústav formální a aplikované lingvistiky
Osnova kurzu
Poznámka ke generativním modelům AI
2
hluboké�učení
strojové�učení
umělá inteligence�(AI)
symbolické�systémy�AI
Přednáška #1
Analýza dat – Zkáza Titanicu
3
Přednáška #1
Výzkumná otázka: Na čem záviselo přežití při zkáze Titanicu?
4
Přednáška #1
Data
5
Přednáška #1
Zkáza Titanicu
6
Zdroj: Wikipedia
Přednáška #1
Načteme data do R
dataset <- read_csv("titanic.csv") # načtení dat ze souboru do tabulky v R�print(dataset) # řádky = záznamy o cestujících, � # sloupce = vlastnosti cestujících (= atributy)
�
7
O atributech (attributes) se též mluví jako o proměnných (variables), hlavně ve statistice. �Ve strojovém učení se atributy používají jako tzv. příznaky (features).
Přednáška #1
Seznámení s daty – Popis atributů
8
Přednáška #1
Seznámení s daty – Hodnoty atributů
9
Přednáška #1
Jak záviselo přežití na pohlaví
table(dataset$Survived, dataset$Sex)� female male� 0 81 468� 1 233 109
barplot(� table(dataset$Survived, dataset$Sex),� main = "Survived and Sex",� xlab = "Sex",� ylab = "Passenger count",� col = c("darkgreen","gray")�)
legend(� legend = c("Survived", "Not Survived"),� fill = c("darkgreen","gray"),� "topleft"�)
10
Přednáška #1
Jaký byl poměr přeživších
N <- nrow(dataset) # počet cestujících�survived <- sum(dataset$Survived) # počet přeživších�round(survived/N, 3) # podíl přeživších, zaokrouhleno na 3 des. místa�[1] 0.384
11
Přednáška #1
Jaký byl poměr přeživších žen a mužů
12
Přednáška #1
Věk cestujících
13
summary(dataset$Age) # číselné charakteristiky číselného atributu Age
�Min. 1st Qu. Median Mean 3rd Qu. Max. NA's �0.42 20.12 28.00 29.70 38.00 80.00 177
Přednáška #1
Histogram
Histogram je sloupcový graf, který vizualizuje rozdělení hodnot numerického atributu
14
Přednáška #1
Věk mužů a žen
15
Přednáška #1
Jak záviselo přežití na třídě obývané kajuty
16
table(dataset$Pclass) # počty cestujících v jednotlivých třídách� 1 2 3 �216 184 491
Zdroj: Encyclopedia Titanica
Přednáška #1
Kontingenční tabulka
Kontingenční tabulka (contingency table) zobrazuje četnosti hodnot diskrétních atributů.�V buňkách tabulky jsou četnosti kombinací hodnot atributů.
table(dataset$Pclass) # kontingenční tabulka
1 2 3 # počty cestujících ve třech třídách
216 184 491
table(dataset$Survived, dataset$Sex) # kontingenční tabulka� female male # počty žen a mužů, kteří (ne)přežili� 0 81 468� 1 233 109
table(dataset$Survived, dataset$Embarked) # kontingenční tabulka
C Q S # počty cestujících z jednotlivých
0 75 47 427 # přístavů,kteří (ne)přežili
1 93 30 217
17
Přednáška #1
Jak záviselo přežití na třídě obývané kajuty
18
table(dataset$Pclass, dataset$Survived) # kontingenční tabulka
0 1 # počty (ne)přeživších v jednotlivých třídách
1 80 136
2 97 87
3 372 119
Přednáška #1
Jaký byl poměr přeživších cestujících ve třech třídách kajut
19
Přednáška #1
Jak záviselo přežití na pohlaví, věku a třídě
Kombinace tří atributů Age, Sex, Pclass
20
| 0 | 1 |
1 | 3 | 91 |
2 | 6 | 70 |
3 | 72 | 72 |
| 0 | 1 |
1 | 77 | 45 |
2 | 91 | 17 |
3 | 300 | 47 |
Přednáška #1
Jak záviselo přežití na pohlaví v Google Spreadsheet
21
Přednáška #1
AI assisted coding – programování např. s ChatGPT
22
Přednáška #1
AI assisted coding – programování např. s ChatGPT
23
Přednáška #1
Automatická predikce a strojové učení�Motivační příklad
24
Přednáška #1
Automatické určování autorství Kredit: M. Holub & J. Genči
�Možní autoři
�(1) A. Stašek (2) J. Neruda (3) J. Arbes��(4) K. Klostermann (5) F. X. Šalda (6) T. G. Masaryk
25
Přednáška #1
Co udělat, abychom mohli úspěšně predikovat autora ukázky?
Příprava na rozpoznávání – jak by postupoval člověk
26
Přednáška #1
Jak predikovat autora ukázky?
Postup predikce
Možné problémy
27
Přednáška #1
Jak predikovat autora ukázky automaticky?
28
hluboké�učení
strojové�učení
informatika
lingvistika
NLP
umělá inteligence�(AI)
symbolická�AI
Přednáška #1
Strojové učení – nástin základních principů
29
Přednáška #1
Automatické určování autorství
30
Přednáška #1
Vektory příznaků
Jeden příznak může být např. průměrná délka vět.
31
Přednáška #1
Příprava trénovacích dat
32
Ilustrace
Přednáška #1
Příklad učícího algoritmu – Support Vector Machines
Testování – pro odhad úspěšnosti modelu
33
Výsledek strojového učení – ilustrace
Přednáška #1
Evaluace – ukázka matice konfuze
34
Autor 01 � 429x správně klasifikován��Chybné predikce� 1x nesprávně jako autor 2� 2x nesprávně jako autor 4� 5x nesprávně jako autor 5� 3x nesprávně jako autor 6
Přednáška #1
Evaluace – správné predikce na diagonále matice konfuze
35
Accuracy = 429+333+406+353+263+284/2152
Přednáška #1
Malý teaser – datasety, se kterými budeme pracovat
36
dataset | metody (plán) | doména | zdroj |
Titanic | analýza + bin. klasifikace | sociologie | |
Migranti | analýza + NLP + klasifikace | sociologie | |
Andersen | analýza + NLP | literární vědy | |
Autorství | analýza + NLP + klasifikace + NN | literární vědy | |
Koně | NLP + klasifikace | jazykověda, historie | |
Soud | NLP + lin. regrese + shluky + NN | právo | |
Kampaně | NLP + NN bin. klasifikace | podnikání | |
Nemovitosti | regrese + NN | realitní trh | |
Přijímačky | bin. klasifikace | vzdělávání | |
Výška | korelace + shlukování | psychologie |
Přednáška #1
Informace k organizaci kurzu
37
Přednáška #1
Místo a čas
38
Přednáška #1
Učební materiály
Hlavní rozcestník https://ufal.mff.cuni.cz/courses/npfl142
39
Přednáška #1
Studijní předpoklady
40
Přednáška #1
Požadavky na splnění předmětu – 4 kredity za kurz
41
Přednáška #1
Shrnutí
42
Přednáška #1
Take-home message – aneb co si máte zapamatovat a naučit
43
Přednáška #1