1 of 70

2 of 70

Co nám AI dala a vzala

Matěj Račinský

3 of 70

Kdo jsem

Otaku, hráč
MLOps v Avastu/Gen Digital
Ing. z AI FEL, ČVUT
https://www.facebook.com/matej.racinsky
https://github.com/racinmat
https://www.linkedin.com/in/matej-racinsky/
Discord: azathoth_42

4 of 70

Odkazy a zdroje

Prezentace

https://bit.ly/af-2025-ai-slides

Zdroje

5 of 70

Odkazy a zdroje

Prezentace

https://bit.ly/af-2025-ai-slides

Zdroje

https://bit.ly/af-2025-ai-sources

6 of 70

Dotřetice všeho dobrého i zlého

O AI přednáším potřetí (předtím 2023, 2019)
Nikdy nevím, co bude příště

7 of 70

Čeho se dočkáte

Vývoj od poslední přednášky
Co generativní modely umí a co neumí (a co nás asi čeká)
Problémy s generativními modely a jejich používáním
Zajímavá použití, dobrým i špatným způsobem
Jak jsme oživovali animefestí maskoty pomocí LLM

8 of 70

Čeho se nedočkáte

Jak to funguje pod pokličkou
Procházení zdrojáků
Kdy vyjde GPT 5

9 of 70

Co je AI

10 of 70

Slovníček

Generativní model
Foundation model
LLM = Large Language model
GPT = Generative pre-trained transformer
Prompt

11 of 70

Není AI jako AI

Obecně: AI ≠ Generativní modely
Ale pro účely této přednášky ano
Generativní model = text/obraz/video/hudba → text/obraz/video/hudba

12 of 70

ChatGPT

Nelze minout, je všude
Nejrychleji rostoucí samostatný web
Lepší modely za paywallem
Dostalo AI do povědomí veřejnosti
První boom 2019 GPT2: text → text
Druhý boom 2022 ChatGPT a Stable Diffusion (obraz/text→obraz)

13 of 70

Co je LLM?

LLM = Velký jazykový model
Trénované parametry = čísla, matice
1 parametr ≈ 1 byte
Llama 4 behemoth

Největší přiznaný
skoro 2 biliony (2T)

Deepseek V3

Největší veřejně dostupný
671 miliard (671B, 688GB)

14 of 70

Kde je AI?

15 of 70

AI je všude

V práci už 2020 AI everywhere
Extrémní perspektivy

16 of 70

Střízlivá perspektiva

„Jak to funguje?“

„Občas“
„Něco to dělá“
„Něco dobrý, něco špatný“

17 of 70

Tokeny

Text→tokenizace→čísla→LLM→čísla→sampling→text
Max. Velikost vstupu = context window, v tokenech
1 token ~ 4 znaky EN, 2 CZ, ±🚌
100k tokenů = Harry Potter a kámen mudrců anglicky
Exponenciální nárust
Stále problém skutečně využít vstup

Bias k různým částem promptu
Imho se konzistence bude zlepšovat
Podle Nvidie 1,6%-50% informace využité

18 of 70

Ukázka tokenizace

19 of 70

SolidGoldMagikarp

20 of 70

Jiné verze tokenizeru a LLM

GPT-3, U LLM deduplikace dat, u tokenizeru ne

Jména uživatelů měla vlastní token

21 of 70

22 of 70

Učí se dobře, to nemohu říct

Učení se na vyscrapovaném internetu

Pre-training

Trénink na olabelovaných datech,�instrukcích
Trénink pro lidskou preferenci,�alignment

23 of 70

Jak přibližně fungují?

Na základě vstupu generují nejvíce žádaný/nejpravděpodobnější výsledek

Pravděpodobnostní model, princip od 60. let

Výsledek token po tokenu
Není vyřešená kontrola pravdivosti

24 of 70

Co je cíl? Co chtít za výstup?

Cíl tréninku musí být vyčíslitelný
Jak určit, co chceme?

Kulturní rozdíly
Biasy
Echo chamber
Lichocení

Pozor na to, co si přejete, dostanete to.

25 of 70

26 of 70

Problémy

Přílišný důraz na krátkodobé hodnocení uživatelů

Starší ChatGPT přestalo mluvit chorvatsky
29.4. stažena nová verze GPT-4o�Vlezdoprdelka (sycophancy)

27 of 70

Autorské bezpráví

Autorská a majetková práva

U textu i obrazu
Krádež za bílého dne

Snaha být too big to fail
Pochopitelné naštvání spousty lidí
Nepočítaně soudních procesů

28 of 70

29 of 70

30 of 70

Sky&Her

Text to speech model „Sky“
Po výhružce žalobou stažen
1985 Ford Motor & Bette Midler

31 of 70

Osnova

Právní problémy

Llama a pirátěné knihy
Právní závaznost chatbotů

Crawlery a ochrana před nimi
Novinky za 2 roky
A problémy s nimi
Gullability atd.
Deepseek vliv na akcie, čína
Hrozby
Nefunkční usecasy
Zajímavé usecasy, perplexity, notebooklm

32 of 70

Co jsme se o LLMs dozvěděli od posledně?

Simon Willison’s Annual LLM review 2023
Menší LLM si pustíte a dotrénujete doma
V základu je jednoduché vytvořit LLM

když máte data a výkon

Nevíme jak udělat GPT-4
LLM jsou „chytrá“, ale taky docela natvrdlá

ChatGPT: Línější v prosinci
Funguje vyhrožování, uplácení, vydírání...

Důvěřivost, lehkověrnost (Gullability)

33 of 70

2024

GPT-4 překonáno

Včetně self-hosted modelů

Výrazné zlevnění a zrychlení
Rozšíření multimodálních modelů, má je skoro každý poskytovatel

Zvuk →zvuk, video →zvuk...

AI agenti...stále nepřišli
Uvažující (Reasoning) LLM

34 of 70

Důvěřivost

U Software oddělujete program a data

Uživatel nemůže přeprogramovat váš eshop
SQL Injection

U LLM je všechno prompt, „program“ a „data“ dohromady

Prompt injection
Nyní neřešitelný problém
Kde a jak ho v práci používat?

Nejde pořádně oddělit kvalitu zdrojů

Vše je statistické
Žádná garance dodržování promptu

35 of 70

Není nutno, aby bylo přímo...trénováno

Před LLM pouze dotrénování
Few shot
Chain of throught
„Let‘s think step by step“
Z toho thinking tokeny

36 of 70

Zero, one-shot, few-shot learning

37 of 70

Chain of thought

38 of 70

Uvažování

„Uvažovací“ tokeny
Obohacení vstupu
Žádná souvislost s lidským uvažováním
Lže o způsobu uvažování

39 of 70

Matematika

Jak ví LLM kolik je 36+59?

40 of 70

Nástroje (Tools)

Můžete LLM naučit používat nástroje
LLM může odpovědět, že a jak chce použít nástroj
Function calling
Občas lže o použití nástrojů
Nebo je použije špatně

41 of 70

Matematika a nástroje

ChatGPT thinking používá tool

Obejde problém, ale není to reasoning

42 of 70

Alignment a bezpečnost

Komu má říct a co?
Jak odpovídat na morální otázky?
Jaké jsou lidské hodnoty?
Dopady a důsledky konání podle AI
Továrna na kancelářské sponky
AI nemá záměr, ale má utility funkci

43 of 70

Alignment a bezpečnost

44 of 70

Spousta investic

Zbrklé nasazování nedostatečně prozkoumaných věcí
USA zákaz nových výkonných GPU do Číny
Deepsek dokázal natrénovat ~o1 model mnohem levněji

45 of 70

46 of 70

Kde by AI být nemuselo

Já se AI živím, baví mě
A stejně jsou místa, kde by být nemuselo

47 of 70

captcha

48 of 70

hCaptcha

hCaptcha
Alternativa k reCaptcha od Googlu
Používaná discordem atd.
AI generované obrázky

49 of 70

AI generované názvy

50 of 70

51 of 70

Generování odpovědi NAMÍSTO hledání

52 of 70

Apple Intelligence

Shrnutí notifikací

53 of 70

Zbrklé používání

54 of 70

55 of 70

56 of 70

LLM v zákaznické podpoře

Kanadská aerolinka vracela peníze za lístek zákazníkovi, poté, co LLM řeklo, že to jde, po soudní při
Zákazník Chevroletu ukecal LLM k nákupu za $1, nakonec to soudně nevymáhal

57 of 70

AI search engine

Perplexity.ai
ChatGPT+search
Opak toho, co předvádí google

58 of 70

59 of 70

60 of 70

61 of 70

ChatGPT search

62 of 70

NotebookLM

63 of 70

Chat s Animefestími maskoty

64 of 70

65 of 70

Co si z toho všeho odnést?

66 of 70

Je to nástroj
Jsou špatná i dobrá použití
Je fajn tomu dát šanci
Zkuste to na věci, co vás nebaví
Buďte obezřetní a nespoléhejte se moc
Je v pořádku AI nepoužívat

67 of 70

68 of 70

Dotazy?

69 of 70

Odkazy a zdroje

Prezentace

https://bit.ly/af-2025-ai-slides

Zdroje

https://bit.ly/af-2025-ai-sources

70 of 70

Děkuji za pozornost