1 of 70

2 of 70

Co nám AI dala a vzala

Matěj Račinský

3 of 70

Kdo jsem

4 of 70

Odkazy a zdroje

Zdroje

5 of 70

Odkazy a zdroje

6 of 70

Dotřetice všeho dobrého i zlého

  • O AI přednáším potřetí (předtím 2023, 2019)
  • Nikdy nevím, co bude příště

7 of 70

Čeho se dočkáte

  • Vývoj od poslední přednášky
  • Co generativní modely umí a co neumí (a co nás asi čeká)
  • Problémy s generativními modely a jejich používáním
  • Zajímavá použití, dobrým i špatným způsobem
  • Jak jsme oživovali animefestí maskoty pomocí LLM

8 of 70

Čeho se nedočkáte

  • Jak to funguje pod pokličkou
  • Procházení zdrojáků
  • Kdy vyjde GPT 5

9 of 70

Co je AI

10 of 70

Slovníček

  • Generativní model
  • Foundation model
  • LLM = Large Language model
  • GPT = Generative pre-trained transformer
  • Prompt

11 of 70

Není AI jako AI

  • Obecně: AI ≠ Generativní modely
  • Ale pro účely této přednášky ano
  • Generativní model = text/obraz/video/hudba → text/obraz/video/hudba

12 of 70

ChatGPT

  • Nelze minout, je všude
  • Nejrychleji rostoucí samostatný web
  • Lepší modely za paywallem
  • Dostalo AI do povědomí veřejnosti
  • První boom 2019 GPT2: text → text
  • Druhý boom 2022 ChatGPT a Stable Diffusion (obraz/text→obraz)

13 of 70

Co je LLM?

  • LLM = Velký jazykový model
  • Trénované parametry = čísla, matice
  • 1 parametr ≈ 1 byte
  • Llama 4 behemoth
    • Největší přiznaný
    • skoro 2 biliony (2T)
  • Deepseek V3
    • Největší veřejně dostupný
    • 671 miliard (671B, 688GB)

14 of 70

Kde je AI?

15 of 70

AI je všude

  • V práci už 2020 AI everywhere
  • Extrémní perspektivy

16 of 70

Střízlivá perspektiva

„Jak to funguje?“

  • „Občas“
  • „Něco to dělá“
  • „Něco dobrý, něco špatný“

17 of 70

Tokeny

  • Text→tokenizace→čísla→LLM→čísla→sampling→text
  • Max. Velikost vstupu = context window, v tokenech
  • 1 token ~ 4 znaky EN, 2 CZ, ±🚌
  • 100k tokenů = Harry Potter a kámen mudrců anglicky
  • Exponenciální nárust
  • Stále problém skutečně využít vstup
    • Bias k různým částem promptu
    • Imho se konzistence bude zlepšovat
    • Podle Nvidie 1,6%-50% informace využité

18 of 70

Ukázka tokenizace

19 of 70

SolidGoldMagikarp

20 of 70

Jiné verze tokenizeru a LLM

  • GPT-3, U LLM deduplikace dat, u tokenizeru ne

  • Jména uživatelů měla vlastní token

21 of 70

22 of 70

Učí se dobře, to nemohu říct

  • Učení se na vyscrapovaném internetu
    • Pre-training
  • Trénink na olabelovaných datech,�instrukcích
  • Trénink pro lidskou preferenci,�alignment

23 of 70

Jak přibližně fungují?

  • Na základě vstupu generují nejvíce žádaný/nejpravděpodobnější výsledek
    • Pravděpodobnostní model, princip od 60. let
  • Výsledek token po tokenu
  • Není vyřešená kontrola pravdivosti

24 of 70

Co je cíl? Co chtít za výstup?

  • Cíl tréninku musí být vyčíslitelný
  • Jak určit, co chceme?
    • Kulturní rozdíly
    • Biasy
    • Echo chamber
    • Lichocení
  • Pozor na to, co si přejete, dostanete to.

25 of 70

26 of 70

Problémy

Přílišný důraz na krátkodobé hodnocení uživatelů

  • Starší ChatGPT přestalo mluvit chorvatsky
  • 29.4. stažena nová verze GPT-4o�Vlezdoprdelka (sycophancy)

27 of 70

Autorské bezpráví

  • Autorská a majetková práva
    • U textu i obrazu
    • Krádež za bílého dne
  • Snaha být too big to fail
  • Pochopitelné naštvání spousty lidí
  • Nepočítaně soudních procesů

28 of 70

29 of 70

30 of 70

Sky&Her

  • Text to speech model „Sky“
  • Po výhružce žalobou stažen
  • 1985 Ford Motor & Bette Midler

31 of 70

Osnova

  • Právní problémy
    • Llama a pirátěné knihy
    • Právní závaznost chatbotů
  • Crawlery a ochrana před nimi
  • Novinky za 2 roky
  • A problémy s nimi
  • Gullability atd.
  • Deepseek vliv na akcie, čína
  • Hrozby
  • Nefunkční usecasy
  • Zajímavé usecasy, perplexity, notebooklm

32 of 70

Co jsme se o LLMs dozvěděli od posledně?

  • Simon Willison’s Annual LLM review 2023
  • Menší LLM si pustíte a dotrénujete doma
  • V základu je jednoduché vytvořit LLM
    • když máte data a výkon
  • Nevíme jak udělat GPT-4
  • LLM jsou „chytrá“, ale taky docela natvrdlá
    • ChatGPT: Línější v prosinci
    • Funguje vyhrožování, uplácení, vydírání...
  • Důvěřivost, lehkověrnost (Gullability)

33 of 70

2024

  • GPT-4 překonáno
    • Včetně self-hosted modelů
  • Výrazné zlevnění a zrychlení
  • Rozšíření multimodálních modelů, má je skoro každý poskytovatel
    • Zvuk →zvuk, video →zvuk...
  • AI agenti...stále nepřišli
  • Uvažující (Reasoning) LLM

34 of 70

Důvěřivost

  • U Software oddělujete program a data
    • Uživatel nemůže přeprogramovat váš eshop
    • SQL Injection
  • U LLM je všechno prompt, „program“ a „data“ dohromady
    • Prompt injection
    • Nyní neřešitelný problém
    • Kde a jak ho v práci používat?
  • Nejde pořádně oddělit kvalitu zdrojů
    • Vše je statistické
    • Žádná garance dodržování promptu

35 of 70

Není nutno, aby bylo přímo...trénováno

  • Před LLM pouze dotrénování
  • Few shot
  • Chain of throught
  • „Let‘s think step by step“
  • Z toho thinking tokeny

36 of 70

Zero, one-shot, few-shot learning

37 of 70

Chain of thought

38 of 70

Uvažování

  • „Uvažovací“ tokeny
  • Obohacení vstupu
  • Žádná souvislost s lidským uvažováním
  • Lže o způsobu uvažování

39 of 70

Matematika

  • Jak ví LLM kolik je 36+59?

40 of 70

Nástroje (Tools)

  • Můžete LLM naučit používat nástroje
  • LLM může odpovědět, že a jak chce použít nástroj
  • Function calling
  • Občas lže o použití nástrojů
  • Nebo je použije špatně

41 of 70

Matematika a nástroje

  • ChatGPT thinking používá tool
    • Obejde problém, ale není to reasoning

42 of 70

Alignment a bezpečnost

  • Komu má říct a co?
  • Jak odpovídat na morální otázky?
  • Jaké jsou lidské hodnoty?
  • Dopady a důsledky konání podle AI
  • Továrna na kancelářské sponky
  • AI nemá záměr, ale má utility funkci

43 of 70

Alignment a bezpečnost

44 of 70

Spousta investic

  • Zbrklé nasazování nedostatečně prozkoumaných věcí
  • USA zákaz nových výkonných GPU do Číny
  • Deepsek dokázal natrénovat ~o1 model mnohem levněji

45 of 70

46 of 70

Kde by AI být nemuselo

  • Já se AI živím, baví mě
  • A stejně jsou místa, kde by být nemuselo

47 of 70

captcha

48 of 70

hCaptcha

  • hCaptcha
  • Alternativa k reCaptcha od Googlu
  • Používaná discordem atd.
  • AI generované obrázky

49 of 70

AI generované názvy

50 of 70

51 of 70

Generování odpovědi NAMÍSTO hledání

52 of 70

Apple Intelligence

  • Shrnutí notifikací

53 of 70

Zbrklé používání

54 of 70

55 of 70

56 of 70

LLM v zákaznické podpoře

  • Kanadská aerolinka vracela peníze za lístek zákazníkovi, poté, co LLM řeklo, že to jde, po soudní při
  • Zákazník Chevroletu ukecal LLM k nákupu za $1, nakonec to soudně nevymáhal

57 of 70

AI search engine

  • Perplexity.ai
  • ChatGPT+search
  • Opak toho, co předvádí google

58 of 70

59 of 70

60 of 70

61 of 70

ChatGPT search

62 of 70

NotebookLM

63 of 70

Chat s Animefestími maskoty

64 of 70

65 of 70

Co si z toho všeho odnést?

66 of 70

  • Je to nástroj
  • Jsou špatná i dobrá použití
  • Je fajn tomu dát šanci
  • Zkuste to na věci, co vás nebaví
  • Buďte obezřetní a nespoléhejte se moc
  • Je v pořádku AI nepoužívat

67 of 70

68 of 70

Dotazy?

69 of 70

Odkazy a zdroje

70 of 70

Děkuji za pozornost