1 of 41

Organizace

KNN - Konvoluční neuronové sítě

Michal Hradiš - Brno University of Technology

2 of 41

Garant - Michal Hradiš

Konzultace v Q201 nebo přes MS Teams po domluvě (ústně, email)

3 of 41

Koordinátor - Martin Kostelník

Konzultace v Q201, email, discord

4 of 41

Kontrola studia - testy

  1. 20.3. Základy NN (15 b)
    1. Uvod, lineární modely, chybová funkce, alg. učení (optimalizace), vyhodnocení.
    2. Plně propojené sítě, chybové funkce pro klasifikaci a regresi.
    3. Konvoluční sítě, lokalita a invariance výpočtů.
    4. Generalizace, regularizace, rozšiřování datových sad, multi-task sítě a předtrénování.
    5. Problémy při učení. Batch normalizace. Existující architektury klasifikačních sítí pro obraz.
  2. 24.4. (20 b)
    • Všechny přednášky
    • Důraz na 6 a dál

5 of 41

Projekty

  • 65 bodů celkem
  • 3 studenti v týmu
  • Registrace od 20.2. do 2.3.
  • 4.4. Checkpoint - Návrh projektu + konzultace. Popis problému, review existujících přístupů, připravený dataset, připravené vyhodnocení, baseline řešení, plán řešení a experimentů (12 b)
  • 11.4. - video představující relevantní článek 7 min. (5 b).
  • 9.5. Závěrečná zpráva, zdrojové soubory
  • Veřejná prezentace projektů formou poster session na začátku zkouškového (48 b)

6 of 41

Požadavky na projekt

  • Vzorová témata
  • Můžete si vybrat vlastní téma
  • Nemůžete řešit jednoduchou klasifikaci na standardním problému (co je za objekt na obrázku)
  • Součástí musí být váš vlastní kód, ale využívejte existující projekty, knihovny, modely atd. Váš projekt může být fork existujícího projektu.
  • Zaměření na neuronové sítě, efektivní tvorbu datových sad, způsob učení, architektury modelů, loss funkce, způsob vyhodnocení, …
  • Musí obsahovat experimenty a jejich vyhodnocení.

7 of 41

Požadavky na projekt

  • Zpráva o projektu
    • min. 3x A4
    • preferujeme LaTeX
    • forma technické zprávy nebo výzkumného článku
    • definice úlohy, krátké shrnutí existujících přístupů a nástrojů, popis vašeho řešení, experimenty, výsledky a závěry
  • Zdrojové kódy ve veřejném GIT repozitáři
  • GIT repozitář by měl být součástí checkpointu + commity během řešení (ne až na konci)

8 of 41

Řešené úlohy z 2020/2021

Detekce a rozpoznání dopravních značek�Doporučovací systém, Identifikace aut podle vzhledu�Identifikace osob podle obličeje, Unsupervised image-to-image translation�Identifikace řečníka, Image inpainting, Interaktivní segmentace bodových mračen�Interaktivní segmentace obrazu, Transformer-based Language model�License plate recognition, Obarvování obrazu, Odhad hloubky z obrazu�Painting style transfer, Počítání aut, Prořezávání neuronových sítí (pro rychlost)�Segmentace leteckých snímků, Sémantická segmentace bodových mračen �Single image depth estimation, SRGAN for enhancing skin lesion images

9 of 41

Příklady témat - Colorization

  • https://www.youtube.com/watch?v=MfaTOXxA8dM

10 of 41

Inpainting

11 of 41

Generování pohybu

12 of 41

Reinforcement learning character controll

13 of 41

Reinforcement learning for games

Simple games:

  • Othello
  • tic-tac-toe
  • Bomberman

14 of 41

Divné trénování

  • Aktivní učení
  • Semi-supervised učení
  • Adversarial samples pro učení
  • Self-supervised učení
    • JEPA
    • Masked-pretraining
  • Cokoliv, co sníží (s)potřebu anotovaných dat

15 of 41

Interpretace sítí - co se naučily?

16 of 41

Keypoint/landmark detection

Faces

17 of 41

AI city challange (https://www.aicitychallenge.org/2021-challenge-tracks/)

Rozumné úlohy 2023

  • Challenge Track 1: Multi-Camera People Tracking

Z roku 2022

  • City-scale multi-camera vehicle tracking

Data může poskytnout Jakub Špaňhel

18 of 41

Point cloud data - Object detection

19 of 41

Point cloud data - semantic segmentation

20 of 41

Depth estimation / semantic segmentation

21 of 41

Speech/Text recognition

The following diagrams illustrate selected

versus key setup speed. There were similar tradeoffs in

practice of coding hardware-specific

22 of 41

(Re)-identification

23 of 41

Jazykové modely

Rekurentní, ale třeba i konvoluční, s attention? https://openai.com/blog/better-language-models/

Text seed: In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.

Generated text: The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.

Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.

24 of 41

Conversational Agents

25 of 41

Odstranění šumu z audia / separace řečníka

Beam forming

26 of 41

Topic discovery

Extrakce témat z textu

Témata:

  • Zločiny v Pardubicích
  • Loupežné vraždy
  • Život starých lidí
  • Osamocené stáří
  • Loupeže
  • Úděl žen

27 of 41

Retrieval Augmented Question Answering

Dotaz: Prosím, napiš mi příklady, jak probíhalo osvobozování Rudou armádou.

Odpověď systému:

Osvobozování probíhalo v některých obcích klidně, protože německá armáda již předem vyklidila pozice, ale v některých obcích došlo k bojům. Například ve Václavově u Bruntálu se část německé posádky zabarikádovala v domě, který ale vojáci Rudé armády palbou zapálili. Uvnitř uhořelo 25 vojáků. Bylo zastřeleno také několik civilních osob. [odkaz do kroniky] …

28 of 41

Paraphrase?

ext

Judgments

Hypothesis

A man inspects the uniform of a figure in some East Asian country.

contradiction

C C C C C

The man is sleeping

An older and younger man smiling.

neutral

N N E N N

Two men are smiling and laughing at the cats playing on the floor.

A black race car starts up in front of a crowd of people.

contradiction

C C C C C

A man is driving down a lonely road.

A soccer game with multiple males playing.

entailment

E E E E E

Some men are playing a sport.

A smiling costumed woman is holding an umbrella.

neutral

N N E C N

A happy woman in a fairy costume holds an umbrella.

29 of 41

Named Entity Recognition (NER)

30 of 41

Visual Language Models (VLMs)

Michael Tschannen, et. al. JetFormer: An autoregressive generative model of raw images and text (2024)

Jingyi Zhang, et. al. Vision-Language Models for Vision Tasks: A Survey (2024)

Florian Bordes, et. al. An Introduction to Vision-Language Modeling (2024)

Document image description

Person description

Seznam objektů na obrázku:

  1. Černé auto – Tatra 603, klasický automobil s charakteristickými čtyřmi předními světlomety.
  2. Červené auto – Další Tatra, pravděpodobně Tatra 603 nebo jiný model ze stejné éry.
  3. Chromované nárazníky – výrazné chromované prvky na přední části auta.
  4. Světlomety – čtyři kulaté hlavní světlomety a dvě menší žluté mlhovky.
  5. Kapota s ozdobnou lištou – na kapotě je středová chromovaná lišta.
  6. Boční zpětné zrcátko – umístěné na blatníku na dlouhém držáku.
  7. Interiér auta – viditelná palubní deska, volant a přední sedadla.
  8. Výstavní prostor – auta jsou vystavena v interiéru na světlé podlaze.
  9. Ochranné nárazníkové prvky – černé gumové části na předním nárazníku.

Na obrázku je čelní pohled na černou Tatru 603, klasický automobil vyráběný v Československu mezi lety 1956 a 1975. Tento model má čtyři kruhové přední světlomety, které jsou zasazeny do chromovaného rámečku, a žluté mlhovky na krajích. Přední část vozu zdobí výrazný chromovaný nárazník s černými ochrannými gumovými prvky.

Na kapotě je chromovaná ozdobná lišta, která se táhne od přední masky směrem k čelnímu sklu. Boční zpětné zrcátko je umístěné na blatníku na dlouhém držáku. Skrz čelní sklo je částečně vidět interiér vozu, kde se nachází palubní deska a přední sedadla.

31 of 41

Artistic Text Recognition

32 of 41

Recognition of Mathematical Expressions

33 of 41

Form Information Extraction

34 of 41

Extraction of Bibliographic Metadata

title: str,

subTitle: str,

partName: str,

partNumber: str,

seriesName: str,

seriesNumber: str,

edition: str,

placeTerm: str,

dateIssued: str,

publisher: List[str],

manufacturePublisher: str,

manufacturePlaceTerm: str,

author: List[str],

illustrator: List[str],

translator: List[str],

editor: List[str]

35 of 41

Forced Alignment For Transformers

36 of 41

Rekonstrukce 3D geometrie ruky

Guan Ming Lim, et. al. MobileHand: Real-time 3D Hand Shape and Pose Estimation from Color Image (2020)

Xingyu Chen, et. al. HandOS: 3D Hand Reconstruction in One Stage (2024)

Rolandos Alexandros Potamias, et. al. WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild (2024)

37 of 41

38 of 41

Car/person counting

Wang, Crowd Counting with Density Adaption Networks

39 of 41

Keypoint/landmark detection

40 of 41

Dependency parsing

41 of 41

License plate recognition